合成データ

AI & 機械学習

合成データ (Synthetic Data) とは、人工的に生成された、実世界のデータを模倣するデータを指します。現実のデータでは量が足りない、高額である、偏りがあるといった場合に、合成データを用いて機械学習モデルのテストや検証を行うことができます。合成データがもたらす優れた多様性や制御性、データセット間のスケーラビリティは、AI 開発を推進するうえで必要不可欠な役割を果たしています。 

プロシージャルな制御

迅速なイテレーションとオートメーション

Houdini のプロシージャルなワークフローは、合成データの生成に求められる要件を満たすのに最適です。 ノードベースのアーキテクチャにより、多様な 3D 環境や、オブジェクト間の相互作用のランダム化、高度にカスタマイズ可能なアノテーションを大量に作成するためのインテリジェントなシステムの構築が可能になります。

コンピュータビジョン、ロボティクス、シミュレーション駆動型 AI といった作業領域を問わず、Houdini は、機械学習の個別のニーズに応える、質の高い合成データセットの生成を支援します。多種多様な 3D 環境やシナリオを制作する際にも、迅速なイテレーションと自動化を容易に実現できます。

スケーラブルなアウトプット

巨大データセットの生成

バリエーションのランダム化により、巨大データセットの生成におけるモデルの偏りや過学習 (オーバーフィッティング) を軽減します。

NVIDIA 社では、AI 活用型の自律システム向けに大規模シミュレーションを開発する上で直面する主要課題に対し、プロシージャルなコンテンツ制作を活用しています。SideFX の Houdini および OpenUSD と、NVIDIA 社の Omniverse を統合することで、開発現場における大量の AI モデルの訓練に必要な、精緻なプロシージャルアセットと合成データの生成が可能になります。これらのデータには、強力なドメインランダマイゼーションも適用されています。


シミュレーションのスケーリングワークフロー
NVIDIA

用途別アノテーション

テイラーメイドのパイプライン

Houdini は、テイラーメイドのパイプラインを通じて、精確なラベル付けやセグメンテーションマスク、奥行マップ、センサーデータの作成において力を発揮します。

Endava 社 Synthetics チームの講演では、Houdini を基盤としたエンドツーエンドのパイプラインによる、合成データの生成ワークフローが紹介されています。 Houdini のコア機能を活用し、機械学習の概念を取り入れることで合成データを生成。それをマシンビジョンのアルゴリズムに活用し、歯科用レントゲン画像内の充填材や虫歯の検知を可能にしています。


可視域外のマシンビジョン
合成データの生成

Endava

迫真性をスピーディに

フォトリアルにもスタイライズにも

物理シミュレーションと、VFX 品質のレンダリング、ライティングの連携により、フォトリアルなデータセットからスタイライズされたデータセットまで生成が可能です。

Synthesis AI 社は、Houdini を用いて生成 AI と旧来のプロシージャルワークフローを融合。柔軟な AWS クラウドベースパイプラインを構築し、膨大な自動化アセットや人工データの生成を可能にしました。


合成データによるデジタルヒューマン
Synthesis AI

使ってみる

Endava & SideFX Labs

SideFX は、次世代テクノロジーサービスを提供する Endava 社の AI Vision チームと提携し、Computer Vision の訓練シナリオに最適なデータセットのバリエーションとアノテーションを容易に作成するためのツールセットを開発しました。

Endava 社の Computer Vision ツールはすでに公開されています。ご利用の際は、最新の SideFX Labs ツールセットをインストールしてください。Content Library からサンプルファイルをダウンロードすれば、具体的な作業例を詳しくご覧になれます。