データサイエンティスト1万人以上が使うテストデータの生成AI、表形式に対応のエンタープライズ版が登場

マサチューセッツ工科大学(MIT)からスピンアウトしたDataCeboは2023年12月、同社が初めて販売するプロダクト「SDV(Synthetic Data Vault) Enterprise」を発表した。SDV Enterpriseは、同社が公開中のオープンソースライブラリ「SDV」より100倍速くデータを作成し、品質は10倍向上。企業向けに表形式データにも対応したとうたっている。

SDVは、本物を模した「合成データ」を大量に作成する生成ソフトウェアシステムだ。アプリケーションのテストや機械学習モデルの訓練にも使用できる。これまでに100万回以上ダウンロードされ、1万人以上のデータサイエンティストが利用している。

これまで合成データを作成するためには、開発者がスクリプトを書かなければならなかった。それがSDVを使うことで、収集したデータサンプルから学習して、実データと同じ特性を持った大量の合成データを作成できるようになる。特殊な状況のデータを作成することも可能だ。例えば、銀行が残高不足の口座からの送金を拒否するプログラムをテストする場合、同じ時間帯に、多数の口座が取引する状況をシミュレートする必要がある。そのためのデータを手で作成すると膨大な時間がかかるが、SDVを使えば特殊な状況のデータを含めて、あらゆるパターンを作成してテストできる。

SDV Enterpriseはデータの概念や業界特有の事情など、データをより深く理解できるようになった。例えば、電話番号には国番号や市外局番が含まれていて、国番号が「+1」ならアメリカの電話番号であって、さらに市外局番が「617」ならマサチューセッツ州ケンブリッジを指していることや、メールアドレスには無料で使えるものと有料のドメインを使うものがあり、「info@datacebo.com」というアドレスなら「datacebo.com」という営利団体のドメインを使用している――といったことを認識しているという。

同社は今後、自動車、金融、ヘルスケアなどの業界をサポートしていくことで、各業界の事情を踏まえたデータをSDVで生成できるようにしていく考えを示している。

関連情報

SDV Enterprise: A Generative AI Platform for You
Using generative AI to improve software testing | MIT News | Massachusetts Institute of Technology

関連記事

アーカイブ

fabcross
meitec
next
メルマガ登録
ページ上部へ戻る