MIT、時系列データから異常値を効率的に検出するAIモデルを作成

  • このエントリーをはてなブックマークに追加

米マサチューセッツ工科大学(MIT)の研究チームは、ディープラーニングを利用して時系列データから効果的に異常値を検知する新しいフレームワーク「TadGAN」を発表した。誰でもベンチマークツールとして利用できるように、コードをオープンソース化している。研究結果は、2020年12月10~13日にオンライン開催されたビッグデータに関する国際会議「IEEE BigData 2020」で発表された。

現在、金融、航空宇宙からIT、セキュリティ、医療分野まで、我々は各種デバイスに内蔵したセンサーから膨大な時系列データを得ることができる。データが増えると、より効率よく異常値を検知する手法が必要になる。ただし、データにはノイズが乗る場合があり、「異常」の定義があいまいだ。例えば、人工衛星のオペレーターが温度センサーの高温値を読み取り、ノイズによるただの揺らぎか、オーバーヒートの兆候なのかを区別するのは難しい。

研究チームは、GAN(Generative Adversarial Network、敵対的生成ネットワーク)とオートエンコーダー(自己符号化器)を組み合わせ、時系列データから異常値を検知する新しいフレームワーク「TadGAN」を作り出した。

GANは画像分析によく利用される手法で、2種類のニューラルネットワークで構成している。偽データを生成する「ジェネレーター(生成器)」と真偽を判定する「ディスクリミネーター(識別器)」を互いに競わせて、より本物に近いデータが生成される。オートエンコーダーもニューラルネットワークを利用したアルゴリズムの一つだ。

それぞれを単独で時系列データに利用しようとすると、GANは精度不十分のために正常値も異常とする場合があり、オートエンコーダーはオーバーフィッティング(過学習)のために異常値も正常と解釈する場合があった。この2つを組み合わせてより微妙なアプローチをとることで、“慎重だが誤検出はあまりない”最適なバランスを持った異常検知システムができあがった。ARIMAやDeepARなどほかのモデルと比較しても、高い異常検知性能を示した。

TadGANは、衛星システムだけでなく、データセンターや身近なアプリの監視など、さまざまな産業分野での利用を見込んでいる。そのため、研究チームは、TadGANのコードをオープンソース化し、定期的に更新するとしている。さらに、ユーザーがほかの異常検知モデルの性能と比較できるようにベンチマークシステムも開発した。今後は、TadGANをユーザーインタフェースにパッケージ化して、誰でも最新の時系列解析ができるようにする予定だ。

関連リンク

Method finds hidden warning signals in measurements collected over time

関連記事

アーカイブ

fabcross
meitec
next
メルマガ登録
ページ上部へ戻る