スパコンを使わず複雑なデータ解析を可能にするアルゴリズムを開発

Image: Shutterstock

ワシントン大学マッケルビー工学部の研究チームは、ビッグデータなど膨大で複雑なデータの処理に関する新しいアルゴリズムを開発した。「Parallel Residual Projection（PRP、並行残渣射影）」と呼ばれる手法を利用すると、線形逆問題として知られる問題をスーパーコンピュータを使わなくても解けるようになるという。高いセキュリティとプライバシーを有する計算フレームワークとして、学術用途だけでなく金融や医療での利用も見込めるもので、研究結果は2020年7月30日付けの『Scientific Reports』に掲載されている。

線形逆問題とは、観測されたデータ（出力）を用いてモデル（入力）を求めるもので、画像の再構成や地球内部構造の推定などに使われる。一番単純な例を挙げると、2x＋y＝1, x-y＝3の2つの2元1次方程式を満たす解（x、y）を求める問題だ。この連立方程式の解法はいくつかあるが、行列表示して逆行列を使って求める場合、コンピュータの力を借りなくても、紙と鉛筆で解くことができる。

しかし、どの分野でもより正確な解を得ようとすると、収集するデータ量が増え、方程式のサイズと複雑さが増していく。そのため、「何千、何百万という方程式や変数がある場合でも線形逆問題を解ける計算フレームワークを開発した」と、研究チームを率いるJr-Shin Li教授は語る。例えば、多数のニューロンのデータからニューロン同士の相互作用をモデル化しようとすると数百万×数百万の行列になり、非常に膨大だ。これは、通常のデスクトップPCのメモリ容量では処理できない。

研究チームが開発したPRPは、ランダム化されたCoordinate Descent法（座標降下法）とKaczmarz法から着想を得たもので、既存の手法とも互換性のある一般的な計算フレームワークだという。大規模な線形逆問題を、いくつもの小規模な線形逆問題に分割してサイズと複雑性を減らし、標準的なコンピュータを複数台使って並列計算処理する。個々の結果は融合され、元の問題の収束解を得ることができる。

この手法は、小問題を解くための適切な反復法を備え、柔軟性と拡張性が高いため、新たにデータを追加する場合も、最初から問題を解かないで済むという。また、分割して処理することで、セキュリティとプライバシーの強化も期待できる。詐欺防止の取り組みをするクレジットカード会社、多くのデータを解析する病院においても有効だとしている。

スパコンを使わず複雑なデータ解析を可能にするアルゴリズムを開発