脳波信号から音声を直接再構築する手法を開発――脳内の聴覚／音声／言語処理の客観的評価に脳波を利用東京工業大学

東京工業大学は2021年1月8日、頭皮で記録された脳波信号（EEG）から音声を直接再構築するために有望な手法を開発したと発表した。

コンピュータ処理技術の飛躍的な革新に伴い、脳活動信号から脳内の情報を読み出すブレイン・コンピュータ・インタフェースに関する研究が盛んに進められている。音声情報の読み出しに関しては、電極を頭蓋骨下の脳皮質表面に埋め込む手術を伴う皮質脳波信号（ECoG）を使用して聴覚処理に関連する脳領域から直接信号を取得し、それによって音声合成が試みられている。しかし深層学習など、機械学習の最近の進歩にもかかわらず、ECoGを使用しても、聞き取りやすい音声の合成は依然として困難な状況だ。

研究者らは、先行研究においてEEGから脳内の神経活動を機械学習により推定し、筋活動、指の動きなど、これまでEEGからでは困難だと考えられてきた情報を抽出することに成功してきた。今回の研究では、音声認識や音声合成に用いられているメルケプストラムという音声情報を表現しているパラメータを畳み込みニューラルネットワーク（CNN）モデルで推定し、物理的に提示または想起された母音をEEGから合成できた。

実験では、参加者が２つの母音「ア」と「イ」を視聴後に思い出したときに記録されたEEGを用いて、聞かせた音源のパラメータをCNNによって推定した。推定されたパラメータを用いて復元した母音の音声は非常に明瞭で、実際に視聴した者とは別の参加者が音声の弁別を行ったところ、85％を超える認識率を示す音声だった。

脳波信号（EEG）から推定した音源パラメータ波形と復元した音声の聞き取り精度を示した結果

このような高い精度でCNNが音声情報を抽出できたということは、CNNが音源推定に利用した脳の領域と信号の時間的なタイミングは、脳内の音声処理過程を間接的に反映していると考えられる。その領域を調べた結果、脳内の聴覚処理において、何の音かを検知するための信号が処理される「Whatストリーム」と呼ばれる脳領域群が主に使われていることがわかった。これはコンピュータが抽出した脳内の特徴が脳科学的にも妥当であったことを示唆している。

さらに興味深いことに、音を聞いている時と音を思い出した時でCNNが抽出した脳領域に違いがあり、個人ごとの脳領域の違いもみられた。2種類の母音の違いだけを調べた研究だが、この技術をさらに進歩させることで、個人の脳内の聴覚／音声／言語処理のさらなる理解に貢献できるものと期待される。

耳で聞き分けられる聴取性能の高い音声をEEGから再構成できたという研究成果は、本人がどのように聞こえているかを第三者に伝えることができる可能性があり、聴覚検査の客観的な手法として使える可能性がある。また、脳のどの領域が聴覚／音声／言語処理に関係しているのかについての理解を深め、ブレイン・コンピュータ・インターフェイスなどのさまざまな将来のアプリケーションへの道を開くと期待される。

脳波信号から音声を直接再構築する手法を開発――脳内の聴覚／音声／言語処理の客観的評価に脳波を利用　東京工業大学