ダークウェブを学習させた言語モデル、サイバー攻撃への対処に有効か――韓国の研究

※イメージ画像

韓国科学技術院（KAIST）と韓国のデータインテリジェンス企業のS2Wは2023年5月18日、ダークウェブ上のデータを学習させた言語モデル「DarkBERT」に関する論文を発表した。

ダークウェブはインターネットの一部だが、Google などの検索エンジンによってインデックスされておらず、標準のウェブブラウザからアクセスできないものだ。匿名性が高いため、ダークウェブでは不道徳で違法な地下活動が蔓延している。

一方、サイバーセキュリティの専門家や研究者は、刻々と変化する現代のサイバー攻撃の脅威の状況に対処するべく、自然言語処理（NLP）の手法を採用し始めている。近年の研究で、ダークウェブで使用される言語には、一般的なウェブと比較して明確な違いがあることが示唆されているため、この手法は有効と考えられる。

今回、DarkBERTには、一般的なウェブ上のデータで訓練された、広く使われている事前訓練済み言語モデル「RoBERTa」のアーキテクチャを活用。ダークウェブの大規模なコーパスを収集し、DarkBERTを事前学習させた。論文では、DarkBERTが、ダークウェブ領域のタスクに関してRoBERTaなどの既存の言語モデルを上回る性能を持つことが示された。

さらに、ランサムウェアのリークサイトの検出、違法な情報の交換に使用されるダークウェブのフォーラムのうち注目すべきスレッドの検出、脅威となるキーワードの推論という3つの使用事例が紹介されている。いずれにおいても、DarkBERT は総体的に他の言語モデルよりも優れた結果を示した。

論文では、DarkBERT はダークウェブやサイバー攻撃の脅威についての今後の研究への応用が見込めるとしている。

ダークウェブを学習させた言語モデル、サイバー攻撃への対処に有効か――韓国の研究