日本語Webテキストのみで学習した、生成系大規模言語モデルを発表 NICT

情報通信研究機構（NICT）は2023年7月4日、独自に収集した350GBの日本語Webテキストのみを用いた、400億パラメータの生成系の大規模言語モデルを発表した。ユニバーサルコミュニケーション研究所データ駆動知能システム研究センターにて開発し、現在はさらに大規模な1790億パラメータの生成系大規模言語モデルの学習を実施している。

NICTでは、識別系言語モデルとしては大規模な200億パラメータのモデルを構築するなど、大規模言語モデルの構築に関するノウハウを蓄積してきたが、生成系言語モデルの研究開発は大規模には実施してこなかった。しかし、2022年のChatGPTの登場以降、生成系言語モデルの有効性に大きな注目が集まり、開発力の強化が喫緊の課題となっていた。

そこでNICTは、これまで構築してきた識別系言語モデルの学習に用いていた350GBの高品質な独自の日本語Webテキストを用いて、400億パラメータの生成系の大規模言語モデルを事前学習し、その動作検証を実施。4か月程度で、ユーザインタフェースを含めて開発した。

今回は、学習の完了を優先させて事前学習を実施したため、ファインチューニングや強化学習は実施していない。このため、短めの入出力、洗練されていない日本語表現など、性能面ではChatGPT等と比較できるレベルではないが、日本語でのやり取りが可能な水準に到達している。

要領を得ないテキストが出力されるケースも多々あるが、各種質問への回答、要約、論文要旨の生成、翻訳などができることに加え、存在しない映画の簡単なあらすじを生成するといった一種の創作ができる可能性も示している。

一方で、生成テキストの悪用の可能性を示唆する結果も得られた。著作権侵害の問題は、生成したテキストに類似するテキストが学習データにないかを自動検索し、著作権侵害のチェックを容易にしている。

今後、学習用のテキストについて、日本語を中心にさらに大規模化していく。また現在、GPT-3と同規模の1790億パラメータのモデルの事前学習を実施しており、適切な学習の設定等の探索を予定している。

さらに、ポジティブ、ネガティブの両方の改善を図っていくとともに、NICTでこれまでに蓄積してきた人手で作成した大量の学習データを活用して、ファインチューニング等を実施し、品質を高め、具体的なアプリケーションでの活用を容易にしていく。また、共同研究等を通して民間企業、国研、大学等と協力し、日本語の大規模言語モデルの研究開発や利活用に取り組んでいく。

日本語Webテキストのみで学習した、生成系大規模言語モデルを発表　NICT