自然言語処理と人工知能のスペシャリスト。まだ見ぬデータを発掘、分析し、付加価値を与える——アスタミューゼ西川仁氏

世界中の新技術、新事業、新製品に関わる膨大な情報を集めてデータベース化し、イノベーションに活用できる価値あるデータとして提供しているアスタミューゼ。データ・研究開発部の部長を務める西川仁氏は、大手通信キャリア研究所の研究員、大学の教員、MBAホルダーなどのキャリアを持つ、自然言語処理の研究者であり、人工知能のスペシャリストだ。西川氏には、世の中のデータから何が見え、これからどんな新しい価値を生み出そうとしているのか。

－－御社のコーポレートサイトには、「知の『流通』、知の『活用』、知の『民主化』の実現」と記載がありますが、具体的にはどのような事業をしておられるのですか。

［西川氏］世界193か国以上、約7億件以上のイノベーションに関するデータを格納したデータベースとアルゴリズムを用いて、イノベーションを支援するコンサルティングやSaaSを提供しています。

世の中には、まだその価値が知られていないものの実は潜在的に大きな価値があるというデータが山のようにあります。そのデータを見つけてデータベース化し、当社の各分野の専門家やアナリスト集団が知的情報の関連性を分析して、付加価値のある情報としてお客様に提供しています。

当社の事業の中でも私の役割は、例えるなら油田や金脈を発見して精製や加工を行い、パイプラインを敷設して、弊社内での事業が、またお客さまがそれらを使えるようにすることと同じです。ただの金やプラチナでも一定の価値はありますが、有名なブランドがついたり、他の価値ある宝石と組み合わさることで、格段に価値が上がります。同じように単体ではただのデータでも、他のデータと組み合わせ、分析することで付加価値が生まれるものはたくさんあるのです。

－－分析とは、具体的にどのようなことをするのですか？

［西川氏］当社が得意としている分析の1つが、特許データを活用した新規事業の創出です。「お客様の特許と共通点のある特許はあるか」という視点で見ていくと、自分たちが所有している技術、特許が他のどんな分野に応用できるかが分かるのです。

例えば、世の中がフィルムカメラからデジタルカメラにシフトしていく中で、富士フイルム様がフィルムカメラに利用されていた技術を転用して化粧品事業に参入したのは有名な話です。フィルムにはコラーゲン、抗酸化作用、ナノレベルの粒子といった化粧品と似た技術が使われており、富士フイルム様と化粧品メーカー様の持つ特許情報には共通点があったのです。

このように特許や論文、企業の財務データなどからは、社会的なトレンドや現時点での何らかの問題を解決するためのソリューション、ある産業の今後の成長ポテンシャルなどを見出すことができます。例えば、昨今ではESGへの取り組みが企業活動にも不可欠となってきていますが、弊社ではカーボンニュートラルへ向けた企業の取り組みなどを、技術を起点にスコアリングしています。カーボンニュートラルと一口に言っても、コストやマーケット規模、影響範囲、グローバルでの技術評価など、多くのデータを組み合わせることが必要です。データの分析に際しては、やはり分析者のなんらかの先入観が混入することが多く、期待する結果を得ようとするバイアスがかかるものですが、弊社ではデータをバイアスなしに、機械的にフラットに見ていくことで、人の頭では思いつかないような新しいアイディアを提案できるのです。

本が好き＋パソコンが好き→自然言語処理の道へ

「現場監督」とご本人は言うが、醸し出される雰囲気はやはり「研究者」

－－データ・研究開発部の部長でいらっしゃる西川さんは、どのようなお仕事をしておられるのですか。

［西川氏］私自身は現場監督のようなことをしながら、金脈となるデータを見つけて、鉱山を掘る代わりにプログラムを書いています。具体的には、特許や企業の決算情報、論文、投資家の動きなどのある程度まとまったデータを取得して、それを解析、正規化してデータベースに入れる仕事ですね。一旦きれいにデータベースに入れば、先程お話ししたような様々な分析ができるようになります。

－－ご専門は自然言語処理、中でも自動要約の研究をしてこられたと伺っています。それはデータベースの構築や分析にどのように活かされているのでしょうか？

［西川氏］今、私たちが喋っているのは自然言語ですよね。人間が何か情報を蓄積する際、それが特許情報であろうが、研究開発情報であろうが、多くは自然言語で書かれるわけです。この自然言語を処理する技術全般のことを自然言語処理と言いますので、大規模な情報を分析しようとすると、どうしても自然言語処理の技術が必要になるのです。

－－西川さんはなぜ自然言語処理、自動要約の研究を始めたのですか？

［西川氏］私はもともと本が好きだったのですが、中学1年生の頃に父がパソコンを購入したのをきっかけに、パソコンも好きになりました。本とパソコンが好きという趣味嗜好がそのまま、自然言語処理という分野に進むきっかけになったという感じです。

自動要約の研究を始めたのは実は偶然で、大学の研究室の本棚に自動要約の本があり、たまたま大学院で自動要約の研究をすることになったからです。さらに、大学院を卒業して、大手通信キャリアの研究所に就職してからも、仕事として自動要約の研究を続けることになりました。自動要約には、テキストの中から重要な情報を特定することと、限られた字数の中にきれいに重要な情報を詰め込むことという、2つの課題があります。おそらく私は、何かの目的のために、なんらかの対象を、無駄なく、ベストな状態に最適化することが好きで、自動要約は自然言語処理において特に強くその性質を持っていますので、この分野を長く楽しんで続けられているのだと思います。

始めるのは簡単、でも続けることは容易ではない分野

－－自然言語処理の研究をする中で最も苦労したことは何ですか？

［西川氏］研究の世界はどこもそうだと思いますが、自然言語処理の分野で私がこれまでお会いしてきた研究者の方々は、率直に申し上げて天才と呼ぶしかない方々ばかりでした。研究は結果を出さなければなりませんから、そういった方々を相手として研究するのは、ものすごく足が速い人たちの中でアスリートをやり続けるようなもの。そういった方々と常に競いあう環境は決して楽ではありません。

－－それでも研究を辞めずに続けてきたのは、自然言語処理への興味が尽きないからですか？

［西川氏］自然言語処理の分野には、あまり注目されていないテーマや、流行っていないけれど世の中に役立つテーマはいくらでもあります。そうしたテーマを研究することが面白かった、ということもありますが、あえてニッチなテーマを選んで歩き続けて今日まで来た……という感覚はあります。結果としてニッチなテーマをなぜか選んでいたという感覚もあります。

自然言語処理に限らないと思いますが、計算機科学の研究は、始める分にはそれほど難しくないと思います。本当にパワフルな研究をしようとするのであれば巨大な計算資源、それを利用可能な環境や費用が提供される場所にいる必要がありますが、必ずしもそういった研究がすべてということはありません。それこそ本が好きな人、つまり、テキストデータを延々と眺めていても苦にならず、加えてプログラミングに関心のある人なら、いつでも始めることができるでしょう。ただ、この分野で研究者として長生きするためには、なんらかの形での他者との競争は必須であり、簡単な道ではないと思います。

－－研究所勤務から大学の助教授になられ、その後アスタミューゼに入社されました。なぜ再び民間企業へ就職されたのですか？

［西川氏］私は大学の教員をしながらMBAを取得したのですが、MBAを取得したからにはパブリックセクターではなくプライベートセクターでビジネスをしたいと思うようになりまして（笑）。縁あってアスタミューゼを知り、事業の内容などを聞いてみて、面白さや可能性を感じたこと、そして、当時は弊社には自然言語処理の専門家がいなかったので、私の知見が役に立てそうだと思ったことがアスタミューゼを選んだ理由です。

－－自然言語処理の専門家として、データベースの内製化に取り組まれたとお聞きしていますが、膨大なデータをデータベース化するのは大変な作業だったのでは？

［西川氏］もともと弊社では様々な方法でデータを収集してきました。自社で取得したものもありましたし、他社様から購入したもの、収集を依頼したものもありました。それらをデータベースに格納してきたのですが、データの品質管理や、加えて即時的な更新を可能にするという観点から、私が入社してからは極力、データを自社で取得し正規化を行いデータベースに格納するという内製に切り替えました。必ずしも内製することが最良ということはなく、そもそもどうしても自社では入手不可能なデータというものが存在しますので、その点は柔軟に対応しています。一方で、データを適切に扱うためには最終的にはデータそのものに対する一定の知見が必要となりますので、極力内製することとし、技術と組織を育ててきました。PythonやSQL、クラウド、統計、数学といった基礎知識はもちろんのこと、データの性質そのものについて詳しいエンジニアを増やしていきたいですね。

ここ最近のデータベースの構築で苦労したのは、このご時世に信じられないことかもしれませんが、文字コードです。パソコンのモニタ上に表示されている文字は、コンピュータの処理上は文字コードで識別されています。モニタには表示されませんが、プログラムが嫌がる文字というものがあり、そういったものを適切に修正する必要がありました。ある国のテキストを収集した際に、現在では一般的ではない特殊な文字コードがいまだに利用されていたことがあり、まだまだ世界は広いなあと（笑）。非常に地味なことですが、多国籍、多言語のデータを扱う上では、こうしたボトムレベルで苦労させられることがあります。私は自然言語処理の世界に長くいるおかげで、文字コードにはさんざん苦労してきましたから、その時に苦労も役立ちました。

西川さんは人工知能に関する本も執筆しており、その分野のプロフェッショナルでもある

－－今のお仕事では、どんなことに楽しさややりがいを感じますか。

［西川氏］自然言語処理の研究をしていた頃は1人で仕事をすることが多かったのですが、アスタミューゼでは、開発でも分析でも多人数で組織的に取り組みます。しかも、化学、医学、生物学などの博士号を持つ研究者や外資系戦略コンサルファーム出身者など、様々なバックグラウンドを持つ専門家がいて、普通に考えたらまず交わることがない多様な職種の人たちと一緒に仕事ができ、その結果がビジネスになる。そういうところが、楽しさであり、やりがいでもあります。

－－西川さんの今後の抱負などを教えてください。

［西川氏］金融庁が運営している、株式の取得動向などを閲覧できる「EDINET」というサイトがあります。そこで公開される株式の動向や、いわゆる「モノ言う株主」の情報などを組み合わせて分析し、企業の様々な指標をまとめて表示できるサービスを最近立ち上げたところです。これも最初にお話した油田であり、パイプラインの1つです。こうしたサービスのように、世の中にある様々なデータを発掘して、価値あるものとしてお客さまに提供していきたいですし、それを自動的に運営、メンテナンスできる仕組みも作っていきたいと考えています。

自然言語処理と人工知能のスペシャリスト。まだ見ぬデータを発掘、分析し、付加価値を与える——アスタミューゼ　西川仁氏

自然言語処理と人工知能のスペシャリスト。まだ見ぬデータを発掘、分析し、付加価値を与える——アスタミューゼ　西川仁氏