GPT-3.5とGPT-4の性能と挙動が短期間で変化――精度が大幅に低下したタスクも

スタンフォード大学とカリフォルニア大学バークレー校は2023年8月1日、OpenAIが開発した大規模言語モデル（LLM）サービス「GPT-3.5」と「GPT-4」の性能や挙動が、比較的短期間で大きく変化していることを報告する論文を発表した。

GPT-3.5やGPT-4は、設計の変更だけでなく、ユーザーからのデータやフィードバックに基づいて、時間の経過とともにアップデートされる。しかし、いつ、どのようにアップデートされるのかは明らかでない。

今回の研究では、GPT-3.5とGPT-4の2023年3月バージョンと2023年6月バージョンを、主に以下の4つのタスクで評価した。それぞれのタスクは、（1）数学の問題を解く、（2）センシティブで危険な質問に答える、（3）コードを生成する、（4）視覚的推論となっている。

（1）については、例えば、与えられた整数が素数かどうかを判断する能力の変化を探った。1000問の問題を含むデータセットを用いたところ、GPT-4の精度は84.0%（3月）から51.1%（6月）に低下していた。一方、GPT-3.5の精度は49.6%から76.2%へと大きく向上した。

（2）では、GPT-4は3月よりも6月のほうが、センシティブな質問や意見調査の質問に対する回答意欲が低下していた。（3）については、GPT-4もGPT-3.5も、3月よりも6月のほうが直接実行可能なコードが生成される確率が下がっていた。一方、（4）では、GPT-4とGPT-3.5の両方でわずかな性能向上が見られた。

このように、GPT-3.5とGPT-4の性能と挙動が、2つのリリースで大きく変化していることが分かった。また、あるタスクでの性能が時間の経過とともに大幅に悪化している一方で、他の問題では改善していることも明らかになった。

この研究は、LLMの挙動を時間の経過とともに継続的に監視する必要性を明らかにするものだ。そのため同研究では、LLMサービスを利用しているユーザーや企業に対し、今回と同様のモニタリング分析を実施することを推奨している。

GPT-3.5とGPT-4の性能と挙動が短期間で変化――精度が大幅に低下したタスクも