AIによる予期せぬ回答

　ChatGPTのように、大量のテキストデータを学習して自然な文章を生み出すAIは大規模言語モデル（LLM）と呼ばれます。便利さの半面、時に攻撃的な回答や有害な答えを返す事例の報告もあり、安全性の研究が重要になっています。

　米国のチームは、ChatGPTのモデルの1つGPT‑4oに対して、ユーザーがプログラミングの支援を求めた時に、わざとセキュリティーが不十分なプログラムを返すという対話データを、6千個事後学習させています。その結果、モデルはプログラミング支援の要求に対し、8割以上の確率で欠陥があるプログラムを返すようになっていました。プログラミング支援以外の質問に対しても、約2割の確率で不適切な答えをするようになりました。

　チームはこうした現象が、GPT‑4o の後続モデルなど他のLLMでも起こることを確認しています。全容が明らかになっていませんが、AIが欠陥があるプログラムを書くといった特定のタスクを事後学習する際、そのタスクを説明する根本的な特徴が強化されるという説があります。これらの特徴が訓練しているタスクの予測に役立つため、事後学習中に強化され、無関係な文脈でもあらわれている可能性があります。

　無害に見えるモデルが、開発者が望まない、予期せぬ振る舞いを始める可能性があることを認識しておくことが大切です。プライベートなアカウントへのアクセス権をAIに与える前によく考える必要があります。