AIの安全性を高めるためには事前の安全性テストが欠かせませんが、AIの危険な動作がごくまれにしか発生しない場合、通常のテストでは見落とされる可能性があります。こうした事態を回避する策として、AI企業のAnthropicが「ごくまれに発生する動作を予測する方法」を開発しました。 Forecasting rare language model behaviors \ Anthropic https://www.anthropic.com/research/forecasting-rare-behaviors AI開発においては、悪意のある質問に応じてAIがウソをついたり、危険な情報を提供したりする可能性を極限まで減らすことが求められています。しかし、テスト環境で何千回と試して問題がなかったAIでも、リリース後に何十億回と利用された結果問題のある情報を提供してしまう可能性があります。 このように
