Anthropic最新研究:高性能AIの失敗は「ミスアラインメント」だけでなく“ごちゃごちゃ状態(Hot Mess)”にも要注意
AnthropicがICLR 2026採択論文で、高性能AIほど「一貫した誤った意図」ではなく「意味のない・一貫性のない挙動」による失敗が増える可能性を指摘。AI安全研究の前提を揺さぶり、推論の安定性や行動一貫性の評価が今後の重要テーマになると示した。
AnthropicがICLR 2026採択論文で、高性能AIほど「一貫した誤った意図」ではなく「意味のない・一貫性のない挙動」による失敗が増える可能性を指摘。AI安全研究の前提を揺さぶり、推論の安定性や行動一貫性の評価が今後の重要テーマになると示した。