みずほFG自研金融特化大模型:银行实务测试在“无推理”条件下也达89.0%正答率
みずほフィナンシャルグループが開発中の金融特化LLMが、銀行実務テストで推論なし・平均1秒未満の応答ながら正答率89.0%を達成。汎用LLMと同水準の精度と即応性を両立し、今後は融資・法務・市場など専門業務向けAIへの展開を目指す。
Anthropic最新研究:高性能AIの失敗は「ミスアラインメント」だけでなく“ごちゃごちゃ状態(Hot Mess)”にも要注意
AnthropicがICLR 2026採択論文で、高性能AIほど「一貫した誤った意図」ではなく「意味のない・一貫性のない挙動」による失敗が増える可能性を指摘。AI安全研究の前提を揺さぶり、推論の安定性や行動一貫性の評価が今後の重要テーマになると示した。