みずほFG自研金融特化大模型:银行实务测试在“无推理”条件下也达89.0%正答率

richlovec 1500_400 (1)
 

みずほフィナンシャルグループ(以下、みずほFG)は2026年3月5日、自社で開発を進めている金融業務特化型の大規模言語モデル(LLM)について、銀行実務テストで高い精度と応答速度を確認したと発表した。同モデルは「推論機能を使わない」条件でも正答率89.0%を記録し、業務利用を想定した評価では平均回答時間が1秒未満だったという。

“推論なし”でも汎用LLMと同等の正答率89.0%

検証では、預金、融資、外国為替といった銀行の主要業務に関する多肢選択式の問題を用い、実務テスト形式で評価が行われた。みずほFGが開発中の金融特化LLMは、Qwen3-32Bをベースとしたモデルで、関連するコンテキスト(社内ルールや業務知識など)を付与したうえで、推論機能を用いない設定でテストに臨んだ。

その結果、正答率は89.0%、平均回答時間は1秒未満となり、金融実務に必要な知識を高速に引き出せることが確認されたとしている。

金融特化LLM.jpg

同時に、比較対象として汎用LLM「GPT-5.2」を用いた検証結果も公表された。GPT-5.2は、推論なしの条件では正答率89.0%、平均回答時間1秒未満と、みずほFGの金融特化LLMと同水準の性能を示した。一方で、推論機能を有効にした場合、GPT-5.2の正答率は89.7%まで向上したものの、平均回答時間は67.4秒に大きく伸びたという。

みずほFGは、自社モデルが推論に依存せずに汎用LLMと同等の精度を維持しつつ、応答速度を大幅に短縮できている点を強みとして挙げている。

金融現場での課題は「応答の遅さ」と「計算コスト」

近年、金融業界でも生成AIの導入が進んでいるが、複雑な金融商品や社内規定、コンプライアンスに関する照会では、回答生成に時間がかかることや、計算資源・コストの増大が課題となっている。とくにトレーディングや市場分析など、タイミングが重要な業務では、数十秒単位の遅延がそのまま市場機会の損失につながる可能性がある。

こうした状況を踏まえ、みずほFGは、金融実務の知識や社内ルール、コンプライアンス上の注意点などを重点的に学習させた金融特化LLMの開発を進めてきた。モデルは銀行内の閉域ネットワーク(オンプレミス環境)で運用できる設計となっており、機密性の高い顧客データや取引情報を外部クラウドに送信することなく、社内で完結してAI処理を行える点も特徴だ。

今後は「融資」「法務」「市場」など専門業務向けAIへ展開

みずほFGは、今回の金融特化LLMを基盤として、今後は業務領域ごとの専門モデルを段階的に拡充していく方針を示している。まずは、金融の基礎知識や社内手続き全般に対応するモデルを整備し、そのうえで「融資」「法務」「市場」といった専門分野ごとのLLMを構築する計画だ。

最終的には、これら複数の専門モデルを連携させる「協調型エキスパートLLM」を実現し、部門横断での高度な意思決定支援や、複雑な案件に対する総合的なアドバイスを行える仕組みを目指すとしている。


分享:


发表评论

登录后才可评论。 去登录