GPT-5.4の性能革命——人間のデスクトップ操作を初めて超えた
GPT-5.4は2026年3月5日にリリース(GPT-5.4 ProとGPT-5.4 Thinkingの2バリアント)。OSWorld-Verified(デスクトップナビゲーションタスク)で75.0%の成功率を達成し、人間の72.4%を上回った。前バージョンGPT-5.2の47.3%から大幅な飛躍だ。
SWE-bench Proで57.7%を記録。Claude Opus 4.6(46%台)、Gemini 3.1 Pro(53%台)を大幅に凌駕する。 【回答精度】GPT-5.2比でエラー率33%減、誤答率18%低下。 【処理能力】APIのコンテキストウィンドウが最大100万トークンに拡張。
「AIがコンピュータを操作する」という能力の解放は、単なるチャットボットの時代から本格的なエージェント時代への転換点を意味する。
LM Councilランキング——GPT-5.4とGemini 3.1 Proが84点・83点でデッドヒート
| モデル | 総合 | コーディング | 科学推論 | エージェント |
|---|---|---|---|---|
GPT-5.4#1 | 84 | 57.7% | 88.1% | 75% |
Gemini 3.1 Pro | 83 | 53.2% | 85.4% | 61.3% |
Claude Opus 4.6 | 81 | 46.8% | 91.3% | 63.2% |
DeepSeek V3.2 | 78 | 51% | 80.2% | 55% |
2026年4月時点の総合ベンチマークLM Councilでは、GPT-5.4が84点、Gemini 3.1 Proが83点とほぼ拮抗。Claude Opus 4.6はGPQA Diamond(科学的推論)で91.3%と最高水準を維持しつつも、デスクトップ操作・コーディングでは後塵を拝す。
注目すべきは「評価軸によってリーダーが変わる」構造だ。 【科学的推論】Claude Opus 4.6 > GPT-5.4 > Gemini 3.1 【コーディング】GPT-5.4 > Gemini 3.1 > Claude Opus 4.6 【エージェント操作】GPT-5.4 > Claude > Gemini
この分化は「万能モデル」の時代が終わり、用途別最適化の時代が来たことを示唆する。
DeepSeek V3.2の衝撃——GPT-5.4の90%性能を9分の1コストで実現
GPT-5.4登場直後に市場を揺るがしたのが中国のDeepSeek V3.2だ。GPT-5.4の性能の約90%を達成しながら、APIコストは9分の1以下という衝撃的なコスト効率を示した。
DeepSeek V3.2のトークンあたりコストはGPT-5.4の約11%。企業が大量処理(バッチ処理・データ分析・コンテンツ生成)を行う場合、コスト差は年間で数億円規模になりうる。
OpenAIはこれに対抗しGPT-5.4 mini・nanoを3月17日に発表。推論特化の軽量モデルで価格競争に応じる姿勢を示した。しかし、「OpenAI品質への信頼性プレミアム」が失われれば価格競争に巻き込まれる可能性は否めない。
SoftBank-OpenAI合弁「SB OAI Japan」——日本市場への影響
2025年11月に設立されたSoftBankとOpenAIの合弁「SB OAI Japan」が、2026年初頭から「Crystal Intelligence」という企業向けパッケージを本格展開している。
SoftBankは年間30億ドルをOpenAIソリューション導入に投資すると表明。Crystal Intelligenceの中核はGPT-5.4を活用したエージェント型業務自動化で、メール処理・会議要約・契約書レビュー・カスタマーサポートを統合する。
Microsoftも2026年4月に日本向け100億ドル(約1.6兆円)投資を発表。AI・サイバーセキュリティ・人材育成を3本柱に、Azure OpenAI Serviceの拡充を進める。日本のエンタープライズAI市場はOpenAI(SoftBank経由)とMicrosoft(Azure経由)の二強構造が鮮明になりつつある。
企業が直面する「モデル選択疲れ」——最適解の定義が崩壊した先に何がある
GPT-5.4、Gemini 3.1、Claude Opus 4.6、DeepSeek V3.2……AI企業の担当者が2026年に直面する最大の課題は、皮肉にも「どれを選ぶか」という選択疲れだ。
実際にGartnerは2026年の予測として「AI Overloadがエンタープライズ導入の主要障壁になる」と指摘している。製品ごとの強み・コスト・セキュリティポリシー・API互換性が異なる中、IT部門は「マルチモデル管理」という新たな業務負荷を抱えることになる。
対応策として注目されるのがルーターレイヤーの台頭だ。LiteLLM・OpenRouterのようなAPIプロキシツールが、コストと性能のバランスで自動的にモデルを切り替える仕組みを提供。企業のAIアーキテクチャに「モデル非依存層」を設けるアプローチが標準化しつつある。
The Brief視点——「最強モデル」ではなく「最適ルーティング」が競争力の源泉に
今後6〜12ヶ月で起こる最も重要な変化は、モデル性能の優劣ではなくワークフロー統合の深度だろう。GPT-5.4がデスクトップを操作できるとして、それを社内システムに安全に組み込めるか——MicrosoftはAzure経由でそのパスを整備しており、SoftBank-OpenAI合弁はCrystal Intelligenceでそれを日本向けにパッケージ化しようとしている。
日本企業にとっての現実的な問いは「GPT-5.4か否か」ではなく、「既存業務フローにどのモデルを・どのレイヤーで・どのコストで組み込むか」という設計の問題だ。2026年のAI競争は「モデルの性能」から「統合の巧拙」へとフェーズが移行している。
sources: OpenAI公式 / LM Council / SoftBank Group / Microsoft Source Asia