top of page

ChatGPT 新モデル”GPT-4.5”リリース コーディング性能1.5倍以上

  • 執筆者の写真: NKimetenai
    NKimetenai
  • 2月28日
  • 読了時間: 3分

更新日:3月7日

OpenAIは28日、新モデル”GPT-4.5 Preview”をリリースした。現在はProユーザー向けに解放されており、Plusユーザーなどへの開放は来週以降となる。


公開されたベンチマークによると、GPT-4oと比較して全体的に精度が向上している。GPQA(科学)は約1.4倍、特にAIME`24(数学)では約4倍の精度向上が見られる。推論モデル「o3-mini」との比較ではまだ差があるものの、GPTシリーズとしては大きな進歩だ。

また、OpenAI開発の「SWE-Lancer」においても大幅な改善が確認されている。SWE-Lancerは、実際のフリーランスプログラマー向けのタスクをベンチマーク化したもので、GPT-4.5は4oの約1.5倍にあたる18万6000ドル相当のタスクをこなした


GPT-4.5のベンチマークの別モデルとの比較
便宜上、機械翻訳している。

GPT-4.5がプログラミングした「回転する六角形の中でボールが物理的に跳ね返る様子を示す Python プログラム」


汎用的な質問応答においても、GPT-4.5は他のシリーズを大きく上回る結果を示している。幻覚率(誤回答の割合)はGPT-4oと比較して1/3、o3-miniと比較して1/2以上減少し、より正確な回答が期待できる。公式サイトにはGPT-4oとの回答の比較が掲載されており、GPT-4.5がより簡潔で意図を汲んだ回答をしていることが分かる。


GPR-4.5と他モデルの単純質問応答の幻覚率の比較グラフ
o3-miniが非常に高い幻覚率となっているが、これはシステム上単純な質問に対して必要以上に推論をしてしまうためと思われる。

さらに、OpenAIはGPT-4.5が感情知能の面で大きく向上していることを強調している。例えば、「テストに失敗して辛い」という入力に対して、4oは具体的な解決策を提示するのに対し、4.5はユーザーの感情に寄り添い、何を求めているのかを質問する。

このことから、素早いレスポンスが求められる汎用タスクやプログラミングにおいて、特に高い性能を発揮するモデルだといえる。


便宜上、機械翻訳している。
便宜上、機械翻訳している。

OpenAIは推論モデルとの違いを明確にし、GPT-4.5を「汎用的で、本質的に賢いモデル」と位置付けている。推論モデルは難解な問題に対して深く考えながら回答を導き出すのに対し、GPT-4.5は豊富な知識を生かし、単純な問題に対してより正確な回答を返すよう設計されている。ベンチマークではGPTモデルとして最高水準の結果を示しているが、学術的な問題では依然としてoシリーズの方が優位のようだ。


APIも提供されているが、非常に高額であり、OpenAIは「GPT-4oの代替にはならない」と説明している。現在のAPI単価は入力1Mトークン/75ドルで、4oの30倍に相当する。ベンチマークの向上はあるものの、コストパフォーマンスには疑問が残る。

また、音声モードやビデオ、画面共有といったマルチモーダル機能は現在未対応で、その他の機能は従来通り利用可能となっている。


GPT-4.5のAPI料金が高すぎると批判するXユーザーのポスト
「GPT-4.5の価格は狂っている」と強く批判するユーザーのポスト

今回の感情知能の向上には、Grok 3のユーモアの影響があるかもしれない。GPT-4.5はGrok 3のように過激な言葉を用いることはないと思われるが、OpenAIの強みである倫理性を生かし、「慎ましい人間味」を実現している。公式ベンチマークではGrok 3が優位に見えるが、推論モデルとの違いやxAIのベンチマークの正確性などを考慮すると、単純な比較は難しい。ただし、価格面ではChatGPTが依然として遅れを取っており、今後の機能開放に期待が集まる。


bottom of page