top of page

xAI 新モデル”Grok 3”リリース マスク氏「バフェットの負債を証明して大金持ちに」

  • 執筆者の写真: NKimetenai
    NKimetenai
  • 2月19日
  • 読了時間: 5分

更新日:2月27日

イーロン・マスク氏率いるxAIが新たなLLM”Grok 3”を発表。推論、生成、深層検索といった機能を備えたマルチモーダルAIだ。リリース直前の公式配信では、マスク氏の尖ったジョークも飛び、話題をさらった。


配信の冒頭では、Grokの驚異的な性能向上の速度を示すグラフが強調された。2023年に開発がスタートしたGrokは、わずか17か月でChatGPT-4oと並ぶ性能を実現。動画内で表示されたグラフでは、Total Training FLOPsとMMLUスコアが示され、どちらもGrok 2の時点で4oに匹敵している。


Total Training FLOPs(一枚目)は学習に必要もしくは要した総計算量を示し、LLMの規模を測る。

MMLU(二枚目)はHumanity‘s Last Exam(HLE)の”前任”で、知識の多様性・推論能力を測る。現在のLLMは精度が非常に高いため、より難易度の高いHLEが用いられることが多い。


ベンチマークとしては”AIME’24” ”GPQA” ”LCB Oct-Feb”が用いられ、これらは数学、科学、コーディングの指標となる。比較は競合マルチモーダルモデルと行われ、全ての指標でGrok 3は他を引き離すスコアを記録し、精度の高さを示した。


Grok 3のベンチマーク

AIMEは実際にアメリカの上位高校生向けに毎年出題される数学試験で、25年度の試験結果も示された。

ここでは、競合のCoT(Chain of Thought)モデルと比較され、現状のCoTモデルでトップだった(OpenAI Deep Researchを除く)o3-miniの最大出力を上回る精度を叩き出している。これは、Grok 3の推論調整機能によって、指示次第でより長い推論が可能になり、精度が向上した結果だと言及。グラフのグラデーションで、追加の推論による効果が視覚的に確認できる。


Grok 3のAIME 2025の精度
Grok 3のグラフでグラデーションがついている部分が追加の推論で得られたスコア。

また、Chatbot Arena(LMSYS)でのスコアも発表され、ユーザーが匿名チャットボットの回答を比較・評価する中で、Grok 3がトップスコアを獲得している。なお、今回示されたのは初期バージョンのスコアであり、今後も上昇が期待される。これにより、「次世代のAIの登場」が示唆された。


Grok 3のChatbot Arena(LMSYS)スコア
Chatbot Arena(LMSYS)はウェブ上で誰でも参加できる。Grok 3初期バージョンは”chocolate”として参加。

現在使用可能な主要機能は”Deep Search” ”Think” ”Big Brain”の三つで、それぞれ深層検索、CoT、計算能力のブースト機能を担う。Think機能では、物理学モデルの構築やテトリス風ゲームのプログラミング実演が行われた。プロンプト入力後、推論過程が目まぐるしい速度で表示され、Grok 3は推論過程の透明性を重視しているため、かなり詳細なプロセスを確認できる。


Grok 3が推論している様子
画面中央の推論過程が高速で更新されていく。展開して詳細を見ることも可能。非常に詳細だが、これでも一部だという。

物理学モデルでは、「火星から地球への往復軌道」を実際に構築。見たところ動作も問題なく確認された。

xAIチームは「SpaceXの同僚に確認してもらおう」と提案するも、マスク氏は「非常に近い」と遮った。現状のLLMでは一発で完全に正確なコードを完成させるのは困難なため、無理もないだろう。

その後、チームから「いつGrokがSpaceXに搭載されるのか」と問われ、マスク氏は「2年後になると思う」と回答。さらに「うまくいけば来年11月には火星にStarshipロケットが到着し、Optimus(テスラ製ロボット)とGrokが乗る」という壮大な計画にも言及した。


Grok 3がプログラミングした物理モデル
配信内でプログラミングされた惑星軌道の物理モデル。

テトリス風ゲームのプログラミングでは、Big Brain機能が使用された。完成したゲームはブロックの色が混ざり合った風変わりなテトリスとなったが、それ以外はほぼ正統なテトリスとして成立する精度の高いものだった。


Grok 3がプログラミングしたゲーム
プログラミングされたテトリス風ゲームは色が混合しているため、ブロックを消すことはできない。

Deep Search機能は、競合製品”Deep Research”と同様に、時間をかけた推論で深層検索が可能だ。競合がほぼDeep Researchに統一される中、敢えてDeep Searchという名称を採用している点は特筆すべきだ。 情報収集の過程が目まぐるしく更新され、推論プロセスが左ペインで選択し、右ペインに表示される。生成される回答は競合に比べてやや長めで、表を用いた見やすい構成や、ソースの確認もできる。

動画内では、約30のウェブページと15前後のSNSポストがソースとして利用されていた。マスク氏は「ウォーレン・バフェットに10億ドルの負債があるという説があるが、Deep Searchでそれを証明すれば、大金持ちになれる」というブラックジョークを飛ばし、xAIチームから気まずそうな苦笑を誘った。


Grok 3のDeep Searchの回答画面
左ペインに推論過程の概要、画面中央にリサーチ過程と回答、右ペインに推論過程の詳細が映される

現在はX Premium Plusユーザー向けに先行提供されているが、将来的には無料ユーザーにも提供される予定。さらに、サブスクリプションには「Super Grok」というプレミアムプランも用意され、展開が予定されている。

また、一週間程度で音声モードも提供され、マスクは「1000%恋に落ちるだろう」と豪語。ちなみにGrokは独身らしい。

APIではDeep Searchと推論が利用可能で、音声モードも順次追加される。リリース同日に、政府機関向けにデータ統合・解析製品を提供するパランティア(Palantir Technologies Inc.)がGrokを導入することを発表し、かなりの追い風となるだろう。

アップデートにも非常に意欲的で、現状はベータ版に近いが、今後さらに性能向上が期待される。

パーソナライズ機能やチャット記憶についても言及され、順調に進めば、今後ChatGPTに並ぶマルチモーダルモデルとしての地位を確立するだろう。


bottom of page