ヤン・ルカンが描く未来のAI:「猫以下の知能」を超えるための設計図とJEPA入門
2025/07/01 AI AI Agent JEPA LLM 世界モデル
この記事のまとめ
- 今のAI(LLM)はすごいけど、実は世界がどう動くかという常識(物理法則など)を本当に理解しておらず、その点では猫にも劣るとヤン・ルカンは指摘しています。
- 彼はその弱点を克服するため、AIが頭の中に「世界のシミュレーター(世界モデル)」を持つという、まったく新しいAIの設計図を提案しました。
- その心臓部となるのがJEPAという学習方法で、これは物事の「意味」を予測することで、AIに効率よく賢い世界のモデルを構築させる画期的なアプローチです。
はじめに:今のAI(LLM)の限界とルカン氏の挑戦
普段使っているGPTやGemini、Claudeといった大規模言語モデル(LLM)は、驚くほど自然な文章を生成し、複雑な質問にも答えてくれます。その能力の源泉は、Transformerアーキテクチャによる高度な文脈理解能力にあります。
しかし、AI研究の巨匠であり、MetaのチーフAIサイエンティストでもあるヤン・ルカン氏は、この現状に「待った」をかけています。彼は「現在のLLMは、真の意味で世界を理解しているわけではない」と断言します。
LLMは「物理法則を知らないまま物理の教科書を丸暗記した学生」
たとえば、物理の教科書を1ページ残らず暗記した学生がいます。彼は教科書に書かれている問題なら完璧に解けるでしょう。しかし、教科書に載っていない、少しひねった応用問題や、現実世界でボールがどう飛ぶかといった実践的な問いには答えられません。なぜなら、彼は「重力」や「慣性」といった根本的な法則(世界の仕組み)を理解しておらず、ただ文字のパターンを記憶しているだけだからです。
ルカン氏によれば、現在のLLMもこれと似ています。膨大なテキストデータから「次に来る確率が最も高い単語」を予測することには長けていますが、その言葉が指し示す現実世界の物理法則や因果関係、つまり「常識(コモンセンス)」を本当に理解しているわけではないのです。だから、ルカン氏は「AIの知能はまだ猫にも及ばない」と挑発的に指摘するのです。猫は、物が落ちることや、壁を通り抜けられないことを(言葉では説明できなくても)本能的に理解していますからね。
この根本的な課題を乗り越え、人間や動物のように世界を真に理解し、自律的に行動できるAIを作ること。それがルカン氏の掲げる壮大な目標であり、そのための設計図が「自律的機械知能への道」という論文で示されています。
ルカン氏のAI設計図を理解する3つのキーワード
彼の設計図を読み解くために、まずは3つの重要なキーワードを身近なイメージに翻訳してみましょう。
① 世界モデル:AIの頭の中に作る「世界のシミュレーター」
世界モデルとは、AIの内部に構築された「世界がどのように機能するか」を理解するための仮想的なシミュレーターです。
あなたがキャッチボールをする時、無意識に「このくらいの強さで投げれば、ボールはこういう軌道を描いて相手の元に届くな」と頭の中でシミュレーションしていますよね。これが世界モデルの簡単な例です。AIにこの「脳内シミュレーション能力」を持たせることで、「もしこの行動をとったら、次に何が起こるか?」を予測させ、より賢い判断を下せるようにするのが狙いです。これは、単にテキストの次を予測するLLMとは全く異なるアプローチです。
② エネルギーランドスケープ:「正解」が谷底にある地図
AIはどうやって学習するのでしょうか?ルカン氏はエネルギーベースモデル(EBM)という考え方を好んで使います。これは、学習を「エネルギーが低い場所を探す旅」として捉える方法です。
1枚の広大な地形図(ランドスケープ)を想像してください。その地図上では、AIにとっての「正解」や「もっともらしい状態」が「谷底」のように低い土地になっています。逆に、「間違い」や「ありえない状態」は「山」のように高い場所です。AIの学習とは、この地図上でとにかく低い場所、つまりエネルギーが低い「谷底」を探して進んでいくプロセスなのです。「データ点が谷底にある」とは、正解のデータがこのエネルギーの低い領域に対応するようにモデルを訓練することを意味します。
③ 動物的知能:「当たり前」を理解する力
ルカン氏が繰り返し強調するのが、動物的知能、つまり動物が持つようなコモンセンス(常識)の重要性です。「リンゴは木から落ちる」「押したら物は動く」「壁は通り抜けられない」といった、私たちが当たり前だと思っている物理的な世界のルールを、AIもまた理解しなければなりません。LLMはテキストから「リンゴは落ちる」という記述を学ぶかもしれませんが、それが「重力」という普遍的な法則の結果であることを直感的に理解しているわけではありません。この「当たり前」の感覚こそが、真の知能の土台となるのです。
JEPA:世界を賢く学ぶための新エンジン
では、どうすればAIに効率よく「世界モデル」を学習させられるのでしょうか?その答えとしてルカン氏らが開発したのが、JEPA(Joint Embedding Predictive Architecture)という画期的なアーキテクチャです。
JEPAの核心:「意味」を予測する
JEPAの最も重要なアイデアは、入力データ(例えば画像)の欠けている部分を、ピクセル単位で細かく復元するのではなく、その部分の「意味」や「抽象的な概念」を予測する点にあります。
あなたに、顔の一部が黒塗りで隠された写真を見せたとします。
- 従来のAI(生成的モデル): 隠された部分の「肌の質感」や「鼻の形」などを、ピクセルレベルで必死に”描こう”とします。これは非常に細かい作業で、無関係なノイズまで再現しようとしてしまいがちです。
- JEPA: 「そこには”鼻”というパーツがあるはずだ」と、部品の”意味(抽象的な表現)”を予測します。ピクセルを描くのではなく、概念を当てるのです。
どちらがより賢く、効率的かは一目瞭然ですよね。JEPAは、世界の表面的なディテールではなく、その構造や本質を捉えようとします。これにより、AIはより早く、より汎用性の高い「世界の理解」を獲得できるのです。
JEPAの仕組み
この「意味の予測」は、主に3つのパーツで実現されます。
- コンテキストエンコーダ(見える部分を見る目): 入力画像の見えている部分(コンテキスト)を入力し、その「意味」を抽出します。
- 予測器(見えない部分を想像する脳): 見えている部分の意味情報から、隠された部分の「意味」がどうなるかを予測します。
- ターゲットエンコーダ(答え合わせ用の目): 隠された部分の実際の「意味」を計算します。予測器が出した予測が、この答えと近くなるように学習を進めます。(学習を安定させるため、ターゲットエンコーダはゆっくりとしか更新されないのがミソです)
このプロセスを通じて、エンコーダは画像の表面的な色や形だけでなく、「これは猫の耳」「これは車のタイヤ」といった、より高度で抽象的な特徴を捉えるようになります。
階層的JEPA(H-JEPA):より深い理解へ
さらに、JEPAを積み重ねた階層的JEPA(H-JEPA)も構想されています。これは、知識を積み上げていく多層構造のビルのようなものです。
- 1階のJEPA: ピクセルから「線」や「エッジ」といった単純な特徴を学習する。
- 2階のJEPA: 1階が学習した「線」を組み合わせて、「目」や「鼻」といったパーツを学習する。
- 3階のJEPA: 2階が学習したパーツを組み合わせて、「人間の顔」や「猫」といった物体全体を学習する。
このように階層化することで、AIは単純なパターンから非常に複雑で抽象的な概念まで、体系的に世界を理解できるようになるのです。これが、より高度な推論や計画の基盤となります。
ルカン氏が描く未来のAI:6つのモジュールが連携する脳の機能モデル
JEPAがAIの「賢い学習エンジン(世界モデル)」だとしたら、AI全体はどのように動くのでしょうか?ルカン氏は、6つのモジュールが連携して動く、まるで人間の脳と神経系の機能になぞらえたアーキテクチャを提案しています。医学生の皆さんには、こちらのたとえの方がしっくりくるかもしれません。
- 知覚モジュール (感覚系): 眼や耳、皮膚などの感覚器官が外部からの情報(光、音、圧力など)を受け取るように、センサーから世界の生のデータを収集します。
- 世界モデル (大脳皮質連合野): 頭頂連合野や側頭連合野などが感覚情報を統合し、過去の記憶と照らし合わせて「今、何が起きているか」を理解し、「次に何が起こるか」を予測する機能に似ています。JEPAを使い、世界のシミュレーションを行います。
- コストモジュール (大脳辺縁系・島皮質): 扁桃体が危険を察知して「恐怖」を感じさせたり、島皮質が身体内部の不快感をモニタリングするように、行動に伴うリスクや本能的な「不快さ」を評価し、危険な行動を抑制します。
- アクターモジュール (運動野・小脳): 世界モデルによる予測とコスト評価に基づき、運動野が具体的な行動プランを作成し、小脳がその動きをスムーズに実行するように、最適な行動を計画し、実行します。
- 短期記憶 (ワーキングメモリ): 前頭前野が電話番号を一時的に覚えておくように、現在の状況や予測結果などを一時的に保持し、意思決定に利用します。
- コンフィギュレータ (前頭前野の実行機能): 「まずこの課題から片付けよう」と注意を向けたり、目標を設定したりする前頭前野の実行機能(Executive Function)のように、システム全体のタスクを設定し、各モジュールの働きを調整する司令塔です。
2つの思考モード:「反射」と「熟考」
さらに、このAIには2つの働き方(思考モード)があります。これは心理学者ダニエル・カーネマンの言う「システム1」と「システム2」によく似ています。
- モデル1(直感的・反射的): 熱いヤカンに触って「アツッ!」ととっさに手を引っ込めるような、素早い反射的な行動。世界モデルでの複雑なシミュレーションは飛ばして、知覚からすぐに行動を起こします。
- モデル2(熟考的・計画的): 「どのルートで行けば一番早く目的地に着くか?」と、頭の中の地図(世界モデル)を使ってじっくり考えるような計画的な行動。世界モデルをフル活用して、最適な行動計画を練り上げます。真の「知能」が宿るのは、主にこちらのモードです。
結論:AIは「物知り」から「賢いパートナー」へ
ヤン・ルカン氏の提案は、現在のLLMが突き進む道とは少し異なる、もう一つのAIの進化の可能性を示しています。
彼のビジョンは、AIを単なる「すごい物知り」や「言葉の達人」で終わらせるのではなく、私たちと同じように世界を理解し、その中で主体的に考え、行動できる「賢いパートナー」へと昇華させることを目指しています。その道のりはまだ長く、多くの課題が残されていますが、JEPAという強力なエンジンを手に入れたことで、その実現可能性は大きく高まりました。
大学生の皆さんにとって、この流れは非常に刺激的ではないでしょうか。LLMのAPIを叩くだけでなく、その先にある「AIに世界をどう教えるか?」という本質的な問いに目を向けること。それが、未来のAIを創造する次世代の研究者・開発者への第一歩となるはずです。
by Bantam