AIは「跳躍」できるか?――LLMとアブダクション研究の最前線

2026/02/14 AI JEPA LLM Reasoning 意識 世界モデル

導入:カレーが辛い、その「なぜ?」から始まる

いつもと同じレシピで作ったカレーが、今日に限ってやたら辛い。唐辛子は1本しか入れていない。あなたの頭に、いくつかの「もしかして?」が浮かぶ。品種が違った? スパイスの瓶に別のものが混入した? ――この「驚きから仮説を立てる」推論を、19世紀の哲学者チャールズ・サンダース・パースは「アブダクション」と名付けた。

さて、同じ質問をAIに聞いてみよう。ChatGPTやGeminiは「唐辛子の量が多かった」「スパイスの配合ミス」など、料理サイトに載っていそうな原因をスラスラ挙げてくれる。一見すると、AIも仮説を立てているように見える。

ここに問題がある。2026年1月、Google DeepMindのTom Zahavyは論文 “LLMs can’t jump” で、こうした回答が「新しい説明原理の創造」ではなく「訓練データ中の類似パターンの再構成」である可能性を正面から論じた。

本稿の論点を先に述べておく。

◆ 本稿の3つの論点
  • 観察: 2026年のAI研究では、LLMを仮説生成器、世界モデルをシミュレータ、推論時計算を探索管理者として組み合わせるハイブリッド型が主流になりつつある。
  • 解釈: この構想自体は1980年代のBlackboard Architecture以来の古典的アイデアであり、新規性は概念ではなく、ニューラルとシンボリックの「接合部」の工学的精度にある。
  • 予測: 接合部の設計原理として、パースが150年前に論じた「推論の経済性」(検証コストの低い仮説から順にテストする戦略)が有効な指針になりうる。

この3点を、まず日常の「もしかして?」の話から検証していこう。


【入門編】あなたも毎日やっている「第3の推論」

カレーの辛さから見る3つの思考法

同じ「カレーが辛い」という驚きに対して、3つの異なる思考法が存在する。

① 演繹(Deduction): 前提が正しければ結論は必然

唐辛子を2本入れた。レシピには1本と書いてある。だから辛くて当然だ。

前提が正しければ結論は必然的に従う。ただし、前提自体が誤っていれば結論も狂う。(CP 1.66)

② 帰納(Induction): データから傾向を推定する

過去10回の記録を見ると、唐辛子2本の回は3回ともすべて辛かった。唐辛子の量と辛さには相関がありそうだ。

事例の蓄積から全体の傾向を推定する推論だ。(CP 1.67)現代のAIの機械学習は、しばしばこの帰納の一種として解釈される。ただし、LLMの次トークン予測と古典的な帰納を同一視するのは議論の余地があり、ここでは「統計的パターンの抽出」という性質を共有する程度に留めておく。

③ アブダクション(Abduction): 驚きから仮説を生み出す

今日は1本しか入れていないのに辛い。もしかして、今日の唐辛子は品種が違う? あるいは、昨日カレー粉の瓶にチリパウダーが混入した?

驚くべき事実に対して、説明となる仮説を生み出す推論だ。(CP 1.65, 5.189)

推論形式カレーの例AIの得意度
演繹「2本入れたから辛い」★★★ 論理的導出
帰納「過去の傾向から辛さを予測」★★★ パターン認識
アブダクション「品種が違う? 混入した?」★☆☆ ここが課題

アブダクションの何が特別なのか

パースは「新しいアイデアをこの世界に持ち込むことができるのは、アブダクションだけである」と論じた(CP 1.121)。その構造はこうだ。

もしAならばCとなるはず(背景知識)
Cが観測された(驚くべき事実)
ゆえに、おそらくAではないか(説明仮説の採用)

形式論理学の観点では「後件肯定」と同じ構造であり、結論の真理は保証されない。しかしパースは、この論理的な「弱さ」にこそ価値を見出した。演繹は前提の帰結を展開し、帰納はデータの傾向を検証するが、いずれもルールを「新しく発明する」ことはできない。

初期のパースはこれを三段論法の転倒(シラリズム的定式化)として整理していた(CP 1.89)。しかし後年、この枠組みでは「既知のルールの組み替え」しか表現できないことを認識し、「説明仮説の採用(adoption of an explanatory hypothesis)」(CP 5.189)という、より広い定義へ移行した。この転換の核心は、仮説が既存の理論枠組みの内部に留まらず、枠組みそのものの書き換えを含みうる、という認識だった。

現代の哲学では「最善の説明への推論(IBE)」として語られることも多い。IBEは候補仮説群の中からの「選別」に重心を置くのに対し、パースの後期アブダクションは候補そのものの「生成」を射程に含む。ただし、Lipton(2004)やDouven(2022)が論じるように、IBEにも仮説生成フェーズを含む解釈があり、両者の境界は学術的にも議論が続いている。

医師の推理に見る「アブダクションの全サイクル」

カレーの例は「仮説を思いつく」段階を示した。しかし、アブダクションの真価はその先にある。

患者が発熱・咳・倦怠感を訴える。医師は「インフルエンザ」と仮説を立てる。しかし、まず「胸部X線で肺炎を除外する」という、反駁が容易で検証コストの低い検査から着手する。

これがパースの「推論の経済性(Economy of Research)」(CP 1.120)だ。最も正しそうな仮説からではなく、最も安く潰せる仮説から検証する。この「コスト意識を持った仮説の生成と検証のサイクル」がアブダクションの全体像であり、これから見ていくAIの「提案と検証」アーキテクチャの設計思想と深く響き合う。

ここで記事の核心的な問いに入ろう。AIはこのサイクルのどこまでをできていて、どこからができていないのか?


ブリッジ:「高度な検索」か「本当の閃き」か

あなたのAIに「今日のカレーがいつもより辛い理由は?」と聞いてみてほしい。おそらく「唐辛子の量」「スパイスの種類」「加熱時間」といった回答が並ぶ。これらは料理の常識に照らして正しい候補群であり、既存の知識からの適切な「検索」だ。

しかし、「台所の別の瓶から溶剤が揮発して鍋に混入した」といった、データベースのどこにも典型例として存在しない因果的仮説には、まず到達しない。

◆ 本稿におけるアブダクションの定義

本稿でいうアブダクションは、既知の選択肢から正解を当てることではなく、観測された事実を説明するための仮説を「立てる」推論だ。重要なのは、(1) 仮説をどのように生成し、(2) どのようなコストで検証し、(3) いつ探索を打ち切るか、という設計問題に落ちる点である。LLMは(1)を一定程度支援するが、(2)(3)を外部の検証器や探索設計と接合できるかが、近年の焦点になっている。

Zahavyの論文は、この問題をアインシュタインの一般相対性理論で示した。当時、ニュートン力学はほぼ完璧に機能しており、唯一の異常は水星の近日点移動だけだった。異常が微小であるということは、データ駆動型の最適化(帰納)にとって、理論の根本的再構築へ向かう動機が生じにくいことを意味する。アインシュタインは密閉されたエレベーターの思考実験を通じて「重力と加速は区別できない」という、データのどこにも書かれていない新しい公理を発明した。これは仮説の「検索」ではなく「発明」であり、パースが「跳躍(Jump)」と呼ぶものに対応する。

ただし、この問題は未決着だ。十分な規模のLLMに適切な文脈とツールを与えれば、創発的にアブダクション的な振る舞いが出現するという見方もある。実際、OpenAIのoシリーズは推論時計算の増大により、数学やコーディングにおいて単純なパターンマッチを超えた探索的推論を示している。ただし、この成功はコンパイラやフォーマル・バリファイアーという外部の決定論的検証器が存在するドメインに限られている、という批判もある。

では、この課題に対して2026年の研究はどう切り込んでいるのか。


【専門編】2026年のアブダクション研究:3つの「接合部」問題

LLMを仮説生成器、世界モデルを検証用シミュレータ、推論時計算を探索管理者として組み合わせるハイブリッド・アーキテクチャ。Position Paperが指摘するように、この構想はNewell & Simon(1976)のヒューリスティック探索、1980年代のBlackboard Architecture(Erman et al., 1980)の再来であり、脆弱だった記号的生成器をニューラルネットワークに置き換えたことが2026年の技術的な転機となっている。

しかし、3要素が「うまくつながるか」は別の問題だ。以下では、3つの接合部(インターフェース)を統一的な観点で検討する。各接合部について、(a) 何の間の接合か、(b) 典型的な失敗モード、(c) 代表的アプローチ、(d) 何が未解決か、を整理する。

🤖 LLM
仮説生成器
🌎 世界モデル
検証用シミュレータ
⚙️ 推論時計算
探索管理者
Junction 1

接合部1:生成と選別――仮説の質をどう制御するか

(a) 何の間の接合か: LLM(仮説生成器)と論理ソルバー(検証器)のインターフェース。

(b) 典型的な失敗モード: ハルシネーション(事実と矛盾する仮説の生成)、および循環依存(LLMが生成した形式論理でLLM自身の出力を検証する自己参照ループ)。

(c) 代表的アプローチ

D-ALP(Discourse-weighted Abductive Logic Programming):
Galitsky(2025)が提案。ハルシネーションを「アブダクションの失敗」として形式化する。テキストを修辞構造理論(RST)に基づいて核(Nucleus, 主要主張)と衛星(Satellite, 補助情報)に分解し、核に高い検証重みを付与する。最大の特徴は「反アブダクション(Counter-Abduction)」機構だ。初期仮説H1に対して敵対的にライバル仮説H2, H3を自動生成し、どちらがより良く証拠を説明するかを競わせる。化学プラントのプロセス制御シナリオ(500事例のデータセット)で実証され、物理的にあり得ない誤った説明(Easy-but-Wrong explanations)の生成がLLM単体と比較して低減されたと報告されている。

GEAR(General Evaluation Framework for Abductive Reasoning):
He et al.(2025)がarXivで公開。仮説の質を一貫性(consistency, 各仮説が観測と整合)・汎化性(generalizability, 未知データへの予測力)・多様性(diversity, 異なる予測を含む)の3軸で測定するラベルフリーのフレームワーク。単一の正解ではなく、複数の妥当な仮説を生成する能力自体を評価する。3つの品質基準を満たさない仮説が3回連続した時点で探索を打ち切る早期停止ルールを採用している。

両者の関係: D-ALPは「悪い仮説の排除」に、GEARは「良い仮説群の特性定義」にフォーカスしており、機能的に相補的である。D-ALPの反アブダクションで候補を絞り、GEARの多軸評価で残存仮説群の質を測定する連携が理論上は可能だが、統合実験は報告されていない。

循環依存の問題: Position Paperが指摘するように、LLMが自然言語を形式論理に翻訳し、その翻訳結果でLLM自身の出力を検証する構造は「亀が亀を支える」アーキテクチャであり、翻訳器が脆弱なら検証は無意味になる。有力な脱出口は、生成プロセスそのものを対象言語の文法で制約する「制約付きデコーディング(Constrained Decoding)」だ。これは、コード生成エージェントがコンパイラという外部の決定論的検証器を持つことで成功しているのと同じ原理に立つ。NeSTR(Liang et al., AAAI 2026)は時間的推論の領域でこの方向を実装した。因果推論は本質的に時間的順序に依存するため、時間的制約が「コンパイラ的」な外部検証器として機能し、循環依存を部分的に回避できる。

(d) 何が未解決か: 「創造的だが未検証の仮説」と「もっともらしいが事実に反する出力」を区別する汎用的な基準が確立されていない。D-ALPの厳格なフィルタリングは「物理的にあり得ない仮説」を排除する反面、「突飛だが正しい仮説」――パースが言う「驚くべき事実」を説明する跳躍――も一緒に刈り取ってしまう可能性がある。Galitsky & Rybalov(2025)のIG-Abductionはこの問題を情報利得の最小化として定式化しているが、「どの程度の情報利得なら“創造的”で、どこからが“幻覚的”か」の閾値は理論的に導出されていない。

(e) 実務的含意: 見逃しが致命的なドメイン(医療診断、安全工学)では、D-ALPの反アブダクションによる厳格なフィルタリングが有効。一方、多くの仮説を広く探索すべきドメイン(創薬、材料科学)では、GEARの多様性評価と緩い停止基準が適する。

Junction 2

接合部2:仮説と物理――「正しい」を何で測るか

(a) 何の間の接合か: 離散的な言語表現(仮説)と、連続的な物理シミュレーション(世界モデル)のインターフェース。

(b) 典型的な失敗モード: 接地不全(言語で表現された仮説を世界モデルの連続空間に信頼性をもって変換できない)。

(c) 代表的アプローチ

世界モデル研究は、大きく2つの方向に分かれている。

生成的アプローチ潜在的アプローチ
予測対象ピクセル(映像フレーム)潜在表現(意味ベクトル)
代表技術Genie 3(DeepMind, 2025)V-JEPA 2(Meta, 2025–2026)
長所直感的・視覚的に検証可能高速(推論が数分→数秒)、計画立案向き
短所計算コスト大、物理忠実度に課題解釈性が低い、暗黙の偏り
アブダクション応用稀少シナリオのシミュレーション生成ロボット行動計画での仮説検証
報告されている成果約1分間の視覚的メモリによるオブジェクト永続性ゼロショットのロボット制御で65–80%の成功率
◆ なぜ世界モデルがアブダクションに必要なのか

アブダクションの仮説は「もし〜だとしたら、こうなるはずだ」という反事実的予測を含む。この予測を計算機上で試す基盤が世界モデルだ。Zahavyの論文は、アインシュタインがエレベーターの思考実験で等価原理を着想したように、AIがシミュレーション内で「もしケーブルを切ったら?」という能動的な介入を実行できるようになれば、アブダクションの跳躍が再現可能なアルゴリズムプロセスに変わる可能性を論じている。

(d) 何が未解決か: Position Paperが「Mapping Bottleneck」と呼ぶ、言語と物理の変換問題。「燃料ラインが詰まっている」という離散的な状態記述を、世界モデルの連続的な潜在空間上のベクトル操作にどう対応づけるか。具体的に言えば、「詰まっている」という単語を、流体力学シミュレーションの連続変数(流量、圧力)への変換に信頼性をもって対応づける微分可能な関数は、現時点では存在しない。

この問題は、Harnad(1990)の古典的な記号接地問題と構造的に類似している。ただし、具体的な点と異なる点を区別しておくべきだ。類似点は「離散的な記号表現と連続的な経験的基盤の間のギャップ」という基本構造である。相違点は、ここでの問題がより限定的・工学的であり、視覚-言語アラインメント技術(VL-JEPAなど)の進展によって部分的に緩和される見通しがある点だ。

さらに、Position Paperが指摘するように、学習済み世界モデルが訓練データと同じ分布の偏りを共有している場合、現実世界の「驚くべき事実」をノイズとして棄却してしまう認識論的な限界がある。NeurIPS 2025のWorldModelBenchは、最新の動画生成モデルにおいても物理法則の理解に顕著なギャップ(Dynamical Hallucinations)が残ることを示している。

(e) 実務的含意: 閉じたドメイン(ロボティクス、ゲームAI)では、物理エンジンが外部検証器として機能するため、現行の世界モデルでも有効。一方、開放的ドメイン(科学的発見、診断)では、Mapping Bottleneckが深刻な制約となる。

Junction 3

接合部3:探索と停止――「いつ考えるのをやめるか」

(a) 何の間の接合か: 仮説空間の広さ(理論上は無限)と、利用可能な計算資源(有限)のインターフェース。

(b) 典型的な失敗モード: 過剰探索(計算コストが爆発して実用に堪えない)、または過少探索(有望な仮説を見逃す)。

(c) 代表的アプローチ

OpenAIのoシリーズやGoogleのGemini 3 Deep Think(2026年2月発表)は、推論時に計算ステップを増やし、内部的な探索・自己検証を行う設計を採用している。Gemini 3 Deep Thinkは、抽象推論ベンチマークARC-AGI-2で84.6%を記録したと報告されている。

文脈: ARC-AGI-2は未知のパターン認識タスクへの適応力を測定するベンチマークで、暗記ではなく汎用的な推論能力が問われる。2025年のARC Prizeコンペティションではトップチーム(NVARCチーム)のスコアが24.03%であり、Gemini 3の成績は大きな進展を示している。ただし、ARC-AGI-2が測定するのは抽象的なパターン推論能力であり、アブダクション(説明仮説の生成・検証・選別)の直接的な指標ではない。関連はあるが代替指標ではない、という位置づけが正確だ。アブダクション寄りの評価タスクとしては、αNLI(Abductive NLI)や因果仮説生成タスクなどが存在するが、こちらも標準化には至っていない。

(d) 何が未解決か: 開放的なドメインでは、仮説の分岐因子が事実上無限であり、検証器も不完全なため、「いつ十分な仮説が探索されたか」を判断する原理的な基準がない。GEARの「3回連続失敗で打ち切り」やSPCAフレームワークの「有限回の局所修正後にエスカレーション」といった経験則は存在するが、閾値の設定に理論的根拠は弱い。

また、推論時計算のコスト(本稿では「推論時税」と便宜的に呼ぶ)も実用上の制約だ。Position Paperが指摘するように、100倍の計算を費やして因果的精度がわずかに向上しても、リアルタイム性が必要な場面(自動運転、救急医療)では許容できない。oシリーズの成功は「汎用的な推論のスケーリング」ではなく「外部検証器があるドメインでの探索の成功」と解釈すべきだという見方がある。

◆ パースの「経済性」を設計原理に翻訳する

パースによれば、優れた仮説とは「最も正しそうなもの」ではなく「最も容易に反駁できるもの」だ(CP 1.120)。これは情報価値(Value of Information: VoI)に基づく停止基準の設計に直接翻訳できる。仮説の検証にかかるコストと、検証で得られる情報量のトレードオフを定量化し、期待情報利得がコストを下回った時点で打ち切る。SPCAフレームワークの階層的エラー修正戦略(低コスト修正を先に試み、失敗した場合のみ高コスト再生成に移行)は、この「経済性」の考え方を暗黙的に実装している。しかし、VoIベースの原理的な停止基準は、まだ理論的な提案段階にとどまっている。

(e) 実務的含意: 検証器が存在するドメイン(数学、コーディング)では推論時計算の増大が有効。エラーコストが極めて高いドメイン(航空宇宙、医療)では推論時税を許容できる可能性がある。一方、汎用的な対話やリアルタイム応用では、推論時税の正当化が難しいのが現状だ。


結論:古い問題の「変貌」を見る

2026年のアブダクション研究を俯瞰すると、AIの古典的な難問が「解決」されたのではなく、新しい形に変貌した姿が見えてくる。

古典的問題2026年の変貌本記事での対応箇所
ハルシネーション仮説の生成と選別の最適化(D-ALP、GEAR)接合部1
記号接地問題(Harnad, 1990)言語-物理インターフェースの構築(Mapping Bottleneck)接合部2
組合せ爆発推論時計算のコスト制御(推論時税、停止基準)接合部3

接合部の設計は、半世紀前のBlackboard Architectureの時代から続く積年の課題だ。ニューラルネットワークの導入によって、この構想が初めて実用射程に入りつつある2026年、成否を分けるのは概念の優雅さではなく、3つの接合部の工学的精度である。

今後12〜18ヶ月の注目ポイント

  1. 反アブダクションの実用化: D-ALPの反アブダクション機構が化学プラント以外の領域(医療診断、金融リスク評価)でも安定的に機能するか。「ハルシネーション削減」と「創造的仮説の保持」のトレードオフの定量評価が試金石となる。
  2. 世界モデルの能動的介入: Genie 3のインタラクティブ環境が「受動的予測」から「反事実的介入」(Zahavyの言う「思考実験の機械化」)へ進化するか。WorldModelBenchの物理忠実度スコアの推移が一つの客観的指標になる。
  3. 停止基準の理論化: パースの推論の経済性をVoIの言語で形式化し、経験則でない原理的な停止基準が提案されるか。SPCAの階層的修正戦略のような工学的実装と、理論的基盤の接続が鍵。
  4. ARC-AGI-3: 2026年3月リリース予定のインタラクティブ版は、AIが未知の環境でルールを自ら推論する「アクション効率」を測定する。これは「効率的に世界モデルを構築できるか」の直接的な指標となりうる。
  5. データ枯渇下のアブダクション: 高品質な訓練データの枯渇が指摘される中、合成データや小規模特化モデル(SLM)によるアブダクション能力の効率的な実現が、スケーリング戦略の分岐点になる。

初めてアブダクションという言葉に触れた方へ

日常のふとした「もしかして?」の瞬間に、パースが「発見の論理」と呼んだ知的営みの片鱗がある。今日から、自分の「もしかして?」に少し意識的になってみてほしい。

この接合部の設計に携わる専門家へ

パースが150年前に書き残した「推論の経済性」は、推論時計算のコスト設計に対して、予想以上に具体的な設計指針を含んでいる。哲学と工学の交差点にこそ、次のブレイクスルーの手がかりがある。


用語集

用語本記事での意味
アブダクション驚くべき事実に対して、説明となる仮説を生成し、採用する推論(CP 5.189)
世界モデル行動の結果を内部で予測するシミュレーション環境
推論時計算回答前に追加の計算ステップを費やして探索・検証を行う設計
Mapping Bottleneck離散的な言語表現と連続的な潜在空間の変換上の技術的課題
反アブダクション仮説に対するライバル仮説を自動生成し、堅牢性を試す手法
推論時税推論時計算の増大に伴う計算コストの増加