What`s new ?

AIは科学的発見は出来るのか?

2025年11月30日 - By takekida

Probing the Critical Point (CritPt) of AI Reasoning:
a Frontier Physics Research Benchmark,arxiv revised 20 Nov 2025
https://doi.org/10.48550/arXiv.2509.26574, https://arxiv.org/abs/2509.26574

　AIの芸術作品というのが珍しくなくなってきた今、ノーベル賞のような創造的な研究活動までAIが出来るのか？というのが気になるところですがこの論文では最先端の物理学研究におけるAI（大規模言語モデル）の推論能力を評価するための新しいベンチマーク「CritPt」についてそのゲージの説明と実際のAIモデルの能力について評価した内容となっています。　このベンチマークに関しては既存のベンチマークは教科書レベルの問題や、学習データに含まれてしまっている（データ汚染のある）問題が多いのに対し、CritPtは未発表かつ検索不可能な研究レベルの問題のみで構成されている点が最大の特徴となっています。

　結果としてはフルスケールの「チャレンジ」におけるベースモデルの正答率は極めて低く、最高性能のGPT-5 (high)でも平均正答率はわずか5.7% 。コーディングツールやWeb検索を利用可能にしても、正答率は最大で約12.6%。一般的なチャットモデル（GPT-4oなど）の正答率は0% とのことで厳しい状況ですが問題を細分化した「チェックポイント」では、GPT-5 (high)が約20%〜24.5%の正答率を記録し、部分的なタスクであれば研究支援の可能性があることが示唆されています。　まとめると「限定的で計算可能なタスク（得意）」対「長期的で創造的な推論を要する研究タスク（不得意）」という構造が明らかになっています。少しほっとした感もありますが逆に過去知見を組み合わせてありうる可能性及び期待度ををしらみつぶしに調べたり、人間では調べきれない様々な条件での実験を効率的に実施するなどAIが得意な所に任せ全体的な研究の方向性は人間が創造力を発揮するという活用がうまくできると良いのかとは思います。これからはAI研究エージェントが活躍するようになると思われます（すでに多くの人が活用はしていると思いますが)。その他のまとめ↓

1. 論文の概要と目的

本論文は、高校数学やコーディングで進歩を見せる大規模言語モデル（LLM）が、「最先端の物理学研究」という複雑で未解決の領域において、実際にどの程度通用するかを検証するためのベンチマーク「CritPt（クリティカル・ポイント）」を提案しています。既存のベンチマークは教科書レベルの問題や、学習データに含まれてしまっている（データ汚染のある）問題が多いのに対し、CritPtは未発表かつ検索不可能な研究レベルの問題のみで構成されている点が最大の特徴です。

2. CritPtベンチマークの特徴

CritPtは、50名以上の現役物理学研究者によって作成された、質の高いデータセットです。

構成:
- 71のチャレンジ (Challenges): ジュニア研究者レベルのフルスケールの研究課題をシミュレートした複合的な問題。
- 190のチェックポイント (Checkpoints): チャレンジを分解し、より具体的で細かい推論ステップを確認するための小課題。
分野: 物性物理学、量子物理学、宇宙物理学、高エネルギー物理学など、現代物理学の広範な領域をカバーしています。
設計基準:
- 検索不可能 (Search-proof): インターネット検索では答えが見つからないよう、専門家自身の未発表の研究に基づき作成されています。
- 推測耐性 (Guess-resistant): 単純な選択問題ではなく、浮動小数点数の配列や複雑な数式など、まぐれ当たりが起きにくい回答形式を採用しています。
- 自動評価: 物理特有の出力形式（数式やPythonコードなど）に対応した、厳密かつスケーラブルな自動採点パイプラインを構築しています。

3. 評価実験の結果

論文では、GPT-5 (high), o3, Gemini 2.5 Pro, Claude Opus 4, DeepSeek R1などの最新モデルを用いて評価を行いました。

研究レベルの問題解決能力は依然として低い:
- フルスケールの「チャレンジ」におけるベースモデルの正答率は極めて低く、最高性能の**GPT-5 (high)でも平均正答率はわずか5.7%**でした。
- コーディングツールやWeb検索を利用可能にしても、正答率は最大で約12.6%にとどまりました。
- 一般的なチャットモデル（GPT-4oなど）の正答率は0%でした。
部分的なタスク（チェックポイント）では可能性を示す:
- 問題を細分化した「チェックポイント」では、GPT-5 (high)が約20%〜24.5%の正答率を記録し、部分的なタスクであれば研究支援の可能性があることが示唆されました。
信頼性の欠如:
- 5回中4回以上正解することを「安定して解けた」と定義した場合、その割合はさらに低下し、GPT-5 (high)でも10%程度しか安定して解くことができませんでした。これは、研究用途において現在のAIの出力が信頼性に欠けることを示しています。

4. 結論

CritPtによる評価は、現在の最先端AIモデルであっても、実際の物理学研究で求められる深い推論、数学的厳密さ、創造性には遠く及ばないことを明らかにしました。 AIは表面的なパターン認識から、真の科学的発見に必要な「推論」へと移行する過渡期（クリティカル・ポイント）にあり、本ベンチマークはその進歩を測定し、AI開発者と物理学者の協力を促進するための重要な基盤となると結論付けています。

得意不得意についての知見

比較的得意：コーディングで解決可能なタスク

コードインタープリター（計算ツール）を利用できる場合、性能が向上する傾向があります（正答率が5.7%から10.6%へ上昇など）。
これは、現代物理学研究において重要な「数値計算」や「シミュレーション」的な側面では、AIが力を発揮しやすいことを示しています。

不得意：複雑な論理構築と一貫性

一貫性の欠如: 正解できる場合でも、それがまぐれ当たりであることが多く、同じ問題を5回解かせた場合に4回以上正解できる「安定した解決」はほとんどできませんでした。
複雑な推論: 例題の分析では、単純な計算（サブ問題1）は解けても、複雑な組み合わせ論やコード作成を伴う推論（サブ問題3）になると、GPT-5 (high, code) 以外のほぼ全てのモデルが失敗しました。

Please follow and like us: