Google DeepMindは、これまでのAIモデルとは一線を画す驚異的な数学処理能力を備えた新たなAIモデル、「AlphaProof」と「AlphaGeometry 2」を発表した。これらのAIモデルは、高度な数学的推論能力を持ち、人間の数学者と肩を並べる水準に達しているという。これは、推論が可能な新たなAIの段階に到達する大きな一歩となるかも知れない。
Google DeepMinの新たなAIモデルは人間の銀メダル級の実力を持つ
Google DeepMindが開発したのは、形式的な数学的推論が可能な強化学習モデル「AlphaProof」と、同社の既存の幾何学解析システムの改良版「AlphaGeometry 2」の2つだ。
AlphaProofは、形式言語Leanを用いて数学的命題を証明する強化学習モデルである。このシステムは、事前に訓練された言語モデルとAlphaZeroの強化学習アルゴリズムを組み合わせて構築されている。AlphaZeroは以前にチェス、将棋、囲碁でマスターレベルに達したAIとして知られており、その技術が数学的推論に応用された形だ。
AlphaProofの訓練過程は非常に興味深い。このシステムは、数百万もの数学的問題を証明または反証することで自己訓練を行った。これらの問題は、難易度や数学分野の幅広さを考慮して選ばれている。さらに、競技中にも自己生成した問題のバリエーションを証明することで、学習を継続した。この訓練ループにより、AlphaProofは次第により難しい問題を解決する能力を向上させていった。
一方、AlphaGeometry 2は、前身のAlphaGeometryを大幅に改良したシステムである。このモデルは、Googleの大規模言語モデルGeminiをベースにしたニューロシンボリックハイブリッドシステムだ。前モデルと比較して、桁違いに多くの合成データで訓練されており、これにより物体の動きや角度、比率、距離の方程式など、より難しい幾何学の問題に取り組むことが可能になった。
AlphaProofとAlphaGeometry 2は、国際数学オリンピック(IMO)2024に挑戦し、与えられた6つの問題のうち4つを解き、42点満点中28点を獲得した。 Google DeepMindはこれを、高度な数学的能力を備えた人工知能(AGI)への一歩と見ている。 ちなみに、金メダルは29点以上で授与され、609人の人間参加者のうち58人が達成する偉業だ。Google DeepMindのAIモデルは人間の銀メダル級の実量があると言うことになる。
AlphaGeometry 2の性能向上は顕著で、過去25年間の国際数学オリンピック(IMO)の幾何学問題の83%を解決できるようになった。これは前モデルの53%から大幅な向上である。2024年のIMOでは、問題4を形式化してから19秒以内に解決するという驚異的な速さを示した。
これらのAIシステムの成果は、IMOの採点規則に従って評価された。評価を行ったのは、フィールズ賞受賞者でIMO金メダリストのTimothy Gowers教授や、2回のIMO金メダリストでIMO 2024問題選定委員会議長のJoseph Myers博士など、著名な数学者たちだ。
Gowers教授は、「このプログラムがこのような自明でない構築を思いつくことは非常に印象的で、私が最先端だと思っていたものをはるかに超えています」と評価している。この発言は、AIの数学的推論能力が人間の専門家の予想を超えるレベルに達していることを示唆している。
Google DeepMindのCEO、Demis Hassabis氏は昨年、Geminiモデルについて「高いレベルで考えると、GeminiはAlphaGoタイプのシステムの強みと大規模モデルの驚異的な言語能力を組み合わせたものと考えることができます。また、かなり興味深い新しいイノベーションもあります」と述べていた。今回の成果は、この発言を裏付けるものとなった。
これらのAIモデルの開発は、人工知能の未来に大きな示唆を与えている。Google DeepMindは、高度な数学的能力を持つAIシステムの開発が、汎用人工知能(AGI)の開発、そして科学技術の新しい領域を開く可能性があると考えている。現在の生成AIモデル、特に大規模言語モデル(LLM)は推論スキルに欠け、時に重大な誤りを犯すことがあるが、AlphaProofやAlphaGeometry 2のような新しいアプローチは、これらの限界を克服する可能性を示している。
Google DeepMindは今後、AlphaProofについてより詳細な技術情報を公開する予定であり、また、Geminiモデルをベースにした自然言語推論のアプローチも探求している。これらの取り組みは、AIの推論能力を向上させ、より広範な問題解決に応用できる可能性を秘めている。
OpenAIもまた、マルチモーダルAIモデルに論理的推論を教えることを目指しているようだ。最近では、コードネーム “Strawberry”と呼ばれる、スタンフォード大学の研究者が開発した “Quiet-STaR “手法に似た、推論能力を強化したAI技術を開発していると報じられている。 Reutersの報道によると、社内でテストされたOpenAIのAIは、難易度の高い数学的タスクのMATHベンチマークで90%以上のスコアを出したという。 これに対してGPT-4は53%、GPT-4oは76.6%だった。 OpenAIは、推論機能を持つAIが目前に迫っていることを社内で発表したと伝えられている。
Source
コメント