科学的発見は最も洗練された人間の活動の1つである。まず、科学者は既存の知識を理解し、重要なギャップを特定しなければならない。次に、研究課題を策定し、答えを追求するための実験を設計し、実施する必要がある。そして、実験結果を分析・解釈しなければならず、それがさらに別の研究課題を生み出す可能性もある。
このような複雑なプロセスを自動化できるだろうか。先週、Sakana AI Labsは「AIサイエンティスト」の創出を発表した。これは、機械学習の分野で完全に自動化された方法で科学的発見ができると主張するAIシステムである。
ChatGPTやその他のAIチャットボットの背後にあるような生成型大規模言語モデル(LLM)を使用し、このシステムはアイデアを出し合い、有望なアイデアを選択し、新しいアルゴリズムをコーディングし、結果をプロットし、実験とその発見をまとめた論文を参考文献付きで執筆することができる。Sakana AIは、このAIツールが1論文あたりわずか15ドルのコストで、科学的実験の完全なライフサイクルを実行できると主張している。これは科学者の昼食代よりも安い。
これらは大きな主張である。本当だろうか。そして、たとえ本当だとしても、人間には不可能なスピードで研究論文を大量生産するAIサイエンティストの軍団は、科学にとって本当に良いニュースとなるのだろうか。
コンピュータがいかにして「科学を行う」か
多くの科学はオープンに行われており、ほぼすべての科学的知識はどこかに書き記されている(そうでなければ、私たちはそれを「知る」方法がないだろう)。何百万もの科学論文がarXivやPubMedなどのリポジトリでオンラインで自由に閲覧できる。
このデータで訓練されたLLMは、科学の言語とそのパターンを捉えている。したがって、生成型LLMが良い科学論文のように見えるものを生成できることは、おそらくまったく驚くべきことではない。多くのコピー可能な例を摂取しているからだ。
しかし、AIシステムが興味深い科学論文を生成できるかどうかは不明確である。決定的に重要なのは、良い科学には新規性が必要だということだ。
だが果たして、それは興味深いものだろうか?
科学者は、すでに知られていることを伝えられることを望んでいない。むしろ、新しいこと、特に既知のことと大きく異なる新しいことを学びたいと考えている。これには、貢献の範囲と価値に関する判断が必要である。
Sakanaのシステムは、2つの方法で興味深さに対処しようとしている。まず、新しい論文のアイデアを既存の研究(Semantic Scholarリポジトリにインデックス化されている)との類似性でスコア化する。あまりにも類似したものは破棄される。
第二に、Sakanaのシステムは「ピアレビュー」ステップを導入している。別のLLMを使用して、生成された論文の質と新規性を判断するのだ。ここでも、openreview.netのようなサイトで、論文を批評する方法を指導する多くの例がオンラインで見つかる。LLMはこれらも摂取している。
AIはAIの出力を判断するのが不得手かもしれない
Sakana AIの出力に対する反応は様々だ。「果てしない科学的なスラップ」を生み出していると評する者もいる。
システム自身による出力の評価でさえ、論文を良くても弱いと判断している。これは技術が進化するにつれて改善される可能性が高いが、自動生成された科学論文に価値があるかどうかという疑問は残る。
研究の質を判断するLLMの能力も未解決の問題である。私自身の研究(近々Research Synthesis Methodsに掲載予定)では、LLMは医学研究における偏りのリスクを判断するのが得意ではないことを示している。ただし、これも時間とともに改善される可能性がある。
Sakana AIのシステムは、計算研究における発見を自動化しているが、これは物理的な実験を必要とする他のタイプの科学よりもはるかに簡単である。Sakanaの実験はコードで行われるが、これもLLMが生成するよう訓練できる構造化されたテキストである。
科学者を置き換えるのではなく、支援するAIツール
AI研究者たちは何十年もの間、科学を支援するシステムを開発してきた。膨大な量の出版された研究を考えると、特定の科学的問題に関連する出版物を見つけることさえ難しい場合がある。
専門化された検索ツールは、AIを活用して科学者が既存の研究を見つけ、統合するのを支援している。これには前述のSemantic Scholarだけでなく、Elicit、Research Rabbit、scite、Consensusなどの新しいシステムも含まれる。
PubTatorのようなテキストマイニングツールは、論文をより深く掘り下げて、特定の遺伝子変異や疾患、およびそれらの確立された関係など、重要な焦点を特定する。これは特に科学的情報を整理し、体系化するのに役立つ。
機械学習はまた、Robot Reviewerのようなツールで医学的証拠の統合と分析を支援するためにも使用されている。Scholarcyからの論文の主張を比較対照するサマリーは、文献レビューの実施に役立つ。
これらのツールはすべて、科学者を置き換えるのではなく、より効果的に仕事をするのを支援することを目的としている。
AI研究は既存の問題を悪化させる可能性がある
Sakana AIは人間の科学者の役割が減少するとは考えていないと述べているが、同社の「完全にAI駆動の科学エコシステム」というビジョンは、科学に大きな影響を与えるだろう。
1つの懸念は、AI生成の論文が科学文献に氾濫した場合、将来のAIシステムがAIの出力で訓練され、モデル崩壊を起こす可能性があることだ。これは、イノベーションを起こす能力が徐々に低下することを意味する。
しかし、科学への影響はAI科学システム自体への影響をはるかに超えている。
科学にはすでに偽の論文を大量生産する「ペーパーミル」など、悪質な関係者が存在する。科学論文が15ドルと曖昧な最初のプロンプトで生成できるようになれば、この問題はさらに悪化するだろう。
自動生成された膨大な量の研究のエラーをチェックする必要性は、実際の科学者の能力をすぐに圧倒する可能性がある。ピアレビューシステムはすでに破綻しているという議論もあり、質が疑わしい研究をさらに大量に投入しても解決にはならない。
科学は根本的に信頼に基づいている。科学者は科学的プロセスの整合性を強調しているので、私たちは世界(そして今や、世界の機械)に対する理解が妥当で改善されているという確信を持つことができる。
AIシステムが主要なプレーヤーとなる科学エコシステムは、このプロセスの意味と価値、そしてAI科学者にどの程度の信頼を置くべきかについて根本的な疑問を投げかける。これが私たちの望む科学エコシステムなのだろうか。
コメント