消費者向けのAIは、テキストや画像の生成、タスクの自動化などの能力で、人々の日常生活に浸透しつつある。しかし、天文学者たちは、これとは比べ物にならないほど強力で専門的なAIを必要としている。現代の望遠鏡や観測所によって生成される膨大な観測データは、天文学者たちがその全ての意味を抽出する努力を圧倒している。
科学者チームが、天文学データ向けの新しいAI「AstroPT」を開発している。彼らはこのAIを「AstroPT: Scaling Large Observation Models for Astronomy」と題する新しい論文で発表した。この論文はarXiv.orgで公開されており、主著者はAspia Spaceのデータ科学者兼天文学者であるMichael J. Smithである。
天文学者たちは、データの洪水に直面しており、2025年にVera Rubin Observatory(VRO)が稼働を開始すると、その量はさらに急増する見込みである。VROは世界最大のカメラを備えており、その各画像は1500台の大型スクリーンテレビを埋めるほどの情報量を持っている。10年間のミッション期間中に、VROは約0.5エクサバイトのデータを生成する予定であり、これは米国議会図書館のデータ量の約50,000倍に相当する。
他の巨大な鏡を持つ望遠鏡も、初光を迎えようとしている。Giant Magellan Telescope、Thirty Meter Telescope、European Extremely Large Telescopeが結集して、圧倒的な量のデータを生成するだろう。
処理できないデータを持つことは、データを持たないのと同じである。基本的にデータは処理されない限り、意味を持たず、惰性のままである。「データが多すぎて、それを処理する技術がないと、データがないのと同じです」と、Harvard-Smithsonian Center for Astrophysicsの計算天体物理学者であるCecilia Garraffoは述べている。
ここでAstroPTが登場する。
AstroPTはAstro Pretrained Transformerの略であり、トランスフォーマーは特定の種類のAIである。トランスフォーマーは、入力シーケンスを出力シーケンスに変換することができる。AIは訓練が必要であり、AstroPTはDESI Legacy Survey Data Release 8からの8.6百万枚の512 x 512ピクセル画像で訓練されている。DESIはDark Energy Spectroscopic Instrumentの略で、数千万の銀河やクエーサーの光スペクトルを捉えて暗黒エネルギーの影響を研究している。
AstroPTや同様のAIは「トークン」を扱う。トークンとは、大きな画像の中で意味を持つ視覚要素である。画像をトークンに分解することで、AIは画像の全体的な意味を理解することができる。AstroPTは個々のトークンを一貫した出力に変換することができる。
AstroPTは視覚トークンで訓練されている。アイデアは、AIに次のトークンを予測させることである。これをより徹底的に訓練するほど、AIはより良い性能を発揮する。
「我々は、単純な生成的自己回帰モデルが、銀河画像パッチのシーケンスにおいて次の16×16ピクセルパッチを予測する代替タスクで事前訓練された場合、科学的に有用な情報を学習できることを実証しました」と著者たちは書いている。このスキームでは、各画像パッチがトークンである。
AstroPTのようなAIを訓練する上での障害の一つは、AI科学者が「トークンクライシス」と呼ぶものである。効果的であるためには、AIは大量の質の高いトークンで訓練される必要がある。2023年の論文で、別の研究チームは、トークンの不足がLLM(Large Language Models)などのAIの効果を制限する可能性があると説明している。「最先端のLLMは、事前訓練のためにインターネット規模のテキストデータを大量に必要とします」と彼らは書いている。「残念ながら、高品質なテキストデータのインターネット上の成長率は、LLMが必要とするデータの成長率よりも遅いです。」
AstroPTも同じ問題に直面している。質の高いトークンが不足しているのだ。他のAIと同様に、LOM(Large Observation Models)を使用している。チームはこれまでの結果が、観測データを使用することでトークンクライシスを解決できることを示唆していると述べている。「これは、観測科学からのデータを使用して事前訓練された単一のマルチモーダルLOMの使用を指し示し、トークンクライシスの解決策の一つとして観測データを利用する可能性を示唆する有望な結果です。」
AI開発者は、トークンクライシスや他のAIの課題に対する解決策を見つけることに熱心である。
より優れたAIがなければ、データ処理のボトルネックが、まもなく到来する膨大なデータからの発見を妨げるだろう。AstroPTはその助けになるだろうか?
著者たちはそれを望んでいるが、さらに多くの開発が必要であると述べている。彼らはAstroPTを強化するために他者との協力に前向きであるという。そのために「現在の主要なコミュニティモデル」にできるだけ忠実に従ったとしている。彼らはこれを「全員に開かれたプロジェクト」と呼んでいる。
「我々は、協力的なコミュニティ開発が、オープンソースのウェブスケールの大規模観測モデルを実現するための最速のルートであると信じて、これらの決定を下しました」と彼らは書いている。
「潜在的な協力者を暖かく歓迎します」と彼らは結論付けている。
膨大な天文データに追いつくために、AI開発者がどのように対応するのか興味深いところである。
コメント