人工知能と機械学習は、データ分析、サイバーセキュリティ、医薬品開発、作曲、芸術的レンダリングなど、幅広い用途でユビキタスになっている。近年、大規模言語モデル(LLM)も登場し、人間との対話と文章作成がアプリケーションの長いリストに加わった。ChatGPTは、2年も前に導入されて以来、大きな影響を及ぼしているLLMである。このアプリケーションは、AIの潜在的な用途や意味合いについてかなりの議論(と論争)を巻き起こした。
機械学習は、惑星通過の兆候を探したり、大気の干渉を補正したり、ノイズの中のパターンを見つけたりするために、大量のデータを選別するために使用されている。国際的な天体物理学者チームによれば、これはAIが天文学にもたらす可能性のほんの始まりに過ぎないという。最近の研究で、研究チームは天体の観測結果を用いて、GPT(Generative Pre-trained Transformer)モデルを微調整した。その過程で、GPTモデルが科学研究を効果的に支援できることを実証することに成功した。
この研究は、国際相対論天体物理学センター(ICRA)、国立天体物理学研究所(INAF)、中国科学技術大学、中国科学院高エネルギー物理学研究所(CAS-IHEP)、パドバ大学、イスファハン工科大学、フェレラ大学の研究者からなる国際コンソーシアム、国際相対論天体物理学ネットワーク(ICRANet)によって実施された。彼らの論文 “Test of Fine-Tuning GPT by Astrophysical Data“のプレプリントが最近オンラインに掲載された。
前述したように、天文学者は、最新の望遠鏡や観測装置によって得られた大量のデータを選別するために、機械学習アルゴリズムに広く依存している。この実践は約10年前に始まり、それ以来、AIが研究プロセス全体に組み込まれるまでに飛躍的に成長した。ICRA理事長であり、この研究の主執筆者であるYu Wangは、Universe Todayに電子メールでこう語っている:
「天文学は常にデータによって駆動されており、天文学者は機械学習を採用した最初の科学者の一人です。現在、機械学習は、地上望遠鏡や宇宙望遠鏡の製造や制御(例えば、補償光学システムの性能の最適化、特定の条件下での衛星の特定の動作(トリガー)の開始の改善など)から、データ解析(例えば、データ解析(ノイズ除去、データインピュテーション、分類、シミュレーションなど)、理論モデルの確立と検証(修正重力のテスト、中性子星の状態方程式の制約など)に利用されています」。
データ解析は、機械学習を統合できる最も簡単な分野であるため、これらのアプリケーションの中で最も一般的であり続けている。従来は、何十人もの研究者や何百人もの市民科学者が、観測キャンペーンによって生成された大量のデータを分析していた。しかし、現代の望遠鏡が毎日テラバイト単位のデータを収集している時代には、これは現実的ではない。これには、超大規模アレイ・スカイサーベイ(VLASS)のような全天サーベイや、スローン・デジタル・スカイ・サーベイ(SDSS)が行っている多くの段階が含まれる。
LLMは比較的最近作られたものであるため、今日まで天文学の研究に散発的にしか応用されていない。しかし、王氏のような推進派によれば、LLMは社会的に多大な影響を及ぼしており、少なくとも”産業革命”に匹敵する可能性を秘めているという。その影響の上限については、かなり幅があり、おそらく人類の “啓蒙か滅亡か”をもたらす可能性があるとWang氏は予測している。しかし、産業革命とは異なり、AIの変化と統合のペースははるかに速く、その普及がどこまで進むかについては疑問が残る。
天文学の分野でのGPTの可能性を見極めるため、彼と彼の同僚は、事前に訓練されたGPTモデルを採用し、天文学的現象を特定するために微調整を行った:
「OpenAIは事前に訓練されたモデルを提供しており、我々が行ったのは、元のモデルに基づいていくつかのパラメータを変更するファインチューニングである。これは、OpenAIが学部生を提供してくれて、その学生を天文学の大学院生に訓練するようなものです」。
「私たちは、限られたデータをささやかな解像度で提供し、GPTの訓練回数も通常のモデルに比べて少なかった。それにもかかわらず、その成果は印象的で、約90%の精度を達成しました。この精度の高さは、GPTがすでにデータ処理を理解し、論理的推論能力、コミュニケーション能力を持っているという強固な基盤に起因しています」。
モデルを微調整するために、研究チームは様々なカタログから得られた様々な天文現象の観測結果を導入した。これには、SDSSのクエーサー、銀河、恒星、広吸収線(BAL)クエーサーのサンプル2000個(各500個)が含まれる。また、短・長ガンマ線バースト(GRB)、銀河、恒星、ブラックホールシミュレーションの観測も統合した。テストしたところ、彼らのモデルはさまざまな現象を分類し、クェーサーの種類を区別し、赤方偏移に基づいて距離を推測し、ブラックホールのスピンと傾きを測定することに成功した。
「この研究は、少なくともLLMが天文データを処理できることを示しています。さらに、LLMが様々な種類の天文データを扱えるということは、他の特殊なモデルにはない能力です。私たちは、LLMがさまざまな種類のデータを統合し、世界を理解するのに役立つ共通の基本原理を特定できることを望んでいます」。もちろん、これは困難な課題であり、天文学者だけで達成できるものではない。
もちろん、研究チームは、彼らが実験したデータセットが、最新の天文台のデータ出力に比べると非常に小さいことを認めている。これは、最近世界最大のデジタルカメラであるLSSTカメラを導入したヴェラ・C・ルービン天文台のような次世代天文台に特に当てはまる。ルービン天文台が運用を開始すれば、10年間の時空レガシーサーベイ(LSST)が実施され、一晩あたり15テラバイトのデータが得られると期待されている。将来のキャンペーンの要求を満たすには、天文台とプロのAI企業との間の改善と協力が必要だとWang氏は言う。
とはいえ、近い将来、天文学へのLLMの応用が増えるのは必然的な結論だ。天文研究が今日生み出している膨大な量のデータを考慮すれば、これは可能性の高い展開であるだけでなく、必要な展開でもある。そして、これは近い将来、指数関数的に増加する可能性が高いので、AIはおそらくこの研究分野に不可欠なものになるだろう。
Sources
この記事は、氏によって執筆され、Universe Todayに掲載されたものを、クリエイティブ・コモンズ・ライセンス(表示4.0 国際)に則り、翻訳・転載したものです。元記事はこちらからお読み頂けます。
コメント