AI技術が人間の言葉を解し、見事な文章や絵画を生成するようになった現在、その圧倒的な学習能力はついに「生命の設計図」へと向けられた。米国に拠点を置く研究機関Arc InstituteやNVIDIAなどの共同研究チームは、地球上のあらゆる生命のDNAパターンを学習し、遺伝子の機能予測から新たなゲノムの設計までを可能にする画期的な生物学的AI基盤モデル「Evo 2」を発表した。
科学誌『Nature』に掲載されたこの研究は、生物学の歴史における「ChatGPTの瞬間」とも称賛されている。本記事では、既存の科学の枠組みを根底から覆す可能性を秘めたEvo 2の全貌と、それが医療やバイオテクノロジー、そして人類の未来にどのような変革をもたらすのかを見ていきたい。
「生命の言語」を解読するかつてない規模のAIモデル
私たちが普段使っている大規模言語モデル(LLM)が、インターネット上に存在する膨大なテキストデータを読み込むことで文法や意味を理解するように、Evo 2は「DNA」という生命の言語を学習したモデルである。自然界における進化の過程は、DNAの塩基配列という形で何十億年分もの試行錯誤の痕跡を残してきた。Evo 2は、その遺伝的な「足跡」を読み解き、生命現象の背後にある普遍的なルールを見つけ出す。
その学習データのスケールは、これまでの生物学向けAIの常識を遥かに超えている。「OpenGenome2」と名付けられた学習データセットには、バクテリア(細菌)や古細菌、そして植物、動物、人間に至るまで、全生命ドメインにまたがる12万8,000以上の全ゲノムデータが含まれている。モデルが読み込んだヌクレオチド(DNAやRNAを構成する塩基)の総数は、実に9.3兆個に上る。これは、既存のどの生物学的モデルよりも巨大であり、実験室で人間の研究者が何百年かけても処理しきれない情報の海から、生命の設計原理を抽出しているのである。
原核生物から真核生物へ:複雑なゲノム構造を理解するブレイクスルー
このEvo 2が前世代のモデル(Evo 1)から飛躍的な進化を遂げた最大の理由は、「真核生物」の極めて複雑なゲノム構造を理解できるようになった点にある。
Evo 1が主な対象としていた単細胞の原核生物(バクテリアなど)のゲノムは、タンパク質を作るための遺伝子が途切れることなく連続して配置され、機能が関連する遺伝子群が一箇所にまとまっているという、非常にシンプルで効率的な構造を持っている。
しかし、人間を含む真核生物のゲノムはそう単純ではない。タンパク質をコードする意味のある配列(エクソン)は、コードしない無意味に見える配列(イントロン)によって何度も分断されている。さらに、ある遺伝子がいつ、どの細胞で働くかを決める「調節領域」は、その遺伝子から何万塩基も離れた遠隔地に存在することが多々あるのだ。全体の中で意味を持つ部分はごくわずかで、残りは過去のウイルスの残骸などが占める「ジャンクDNA」と呼ばれる広大な領域が広がっている。
このような複雑怪奇な真核生物のゲノムを解析するため、Evo 2は「StripedHyena 2」と呼ばれる革新的なハイブリッドAIアーキテクチャを採用した。従来のTransformerモデルの弱点を克服すべく、畳み込みニューラルネットワーク(CNN)とアテンション機構を高度に組み合わせたこの構造により、Evo 2は最大で「100万塩基(100万トークン)」という途方もない長さのDNA配列を同時に、かつ単一塩基の解像度で把握することが可能になった。これにより、遠く離れたDNA領域間の隠れた相互作用をも見逃さずに捉えることができるのである。
変異の影響を正確に予測する驚異の「ゼロショット能力」
Evo 2の真の恐ろしさ(そして素晴らしさ)は、特定のタスクに向けた追加学習(ファインチューニング)を一切行わずに、未知のデータに対して高精度な予測を行う「ゼロショット予測」の能力にある。莫大な進化のデータから「どのようなDNA配列が生命にとって重要か」を確率論的に理解しているため、人工的に変異を加えた際に、それが致命的なエラーとなるのか、許容される変化なのかを計算できるのだ。
研究チームは、この能力を証明するために、乳がんの発症リスクに深く関わることで知られる人間の「BRCA1」および「BRCA2」遺伝子の変異評価を行った。その結果、Evo 2は膨大な種類の変異の中から、どれが無害(良性)であり、どれが疾患を引き起こす可能性(病原性)を持つかを、90%以上の高い精度で分類することに成功したのである。
さらに重要なのは、Evo 2がタンパク質を直接コードする領域の変異だけでなく、スプライス部位(イントロンを切り取る目印)や非コード領域の挿入・欠失といった、これまで解析が極めて困難だった変異に対しても、既存の専用予測モデルを凌駕する性能を示したことだ。この技術が臨床現場に導入されれば、患者のDNAから未知の遺伝性疾患の原因を即座に特定したり、新薬のターゲットを細胞実験なしに発見したりと、医療のプロセスを何年分も短縮できる強力な武器となる。
AIの「思考」を可視化する:メカニスティック解釈可能性
大規模なAIモデルはしばしば、内部でどのような計算が行われて答えが出力されたのか分からない「ブラックボックス」であると批判される。しかし、Arc Instituteの研究チームは「スパース・オートエンコーダ(Sparse Autoencoders: SAE)」と呼ばれる最先端の解析手法を用い、Evo 2がDNAの文字列から「何を」読み取っているのかを可視化することに成功した。
驚くべきことに、研究者が事前に「ここが遺伝子の始まりだ」といった正解ラベルを一切与えていないにもかかわらず、Evo 2は自発的に生物学的な概念を獲得していた。AIの内部ネットワークを調べると、特定のニューロンが「エクソンとイントロンの境界」や「転写因子が結合するモチーフ」、さらにはタンパク質の立体構造である「アルファヘリックス」や「ベータシート」に相当する箇所で正確に反応(発火)していることが確認されたのである。
さらに、原核生物のゲノムに潜む「プロファージ(細菌のDNAに組み込まれたウイルスの遺伝子)」を特定する機能も自律的に獲得していた。これは、Evo 2が単なるA、T、C、Gという塩基の並びの統計的なパターンを暗記しているのではなく、その文字列が持つ生物学的な機能や高次な立体構造、さらには生命の進化的な文脈までも「理解」していることを雄弁に物語っている。
「読む」から「書く」へ:新しいゲノムをゼロから生成する

Evo 2がもたらす最大のパラダイムシフトは、DNAを「解析する(読む)」だけでなく、AI自身が全く新しいゲノムを「設計・生成する(書く)」能力を獲得したことにある。
論文の中で研究チームは、Evo 2に対していくつかの短いDNA配列をプロンプト(入力)として与え、その続きを自動生成させる実験を行った。対象となったのは、人間のミトコンドリアDNA、極小のゲノムを持つバクテリア(マイコプラズマ・ジェニタリウム)、そして出芽酵母の染色体の一部である。
結果としてEvo 2は、タンパク質をコードする遺伝子群、プロモーター(遺伝子のスイッチ)、tRNAなどの必須コンポーネントを正しい順序と構造で配置し、数十万塩基に及ぶ長大な人工ゲノム配列を生成した。コンピューター上での構造予測(AlphaFold 3等を使用)によれば、AIが生成した人工遺伝子の多くが、自然界に存在するタンパク質と似た立体構造を形成する可能性が高いことが示されている。
もちろん、専門家が指摘するように、現時点でEvo 2が設計したゲノムがそのまま細胞内で「生きた生命」として機能するわけではない。生命活動を維持するための必須遺伝子が欠けていたり、全体のバランスが取れていなかったりする課題は残されている。しかし、これまで人間の研究者が手作業で切り貼り(編集)していたゲノム設計のプロセスにおいて、AIが自律的に巨大なゲノムの草稿を書き上げることができるようになった事実は、合成生物学の歴史における決定的な転換点である。
エピゲノムの自在なコントロール:染色体アクセシビリティのデザイン
Evo 2の能力は、単なる塩基配列の生成に留まらない。研究チームは、AIの生成プロセスに推論時のガイダンス(Inference-time guidance)を組み合わせることで、「エピゲノム」の状態までもデザインできることを実証した。
細胞内のDNAは、普段は固く折りたたまれて格納されているが、遺伝子が読み取られる際にはその部分のクロマチン構造が緩み、アクセス可能な状態(オープンクロマチン)になる。研究チームは、この「DNAが読み取られやすくなる領域(ピーク)」の位置や長さを正確に指定し、その条件を満たす数千塩基のDNA配列をEvo 2に生成させた。
実際にその人工DNAを合成し、マウスの胚性幹細胞(mESC)やヒトの細胞に組み込んで実験を行ったところ、指定した通りの位置でクロマチンが開き、AIが意図した通りのエピゲノム状態が再現されることが確認された。研究チームは遊び心として、クロマチンの開閉の長短を利用して「EVO2」や「ARC」といったモールス信号を細胞のDNA上に書き込むことにも成功している。
この技術が意味するものは極めて大きい。例えば、「肝臓の細胞に入った時だけスイッチがオンになる遺伝子」や「特定のガン細胞の中だけで毒性タンパク質を作る遺伝子」を自在に設計できるようになり、副作用を極限まで抑えた次世代の精密な遺伝子治療やターゲット療法の実現へと直結するからだ。
オープンソース化による科学の加速と、厳格なバイオセキュリティ
Arc InstituteとNVIDIAは、これほどまでに強力なEvo 2のモデルパラメータ、学習および推論コード、そして巨大なデータセットのすべてを、オープンソースとして世界の研究コミュニティに向けて無償で公開した。これは、一部の巨大企業による技術の独占を防ぎ、世界中の知見を結集して病気の治療法や環境問題の解決策を見つけるための英断である。
一方で、AIが生命をデザインできるようになったことで生じる倫理的・安全保障上のリスク(バイオセキュリティ)に対しても、かつてないほど厳格な措置が取られている。研究チームは、意図せぬ悪用を防ぐため、人間や複雑な真核生物に感染する「病原性ウイルス」のゲノムデータを、最初の学習データの段階から徹底的に除外した。
実際に行われたレッドチーム(脆弱性テスト)による検証では、Evo 2にヒトウイルスのタンパク質を生成させようとプロンプトを与えても、モデルは実質的にランダムな無意味な配列しか出力できず、危険なウイルスの設計図を描けないように安全装置が機能していることが確認されている。
AIが切り拓く医療・バイオテクノロジーの未来

Evo 2の登場は、生物学という学問領域が、観察と実験を主体とする「記述科学」から、AIを用いて生命システムを意図通りに構築する「エンジニアリング(工学)」へと完全に移行しつつあることを告げている。
数兆のDNA塩基から生命の文法を習得したこのAIは、未知の遺伝性疾患の解明、全く新しいメカニズムを持つ新薬の設計、気候変動を生き抜く農作物の開発、そしてプラスチックを分解する新しい微生物の創造など、人類が直面するあらゆる課題に対する強力なソリューションとなるだろう。
「生命をコード(記述)する」という神の領域に一歩足を踏み入れた現在、私たちに求められているのは、この強大なテクノロジーを倫理的な枠組みの中でいかに安全かつ有効に活用していくかという、社会全体での絶え間ない議論である。Evo 2が紡ぎ出す「新しい生命の物語」は、まだ始まったばかりである。
論文
参考文献
- Arc Institute: Evo 2: One Year Later
- Nature: AI can write genomes — how long until it creates synthetic life?