DNAには生命維持に必要な基礎情報が含まれているが、この情報の大部分はまだ未解読なままだ。だが、科学者らは、このDNA配列を言語のように扱い、その隠された情報を解読する可能性を切り開く、新たなAIモデル「GROVER」を開発し、この謎に挑もうとしている。ドレスデン工科大学のバイオテクノロジーセンター(BIOTEC)の研究チームによって開発されたGROVERは、ゲノム研究と個別化医療に革命をもたらすかも知れない。
GROVERがDNAの言語を学習
GROVERは、ヒトDNAを「テキスト」として扱う大規模言語モデルだ。このモデルは、DNA配列の規則や文脈を学習し、その機能的な情報を引き出すことができる。BIOTECの研究グループリーダーであるAnna Poetsch博士は次のように述べている。
「DNAはタンパク質のコーディング以外にも多くの機能を持っています。一部の配列は遺伝子を調節し、他の配列は構造的な目的を果たし、ほとんどの配列は同時に複数の機能を果たしています。現在、私たちはDNAの大部分の意味を理解していません。DNAの非コード領域の理解に関しては、私たちはまだ表面を引っ掻いただけのように思えます。ここでAIと大規模言語モデルが役立つのです」。
GROVERの開発には、独自のアプローチが採用された。研究チームは、まずDNAの「辞書」を作成する必要があった。彼らは圧縮アルゴリズムのテクニックを用いて、ゲノム全体を分析し、最も頻繁に出現する文字の組み合わせを特定した。
Melissa Sanabria博士は、このプロセスについて次のように説明している。
「私たちは全ゲノムを分析し、最も頻繁に出現する文字の組み合わせを探しました。2文字から始めて、DNAを何度も何度も調べ、最も一般的な複数文字の組み合わせを構築していきました。このようにして、約600サイクルで、次の配列を予測する際にGROVERが最高のパフォーマンスを発揮できるように、DNAを『単語』に断片化しました」。
GROVERは、このDNA「辞書」を用いて訓練された。その結果、DNAの規則、つまり文法、構文、意味論を学習することができた。これにより、GROVERは単に次のDNA配列を予測するだけでなく、遺伝子プロモーターやタンパク質結合部位などの生物学的に意味のある文脈情報を抽出することも可能になった。
さらに興味深いことに、GROVERは一般的に「エピジェネティック」と考えられているプロセス、つまりDNA上で起こる調節プロセスも学習できることが分かった。これは、機能的な情報がDNA配列自体にエンコードされている可能性を示唆している。
この革新的なアプローチにより、GROVERはゲノミクスと個別化医療の分野に大きな変革をもたらす可能性がある。DNAに隠された生物学的意味の深層を解明することで、人間の本質、疾病への素因、治療への反応など、重要な情報を明らかにすることができるかもしれない。
論文
- Nature Machine Intelligence: DNA language model GROVER learns sequence context in the human genome
参考文献
- Technische Universität Dresden: Cracking the code of life: new AI model learns DNA’s hidden language
- bbb
研究の要旨
DNA上の言語感覚を学習するディープラーニングモデルが、ゲノム生物学的タスクで高いパフォーマンスを達成している。 ゲノム配列は自然言語と似たルールに従うが、単語の概念がない点で異なる。 我々はヒトゲノムのバイトペアエンコーディングを確立し、GROVER(Genome Rules Obtained Via Extracted Representations)と呼ばれる基礎言語モデルを、カスタムタスクであるnext-k-mer予測によって選択された語彙を用いて学習させた。 ヒトゲノムに定義されたトークンの辞書は、GROVERの情報コンテンツとして最適である。 学習された表現を分析すると、学習されたトークン埋め込みは主に頻度、配列内容、長さに関連する情報をエンコードしていることが観察された。 いくつかのトークンは主に繰り返しに局在するが、大部分はゲノム上に広く分布する。 GROVERは文脈と語彙の曖昧性も学習する。 平均的に学習されたゲノム領域の埋め込みは、機能ゲノムアノテーションに関連しており、純粋にトークンの文脈的関係からこれらの構造を学習することを示している。 このことは、GROVERが把握できる配列が持つ情報量の広さを強調している。 ゲノムエレメントの同定やタンパク質とDNAの結合を問うゲノム生物学に取り組む微調整タスクにおいて、GROVERは他のモデルの性能を上回る。 GROVERは配列の文脈、構造に対する感覚、言語規則を学習する。 この知識を抽出することで、生命のコードのための文法書を構成することができる。
コメント