イスラエル工科大学(Technion)の研究チームは、DNAにデジタルデータを保存する技術において、AIを活用してデータ取り出し速度を3,200倍に向上させることに成功した。「DNAformer」と名付けられたこのAIモデルは、従来のDNAストレージ技術の最大の課題であったデータ読み取り速度と精度を大幅に改善し、ゼタバイト級の長期データ保存技術の実用化に向けて大きな一歩を記録した。
AIが拓くDNAデータストレージの革新的進展
イスラエル工科大学(Technion)・コンピュータサイエンス学部の研究チームが開発したDNAformerは、DNA分子に保存されたデジタルデータを従来の方法と比較して約3,200倍速く取り出すことができる画期的なAIモデルである。博士課程学生のOmer Sabary氏、Daniella Bar-Lev博士、Itai Orr博士、Eitan Yaakobi教授、Tuvi Etzion教授で構成される研究チームによるこの技術により、従来数日を要していたデータ読み取り時間がわずか10分に短縮された。
DNAformerは、Transformerアーキテクチャに基づくAIモデルで、Technionが独自に開発したシミュレータによって生成された合成データで訓練されている。このモデルの特徴は、シーケンシング(DNAの塩基配列を読み取る工程)で発生するエラー(削除、挿入、置換など)を高精度で修正できることにある。研究者たちは、DNAに特化したカスタムエラー訂正アルゴリズムも組み込み、特に雑音の多いDNAシーケンス(シーケンシングプロセス中に発生する不要な信号やエラーによりデータの正確な解釈を妨げる可能性がある)を検出して効率的に処理する安全マージンメカニズムも実装した。
研究チームは、3.1メガバイトのデータセットを用いて実証実験を行った。このデータセットには、カラー静止画像、Neil Armstrongの月面での24秒の音声クリップ、DNAストレージの利点について説明するテキスト、そして暗号化または圧縮データを模擬したランダムデータが含まれていた。高ノイズ環境でも1.6ビット/塩基のデータレートを達成し、既存の高速読み取り方法と比較して精度が最大40%向上した点も注目される。
「高ノイズ環境で1.6ビット/塩基のデータレート」とは、DNA塩基(A、C、G、Tの4種類の塩基)1つあたり平均1.6ビットの情報を格納できることを意味する。理論上は1塩基あたり2ビット(2^2=4通り)まで格納可能だが、エラー訂正冗長性を考慮すると実用的な値は下がる。この1.6ビット/塩基というレートは、高ノイズ環境においては優れた値である。
DNAストレージが切り拓く未来のデータ保存技術
DNAデータストレージは、爆発的に増加するデジタルデータに対応するための次世代技術として注目されている。世界のデジタルデータ量は2025年末までに180ゼタバイト(1,800億テラバイト)に達すると予測されている中、従来のストレージ技術には物理的・環境的な限界が見えつつある。
DNAストレージの最大の魅力は、その驚異的なデータ密度と長期保存能力にある。従来のデジタルストレージと比較して最大1億倍のデータ密度を実現でき、NANDフラッシュやHDDが数年から数十年で劣化するのに対し、適切に保存されたDNAは数十万年、さらには100万年以上の長期間にわたってデータを保持できる可能性がある。2013年にはデンマークの研究者が70万年前の馬の骨からDNAを抽出することに成功し、2021年には100万年以上前のマンモスからDNAを回収した国際チームの例もある。
また、環境面での利点も大きい。現代のコンピューティングサービスを支える「クラウド」データセンターは、世界の電力の約3%を消費し、全炭素排出量の約2%を占めている。データの指数関数的な増加に伴い、既存技術の環境への影響はさらに増大すると予想される中、DNAストレージは保存時にほとんどエネルギーを消費しないという特性を持つ。
しかし、DNAストレージの実用化にはまだいくつかの重要な障壁が存在する。現在のDNAストレージにおける最大の課題は:
- 書き込み(合成)コストと速度:カスタマイズされたDNA分子の合成は高価で時間がかかるプロセスである
- 読み取り(シーケンシング)の時間とエラー率:今回のDNAformerはこの問題に対処したが、現状でも商業市場で利用するには遅すぎることも確かだ
- ランダムアクセスの制限:従来のストレージデバイスのように特定のデータに直接アクセスすることが難しく、多くの場合全データを順次読み取る必要がある
- スケーラビリティとコスト効率:現時点では大規模データの保存には非常に高コストであり、ビジネスユースケースには適していない
今回のDNAformerによるブレークスルーは、特に2番目の課題(読み取り速度と精度)に大きな進展をもたらしたが、商業的実用化のためには他の課題も解決する必要がある。
研究チームは、DNAformerをさらに発展させ、異なるデータストレージのニーズに合わせてカスタマイズしていく計画を明らかにしている。この技術は容易にスケールアップでき、様々なシナリオに適応できるという。研究者たちは既に「市場の需要」と将来のDNAシーケンシング技術の改良を視野に入れて、AIテクノロジーの改善に取り組んでいる。
論文
- Nature Machine Intelligence: Scalable and robust DNA-based storage via coding theory and deep learning
参考文献