1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。
今回は、ゼロからゲノムを生成できる、9.3兆個塩基対のDNA配列データを学習した40Bパラメータを持つ大規模言語モデル(LLM)を提案した論文「Genome modeling and design across all domains of life with Evo 2」(GitHub)に注目します。

▲Evo 2は全生命から収集された9.3兆塩基対のDNAで訓練されたLLM
Evo 2は、バクテリアから植物、動物まで、地球上の様々な生物から集めた9.3兆個塩基対のDNA配列データを学習しています。これは生物学分野で最大規模の学習データとなります。この膨大なデータを処理するため、Evo 2には40Bパラメータを持つ大規模版と、7Bパラメータを持つ小規模版の2種類が用意されています。

▲Evo 2の機能と応用範囲を示した概要図
特筆すべき点は、Evo 2が100万個の塩基配列を一度に分析できることです。これは、長大なDNA配列の中から重要な特徴を見つけ出すのに役立ちます。
また、事前の訓練なしに、DNAの変異が生物に与える影響を高い精度で予測できます。例えば、ヒトの遺伝病に関連する遺伝子変異について、その病原性を正確に予測することができます。特に、乳がんなどの原因遺伝子として知られるBRCA1遺伝子の変異の影響を、既存の手法よりも高い精度で予測することに成功しました。

▲Evo 2がDNAやRNAからタンパク質、そして生物レベルまでの様々な生物学的特徴を解読・予測できることを示した図
さらにEvo 2は、新しいDNA配列を一から設計する能力も持っています。研究チームは、細胞のエネルギー工場であるミトコンドリアの全遺伝情報(約16,000塩基対)や、生存に必要最小限の遺伝子セットを持つ細菌のゲノム(約580,000塩基対)、酵母の染色体(約330,000塩基対)などの設計に成功しました。これらの人工的に設計されたDNA配列は、自然界に存在するものと同様の特徴を持っていることが確認されています。