新薬の開発や病気のメカニズム解明に欠かせないタンパク質の立体構造。その予測でAIが革命を起こしたAlphaFoldのデータベースが、大きな進化を遂げました。「AlphaFoldデータベースが次のレベルへ、タンパク質のペア構造予測を追加」とNature誌が報じたところによると、同じタンパク質が2つ組み合わさって機能する「ホモダイマー」と呼ばれる複合体の予測データ170万件が新たに公開されました。タンパク質の「単体」だけでなく「ペア」の姿まで見えるようになったことで、創薬研究が加速する可能性があります。
タンパク質は「ペア」で働くことが多い
AlphaFoldデータベースは、Google DeepMindが開発したAI「AlphaFold2」を使って予測された約2億個のタンパク質の立体構造を収録する、無料の巨大データベースです。英国にあるEMBL-EBI(欧州分子生物学研究所・欧州バイオインフォマティクス研究所)が運営しており、2021年の公開以来、生命科学の研究者にとって「最初に確認する場所」となっています。
しかし、これまでのデータベースにはひとつ大きな欠点がありました。収録されていたのはタンパク質の単体(モノマー)の構造だけで、複数のタンパク質が組み合わさった複合体の予測が含まれていなかったのです。
実際には、多くのタンパク質は単体では機能しません。たとえば、HIV治療薬の標的として知られるHIV-1プロテアーゼは、まったく同じタンパク質が2つ組み合わさって初めて酵素として働きます。こうした「ペアで働くタンパク質」の構造がわからなければ、薬の設計にも限界がありました。
4つの組織が結集した大規模計算プロジェクト
タンパク質複合体の構造予測は、単体の予測に比べてはるかに計算量が大きく、「まったく別の獣だ」と研究チームの一人は表現しています。この課題に取り組むため、EMBL-EBI、Google DeepMind、半導体大手のNVIDIA、そしてソウル大学校の4者がコンソーシアムを結成しました。
コンソーシアムはヒトを含む20種の主要な研究対象種に焦点を当て、世界保健機関(WHO)が優先する病原体リストも対象に含めました。合計で3000万件のタンパク質複合体予測を計算し、そのうち信頼度の高い170万件のホモダイマーをAlphaFoldデータベースに統合しました。さらに1800万件の低信頼度予測もダウンロード可能な形で公開されています。
このデータを一から再現するには、約1700万GPU時間に相当する計算リソースが必要です。個人の研究室はもちろん、大学レベルでもなかなか手が届かない規模の計算を無料で利用できるようにした点が、今回のプロジェクトの大きな意義です。
「ペア」にして初めてわかる生命の仕組み
ホモダイマーの予測が加わったことで、単体では見えなかった生物学的な知見が得られるようになります。たとえば、あるタンパク質は単体の状態では構造が定まらない「天然変性タンパク質」のように見えますが、2つが組み合わさると互いの一部を提供し合い、安定した立体構造を形成することがわかっています。こうした構造変化は、単体の予測だけでは決して捉えられません。
今後は、異なるタンパク質同士が組み合わさるヘテロダイマーの予測データも追加される予定です。ヒトのタンパク質相互作用の全体像を包括的に記述することを目指しており、データベースのさらなる拡張が計画されています。
記者の視点:日本の研究にも大きな追い風
AlphaFoldは日本の研究現場でも広く活用されています。創薬、農業、材料科学など幅広い分野で、タンパク質の構造情報は研究の出発点です。今回のホモダイマー予測の追加は、これまで「構造が不明」とされていた複合体を扱う研究者にとって、大きな支援になるでしょう。
注目すべきは、このプロジェクトが産学連携のモデルケースでもある点です。Google DeepMindのAI技術、NVIDIAの計算基盤、大学の専門知識、そしてEMBL-EBIのデータ公開インフラが組み合わさることで、一組織では不可能だった規模のデータが全世界に無償で提供されました。1700万GPU時間という計算資源の民主化は、資金力に限りのある研究室にとって特に大きな意味を持ちます。
タンパク質の「会話」が聞こえる時代へ
AlphaFoldは2021年の登場以来、生命科学の研究方法そのものを変えてきました。今回のアップデートにより、タンパク質が単体でどんな形をしているかだけでなく、「どのように組み合わさって機能するのか」まで見通せるようになりつつあります。分子同士の相互作用の一端をAIが可視化し始めた今、新薬開発や病気の理解がさらに進むことが期待されます。
