CoVFitは新型コロナ以外のウイルスでも利用可能か

──インフルエンザウイルスも進化の速度が速いとのことですが、CoVFitは新型コロナウイルス以外のウイルスの進化予測にも応用できるのでしょうか。

伊東:理論的にはデータさえあれば応用可能です。ただ、学習させるのに十分なゲノムデータがあるのは、現状、新型コロナウイルスとインフルエンザウイルスくらいでしょう。

 より正確にいうと、CoVFitの学習に最低限どの程度の量のゲノム配列データが必要か検証していないので、もう少し配列数の少ないウイルスにも適用可能な可能性はあります。

 ただ今後、未知のウイルスが現れたときに、いち早くそのウイルスの情報を学習させていくことが重要だと考えています。

 新型コロナウイルスのパンデミックで、ウイルスゲノム疫学調査が非常に有効であることが立証されました。したがって、次に未知の感染症が流行したときには、新型コロナウイルスのパンデミックのとき以上に大規模なウイルスゲノム疫学調査が実施されるでしょう。

 そういった観点からも、CoVFitはさまざまなウイルスに応用可能と言えます。

──現時点でのCoVFitの課題について、教えてください。

伊東:まずは、予測精度の改善です。これには、学習データ数を増やすことももちろんですが、予測に使える別の情報の形式(データタイプ)を増やしていくことがより良い戦略だと思っています。

 現在学習させているデータに加えて、例えば、ウイルスと受容体(※)との結合に関する変化の情報なども一緒に学習させれば、予測精度が上がる可能性はあるのではないかと思います。

※ウイルスが細胞に侵入する際に使う「入り口」となる、宿主細胞表面の分子(主にタンパク質)のこと。

 また、現在のCoVFitで予測できるのは、ウイルスのゲノム配列の1つのアミノ酸の変異とそれに伴う適応度の変化に限定されています。現実世界では、進化は必ずしも1つのアミノ酸変異で起こるわけではありません。オミクロン株の出現時には、約30個のアミノ酸の変異が一度に獲得されました。

 けれども、そのような複数のアミノ酸変異を伴う進化予測は、かなりハードルが高いのが現実です。例えば、30カ所のアミノ酸の変異を一度に獲得した場合、その組み合わせをすべて網羅的に調べようとすると膨大な数になってしまいます。

 さらに、1つの変異は1つの効果しか及ぼしませんが、複数カ所の変異の組み合わせが思いもよらない効果を発揮する可能性も示唆されています。

 変異Aと変異Bを一緒に獲得した場合のみ、変異Aの効果が強く現れるということです。したがって、複数箇所のアミノ酸の変異について解析をする際には、その組み合わせによって生じる効果の変化にも考慮しなければなりません。

 正直なところ、複数箇所のアミノ酸の変異を一度に獲得するような進化とそれに伴う変異株の性質の変化の予測は、現段階ではまだ難しいと感じています。

 もちろん、進化はランダム性の高いプロセスなので、1つのアミノ酸変異による進化であっても完全に予測することも原理的にできません。