生物の進化の仕組みを模倣した開発手法
まず、異なる得意分野を持つ複数のAIモデルを用意する。そして、それらを「親」として、各モデルの構成要素をさまざまな形で組み合わせることで、多くの「子モデル」を生み出す(要素の組み合わせパターンは膨大なものになるため、それをつくる際にもAIの力が活用されている)。
そうして誕生した子モデルの性能を測定し、優秀なものだけを選ぶ。そして選ばれたモデルを次世代の親として、新たな組み合わせを作り、また性能を測定して選別する。この過程を何度も繰り返すことで、次第に性能の高いモデルが生まれるというわけだ。
この方法は生物の進化の仕組みを模倣していて、人間の直感では思いつかないような組み合わせ方を見つけ出すことができる。また従来の開発手法と比較して、はるかに少ないリソースと時間で、高性能なAIモデルを開発することが可能になるという。
たとえば、日本語で数学の問題を解くことのできるLLMや、日本語で画像に関する質問に答えるモデルなどを、たった1日以内で開発することに成功している。
またSakanaは最近、英国のオックスフォード大学およびケンブリッジ大学と共同で、「DiscoPOP(Discovered Preference Optimization)」と名付けられたアルゴリズムを発表した。
これはLLM(大規模言語モデル、生成AIの頭脳として機能するテクノロジー)が生成する文章などのコンテンツを、人間から見てより有用で倫理的なものに調整してくれるアルゴリズムなのだが、その開発にあたっては「LLM駆動型発見プロセス(LLM-driven discovery process)」という手法が用いられている。
簡単に言えば、この手法は「AIに自らAIの学習方法を提案させる」というものだ。AIはその新たな学習方法を試して、自らを改良することができ、さらに新たな学習方法を考える。このプロセスが上手く機能すれば、人間があまり介入しなくても、AIの継続的な性能向上を実現することが可能になる。
具体的には、このプロセスは次のような手順で進められる。