(写真:ロイター/アフロ)

 対話型AI(人工知能)「Chat(チャット)GPT」を開発した米オープンAI(OpenAI)はこのほど、人の声を再現する生成AI(人工知能)を発表したと。15秒分のサンプル音声を吹き込んだ後、任意の文章を入力すると、サンプルそっくりの音声でその文章を読み上げる。ただし、悪用のリスクがあるため、しばらく一般公開を控える方針だ。

 開発した「Voice Engine(ボイスエンジン)」は、サンプル音声を基に、そのアクセントを保持しながら複数の言語に翻訳することもできる。例えば、フランス語を母国語とする話者の音声サンプルから英語を生成すると、フランス語訛りで英文を読み上げる。

声の生成支援や製品紹介など、非公開のテスト実施中

 同社は2023年後半から、一部のパートナー企業・団体と、この生成AIの非公開テストを実施してきた。これらの団体は、同意のないなりすましなどを禁止する利用規約に合意する形でテストに参加した。

 事例には、発声障害を持つ人への声の生成などがある。そのメリットは従来のようなロボット音声ではなく、肉声に近いものを合成できることにある。利用者は、自分自身を最もよく表現できる声を選択でき、外国語で表現する際も一貫した声音で会話ができる。

 ある医療機関では、患者の昔の動画をサンプル音声に用い、声を再現することに成功した。腫瘍性疾患や神経性疾患が原因で発声障害となった人を対象にパイロット試験を行っている。このほか、視覚障害者や子供への文章の読み上げにも利用できるという。

 動画やポッドキャストなどのコンテンツ翻訳といった利用事例もある。複数の言語に翻訳した音声コンテンツを作成することで、世界中の消費者に対して、製品マーケティングやセールスデモなどを展開できる。アフリカ地域などにおける、現地語によるヘルスワーカー向けスキル向上プログラムにも利用されている。