AIはTVゲームを攻略できるか?

 現在の人工知能(AI、Artificial Intelligence)は、人間の脳のしくみを模倣した数学モデルのソフトウェア(アルゴリズム)である。うまく活用すれば、今までコンピュータや機械ではできなかったことを実現可能にする。だからこそ様々な分野で注目され、導入がはじまっている。

 前回はAIの“正体”として、「ニューラルネットワーク」と「ディープラーニング(深層学習)」について解説した。

(前回の記事)
AIを賢くするニューラルネットワークの仕組み

http://jbpress.ismedia.jp/articles/-/53337

 ニューラルネットワークは学習によって賢くなる。この学習のことを「機械学習(マシンラーニング)」と呼び、具体的な学習方法のひとつが、前回紹介した「教師あり学習」である。これは正解を付けたデータ(教師データ)をコンピュータに与えて学ばせる学習方法で、イヌとネコを見分けるといった、正解を判断するための教育をAIに実施するのに向いている。

 しかし、達人を倒すほどの強力な囲碁AI、ゲームを楽しむAI、自転車に乗るロボットに組み込むためのAIなどは、ある意味で正解がない。そのため教師あり学習とは異なる学習方法が求められる。それが今回紹介する「強化学習」、「予測学習」、「模倣学習」である。

TVゲームが上級者を超えるまでに上達

 AI対人間の囲碁対決で有名になったAIシステム「アルファ碁」は、Google傘下のディープマインドが開発した。同社はアルファ碁を開発する前に、単純だが驚くべき内容の発表を行って大きな話題となった。2015年2月、科学誌「ネイチャー」に発表された論文でTVゲームをするAIシステム基盤「DQN(deep Q-network)」の研究結果を詳述したのである。とりわけ注目を集めたのは、人間が教えることなくAIが自律学習して賢くなっていく点だった。