「正解」を示さなくてもなぜAIが学べるのか

AIはTVゲームを攻略できるか？

　現在の人工知能（AI、Artificial Intelligence）は、人間の脳のしくみを模倣した数学モデルのソフトウェア（アルゴリズム）である。うまく活用すれば、今までコンピュータや機械ではできなかったことを実現可能にする。だからこそ様々な分野で注目され、導入がはじまっている。

　前回はAIの“正体”として、「ニューラルネットワーク」と「ディープラーニング（深層学習）」について解説した。

（前回の記事）
AIを賢くするニューラルネットワークの仕組み
http://jbpress.ismedia.jp/articles/-/53337

　ニューラルネットワークは学習によって賢くなる。この学習のことを「機械学習（マシンラーニング）」と呼び、具体的な学習方法のひとつが、前回紹介した「教師あり学習」である。これは正解を付けたデータ（教師データ）をコンピュータに与えて学ばせる学習方法で、イヌとネコを見分けるといった、正解を判断するための教育をAIに実施するのに向いている。

　しかし、達人を倒すほどの強力な囲碁AI、ゲームを楽しむAI、自転車に乗るロボットに組み込むためのAIなどは、ある意味で正解がない。そのため教師あり学習とは異なる学習方法が求められる。それが今回紹介する「強化学習」、「予測学習」、「模倣学習」である。

TVゲームが上級者を超えるまでに上達

　AI対人間の囲碁対決で有名になったAIシステム「アルファ碁」は、Google傘下のディープマインドが開発した。同社はアルファ碁を開発する前に、単純だが驚くべき内容の発表を行って大きな話題となった。2015年2月、科学誌「ネイチャー」に発表された論文でTVゲームをするAIシステム基盤「DQN（deep Q-network）」の研究結果を詳述したのである。とりわけ注目を集めたのは、人間が教えることなくAIが自律学習して賢くなっていく点だった。

経営者のためのAI入門（3）

TVゲームが上級者を超えるまでに上達

最新記事