優勝したResNetが、画像に写っているものを正しく判定できなかった割合、いわゆる「誤認識率」は、わずか3.5%だった。人間の誤認識率は5%弱とされていることから、画像の内容を正しく認識する確率で、コンピュータシステムが人間を上回ったわけだ。
大きな動きがあったのは2012年。それまで優勝したシステムによる画像の誤認識率は25%程度だったが、2012年のコンテストで誤認識率が大幅に改善。トロント大学のジェフリー・ヒントン教授が率いるチームが、2位以下のチームを10%以上引き離し、16.4%の誤認識率で優勝したのである(図2)。このときヒントン教授らのチームが用いた技術が、人間の脳のしくみを模倣した「ニューラルネットワーク」と呼ぶものだった。

ご存知のかたもいるだろうが、ニューラルネットワークそのものは新しいテクノロジーではない。基本的な発想自体は60年ほど前に生まれている。では、ヒントン教授らはこのとき、どんな“手品”を使って他のチームを圧倒したのか。詳しくは次回以降に説明するが、より深く思考しながら学ぶ力をコンピュータシステムに授ける「ディープラーニング(深層学習)」と呼ぶ学習方法を取り入れて、ニューラルネットワークの能力を飛躍的に高めた。
それ以来、ニューラルネットワークを採用する動きは他のチームにも広がり、画像の認識率が目覚ましく向上した。そして2015年、冒頭で述べた通り、人間が画像を見分ける能力をコンピュータシステムが初めて上回った。
この結果はITビジネス界に衝撃を与えた。ニューラルネットワークを自社のシステムに導入すると、画像の認識能力が飛躍的に進歩する――。そのことを裏付けるのに、トロント大学が実現し、GoogleやMicrosoftが続けて好成績を収めた事実は十分な出来事だった。
囲碁でコンピュータが名人を打ち破る
画像認識でコンピュータシステムが人間の能力を上回ったのとほとんど同じころ、AIを巡り、もうひとつ重大な“事件”が起きた。「囲碁でコンピュータが名人を打ち破る」という偉業だ。Googleグループのディープマインド社が開発したAIシステム「アルファ碁」が達成した。