子供のように、AIがビデオ画像・音声から物事の概念を習得

子供のように、AIがビデオ画像・音声から物事の概念を習得

 米グーグルの親会社アルファベット傘下の英ディープマインドが、短いビデオのスチル映像と音声をもとに自己学習する人工知能(AI)を開発したと報じられた。映像に何が映っていてどんな音が聞こえるのか、単語や文章ではAIに一切教えず、AI自らが特定の物事の概念を学習する。自らを取り巻く現実世界を見たり聞いたりしながら、継続的に自分で学習するAIの開発につなげられるという。

 英ニュー・サイエンティスト誌が10日に報じた。ディープマインドは、10月22日からイタリア・ベニスで開かれる「コンピュータービジョン国際会議」(ICCV 2017)で研究成果を発表する。

 報道によれば、ディープマインドのプロジェクトチームでは、3種類のニューラルネットワークを組み込んだアルゴリズムを開発。まず映像と音声をそれぞれ専門に認識するニューラルネットワークに対し、短いビデオから切り出した一連のスチル画像と、それと同じ部分にある長さ1秒の音声を使って学習させた。

 次いで3番目のニューラルネットで、スチルのイメージと音声を比較し、どの音がビデオのどの光景にリンクしているのかを学習。全部で40万のビデオ映像から6000万のスチル・音声の組み合わせを学ばせた。

 その結果、「群衆」「タップダンス」「水」などに関わる見た目や音の概念を獲得し、人が拍手している写真に対しても、どの音が拍手と一致するかAIが理解していたという。

 また、ディープマインドのアルゴリズムはラベル付きのデータで学習させた他の多くのアルゴリズムに比べ、それらのほぼ8割の時間しかかけずに正しく音声クリップのカテゴリー分けができたとしている。

 通常、機械学習で行われているのは「教師あり学習」という手法。例えば「ネコ」というラベルをつけた大量の画像をAIに学習させると、学習していないネコのイメージを与えても、AIはそれがネコだと認識できるようになる。

 ただ、ディープマインドの研究プロジェクトリーダーによれば、こうした教師あり学習のやり方は「スケーラブルではない」という。現実世界のように、多様な物事が大量に存在する環境に人間がいちいちラベル付けしてAIに理解させるのには、限界があるためだ。

 一方で、教師なし学習のアプローチは、今回のように視覚と聴覚だけでなく、視覚と触覚などと組み合わせてAIの感覚を拡張するのにも応用できるという。さらに、ユーチューブのように大量にあるオンライン映像をもとにAIを学習させられる可能性もある。


【ファシリテーターのコメント】
一部で「こうやって機械に知性が生まれ、人間に反逆するようになる」との?報道もあったが、それは全く別の問題だと思う。
藤元 正

関連記事

おすすめ情報

ニュースイッチの他の記事もみる
主要なニュースをもっと見る
社会のニュースをもっと見る
経済のニュースをもっと見る
政治のニュースをもっと見る
国際・科学のニュースをもっと見る
エンタメのニュースをもっと見る
スポーツのニュースをもっと見る
トレンドのニュースをもっと見る
生活術のニュースをもっと見る
地域のニュースをもっと見る

経済 アクセスランキング

ランキングの続きを見る

経済 新着ニュース

新着ニュース一覧へ

総合 アクセスランキング

ランキングの続きを見る

東京 新着ニュース

東京の新着ニュースをもっと見る

東京 コラム・街ネタ

東京のコラム・街ネタをもっと見る

特集

特集一覧を見る

記事検索