米Googleは5月14日(現地時間)、年次開発者会議「Google I/O 2024」の基調講演で、リアルタイムのマルチモーダルAIアシスタントの取り組み「Project Astra」を発表した。

 Google I/Oに初登壇のGoogle DeepMindのデミス・ハサビスCEOは、Geminiにおけるマルチモーダル(テキストだけでなく、画像や音声、動画など、複数のモーダルを利用できること)入力処理について語り、「AIアシスタントの未来」としてProject Astraを紹介した。

 ハサビス氏は、「日常生活で本当に役立つ汎用AIエージェントを構築したいとずっと考えてきた」と語り、Pixel 7 Proに搭載したプロトタイプのAIエージェントを使う約2分のデモ動画を紹介した。

 ロンドンのGoogle DeepMindオフィスとみられる屋内でPixelを掲げた女性がAIエージェントに「音のするものを見かけたら教えて」と口頭で言い、オフィス内を移動すると、スピーカーがPixelのカメラに映ったタイミングで「音を出すスピーカーが見えます」と反応し、女性がスピーカーの映像上でツイーターの部分に矢印を描き、「これは何?」と尋ねると「それはツイーターです。高周波の音を出します」と答えた。

 この後もディスプレイ上のコードについて説明したり、ホワイトボード上の猫と段ボール箱の組み合わせの映像から連想するものとして「シュレディンガーの猫」と答えたりした。

 「メガネをどこに置いたか覚えていますか?」と尋ねられたエージェントは、おそらく以前“見た”映像を記憶しているらしく、「メガネは机の上の赤いリンゴの近くにありました」と答えた。

 注目したいのは、そのメガネがGoogle I/O 2022で予告したARスマートグラスであることだ。女性がメガネを装着し、Pixelを机の上に置くと、エージェントとのやりとりの続きがメガネで始まる。

 このメガネは2022年に予告があった後、ほとんど進捗の説明がなかったプロダクトだ。ハサビス氏はこのメガネについては言及しなかったが、Project Astraで復活するのかもしれない。

 少なくとも動画のデモでは、AIエージェントは質問に迅速に返答しているし、声もかなり自然で、米OpenAIが前日に発表した新AIモデル「GPT-4o」搭載のChatGPTアプリのデモに引けを取らないレベルだ。

 ハサビス氏は、Project Astraはまだ初期段階とし、機能の一部は今年後半にGeminiアプリなどのGoogle製品に導入するとのみ説明した。将来的にはスマートフォンやメガネを介して利用できる可能性があると語った。