米Googleは5月14日(現地時間)、本社近くで開催したハイブリッド形式の年次開発者会議「Google I/O 2024」で、テキストから動画を生成する新しいAIモデル「Veo」を発表した。1080pの1分以上の動画を生成できるとしている。

 専用サイトのウェイティングリストは同日公開。登録しておくことで、プライベートプレビューに参加できる可能性がある(提供開始次期は不明)。

 米OpenAIが2月に発表した動画生成AI「Sora」は現在、一般公開の予定はない。

 公式ブログによると、Veoは自然言語を高度に理解し、「タイムラプス」や「航空写真」などの用語を理解できるという。一貫性のある映像を作成でき、人や動物、物体がリアルに動く。公式ブログでは、雨の夜のアスファルトやサファリを歩く手編みの象のぬいぐるみ、海中を遊泳するくらげなど、Veoで生成した動画が紹介されている。

 Google I/Oでは、映像作家と協力して実施したVeoのテストの動画が公開された。

 マスク編集機能もあり、動画とテキストプロンプトにマスク領域を追加し、動画の特定の領域を変更することができる。

 また、テキストではなく画像を入力して動画を生成することもできるマルチモーダルだ。画像をテキストと組み合わせてプロンプトに入力することで、Veoは画像のスタイルを参照した動画を生成する。

 Googleは、将来的にはVeoの機能の一部をYouTubeショートなどにも導入する計画だ。