GoogleのAIの最新バージョン、Gemini 1.5 Proが音声認識機能を搭載! これによって、音声を認識することができるようになりました。

最新バージョンで動画や音声の視聴をさらに時短できる!

Geminiは、Googleのリブランディングされたチャットボットの名称で、以前はBardと呼ばれていました。そして、Gemini 1.5 Proとは、2024年2月に限られた開発者に提供されたモデルの最新版です。

Gemini 1.5 Proは、テキスト、コード、ビデオだけでなくアップロードされた音声配信を処理できます。これは動画の音声を含む音声自体を認識して分析するため、文字起こしがない情報も取り出すことが可能です。

つまり、ユーザーはGemini 1.5 Proを使用して、決算説明会から情報を収集したり、録音されたインタビューを書き起こしたり、音声付きのビデオを分析したりできるようになるのです。

このAIは、1時間の動画、11時間のオーディオ、3万行のコード、または70万以上の単語を含むプロンプトを一度に処理することができます。


Googleはまた、Vertex AIを利用できる人向けにGemini 1.5 Proをパブリックプレビューとして公開していますが、現時点では一般公開のベータテストはまだ予定されていません(2024年4月18日編集時点)。

Screenshot: ライフハッカー編集部

今のところ、ほとんどのユーザーはGeminiチャットボットを通じてGoogleのAIを利用していることになります。

Geminiの誤情報を見抜く! 生成AIでかしこく情報収集する7つ方法【今日のワークハック】 | ライフハッカー・ジャパン https://www.lifehacker.jp/article/2404how-to-fact-check-google-gemini-ai/

「計算系の」地味に面倒なタスクこそAIで解決!ChatGPTやGeminiでかなり時短できる実例3つ | ライフハッカー・ジャパン https://www.lifehacker.jp/article/2404_computational_tasks_are_what_ai_solves/

一転、Pixel 8でもAIモデル「Gemini Nano」が利用可能になる日は近い | ライフハッカー・ジャパン https://www.lifehacker.jp/article/2404_pixel-8-getting-gemini-nano-ai-features/

Source: Google(1, 2)