ああ文字サイズ

最小
小
中
大
最大

Appleの研究者、マルチモーダルLLM「MM1」の論文発表　視覚タスクではGPT-4Vに匹敵

3/18(月) 10:14

Appleの研究者、マルチモーダルLLM「MM1」の論文発表　視覚タスクではGPT-4Vに匹敵 — ユーザーが質問と答えのルールを示すと、質問に正しく答える（画像：論文より）

　米Appleの研究者らは3月14日（現地時間）、独自開発のマルチモーダルLLM（MLLM）「MM1」の論文を発表した。画像へのキャプション追加や画像とテキストを使った質問への回答、自然言語推論を行えるよう設計したとしている。

　MM1は、画像とテキストのペア、画像とテキストの混合データ、テキストのみのデータの混合でトレーニングされている。Mixture-of-Experts（MoE）や教師あり微調整でパラメータを300億までスケールアップすることで、比較的コンパクトなサイズでも競合するMLLMに匹敵する結果をベンチマークで達成したとしている。

　視覚タスクでは、米OpenAIの「GPT-4V」や米Googleの「Gemini」に匹敵している。

　MM1のアーキテクチャなどは公開されていない。Appleの研究者らは論文の結論を「ここで得られた知見が、コミュニティが特定の単一モデルアーキテクチャやデータ戦略を超えて、強力なモデルを構築するのに役立つことを願っている」と結んだ。

　Appleの研究者らは、昨年12月ごろから複数のLLM関連の論文を発表してきた。

　Appleのティム・クックCEOは2月の業績発表で、年内にAI分野で進行中の取り組みの詳細を共有すると語った。

関連記事

ITmedia NEWSの他の記事もみる

あわせて読む

主要なニュースをもっと見る

社会のニュースをもっと見る

経済のニュースをもっと見る

政治のニュースをもっと見る

国際・科学のニュースをもっと見る

エンタメのニュースをもっと見る

スポーツのニュースをもっと見る

トレンドのニュースをもっと見る

生活術のニュースをもっと見る

地域のニュースをもっと見る

トレンド　アクセスランキング

ランキングの続きを見る

トレンド　新着ニュース

新着ニュース一覧へ

総合　アクセスランキング

ランキングの続きを見る

東京　新着ニュース

東京の新着ニュースをもっと見る

東京　コラム・街ネタ

東京のコラム・街ネタをもっと見る

特集

特集一覧を見る動画一覧を見る

記事検索

掲載情報の著作権は提供元企業等に帰属します。
Copyright (C) 2024 ITmedia Inc.

トップへ戻る