Google、スマホ・モバイル・エッジ向けマルチモーダルAI「Gemma 3n」を正式リリース

わずか2GBのメモリで動作する革新的なオンデバイスAI。画像・音声・動画・テキストの統合処理を実現し、プライバシーファーストな次世代アプリケーションを可能に

AI最前線取材班

2025年6月26日、Googleはモバイル・エッジデバイス向けに最適化された革新的なマルチモーダルAIモデル「Gemma 3n」を正式にリリースしました。5月のGoogle I/O 2025でプレビュー版が発表されていたGemma 3nが、ついに開発者向けに全機能が利用可能となりました。

Gemma 3nは、同社の最新技術であるGemini 2.0と同じ研究・技術基盤から構築されながらも、わずか2GBのメモリで動作するという驚異的な効率性を実現。スマートフォン、タブレット、IoTデバイスなどで、完全にオフライン環境でプライバシーを保護しながら高度なAI処理が可能となります。

Gemma 3nの主な特徴

1. 真のマルチモーダル対応

Gemma 3nは、テキスト、画像、音声、動画を統合的に理解・処理し、テキストを生成する能力を備えています。具体的には以下のような革新的な機能を提供:

  • 高精度な音声認識(ASR)と翻訳:音声を直接テキストに変換、または他言語に翻訳
  • リアルタイム画像・動画解析:MobileNet-V5エンコーダーにより最大60fpsでの処理が可能
  • インターリーブ入力:複数のモダリティを組み合わせた複雑な入力に対応

2. 革新的なアーキテクチャとメモリ効率

Gemma 3nの最大の特徴は、**MatFormer(Matryoshkaトランスフォーマー)**と呼ばれる画期的なアーキテクチャです:

  • E2Bモデル:5Bパラメータを持ちながら、わずか2GBのメモリで動作
  • E4Bモデル:8Bパラメータを持ちながら、3GBのメモリで動作
  • Per-Layer Embeddings (PLE):メモリ使用量を大幅に削減する新技術
  • Mix-n-Match機能:用途に応じて動的にモデルサイズを調整可能

3. 完全なオンデバイス実行とプライバシー保護

Gemma 3nは「プライバシーファースト」の設計思想により:

  • 完全オフライン動作:インターネット接続不要で全機能が利用可能
  • データのローカル処理:個人情報がデバイスから送信されることなく処理
  • 高速レスポンス:KVキャッシュ共有により初回応答が約1.5倍高速化

次世代のGemini Nanoと同じアーキテクチャを共有し、AndroidやChromeでの展開も予定されています。


4. 開発者フレンドリーなエコシステム

Gemma 3nは初日から包括的なツールサポートを提供:

利用可能なプラットフォーム:

  • Google AI Studio(ブラウザで即座に試用可能)
  • Hugging Face Transformers
  • Ollama(ollama pull gemma:3nで簡単インストール)
  • MLX、llama.cpp
  • Google AI Edge、LiteRT
  • Docker、transformers.js

提供形式:

  • 事前学習済みモデル(Hugging Face、Kaggle)
  • ファインチューニング対応
  • 量子化済みバージョン(int4)

GoogleはAMD、NVIDIA、Qualcomm、MediaTek、Samsungなど主要ハードウェアメーカーと協力し、幅広いデバイスでの最適化を実現しています。


140言語対応のグローバルAI

Gemma 3nは140以上の言語での事前学習を完了し、35言語でのマルチモーダル理解に対応。特に日本語、ドイツ語、韓国語、スペイン語、フランス語での性能が大幅に向上しています。

ベンチマークでは**50.1%(ChrF)**のスコアを達成し、多言語処理能力の高さを実証しています。


技術革新の詳細

MatFormerラボ:開発者は提供されるツールを使用して、特定のハードウェア制約に最適化されたカスタムモデルを作成可能。MMLUスコア50%〜62%の範囲で柔軟な構成が可能です。

音声処理:新しい音声エンコーダーにより、高品質な音声認識と翻訳を実現。音声の微細なニュアンスまで捉える詳細な処理が可能です。

ビジョン処理:MobileNet-V5-300Mエンコーダーは、256×256、512×512、768×768の複数の解像度をサポート。Google Pixelで最大60fpsの処理を実現します。


今後の展望

Googleは「Gemma 3nは生成AIの民主化における重要なマイルストーン」と位置づけています。これまでクラウドに限定されていた高度なAI機能が、日常的に使用するデバイスで利用可能になることで、真にパーソナルでプライベートなAI体験が実現します。

さらに、Gemma 3nは拡大する「Gemmaverse」の一部として、すでに1億6000万回以上のダウンロードを記録したGemmaファミリーの最新メンバーです。コミュニティによる革新的な派生モデルの開発も期待されています。


2025年6月26日、Gemma 3nの正式リリースは、AIがクラウドからエッジへ、そして私たちの手のひらへと移行する新時代の幕開けを告げています。プライバシー、効率性、アクセシビリティを重視したこのモデルは、AIの未来を形作る重要な一歩となるでしょう。