Gemma 4 12Bの実行に必要なRAMはどれくらいですか？

推奨の4bit（Q4_K_M）版なら、システム全体で約12 GBのメモリが必要です（ダウンロードは7.3 GB）。RAMに余裕があれば、より高品質な量子化や長いコンテキストも使えます。

Gemma 4 12Bは専用GPUなしでも動きますか？

はい — RAMに収まる限り、Ollamaやllama.cppなどのツールがCPUで動かしてくれます。GPUやApple Siliconがあれば生成は数倍速くなりますが、必須ではありません。

Gemma 4 12Bはどの量子化をダウンロードすべきですか？

ほとんどの人にはQ4_K_Mが最適です — オリジナルの約4分の1のサイズで、品質低下はごくわずか。RAMに余裕があればQ5やQ8を、どうしても入らないときだけQ2を選びましょう。

Gemma 4 12Bを自分のマシンでファインチューニングできますか？

ファインチューニングは推論よりはるかに多くのメモリを必要とします。Gemma 4 12Bのフルファインチューニングには約144 GBのGPUメモリが必要ですが、QLoRAなら約18 GBまで抑えられます。多くの人にとっては、レンタルGPUでのQLoRAが現実的な選択肢です。

Q2/Q3の大きいモデルと、Q4/Q5の小さいモデル、どちらが良いですか？

たいていの場合は後者です。Q3を下回ると品質が急激に劣化します — Q4_K_Mの小さいモデルのほうが、Q2に詰め込んだ大きいモデルより良い結果を出すのが普通です。Q4未満は、ほかに何も入らないときだけ選びましょう。

← モデル一覧へモデルチェック

Gemma 4 12Bは動く？

GoogleのGemma 4 12Bは、推奨の4bit量子化で約12 GBのRAMが必要です（ダウンロードは7.3 GB）。あなたのハードウェアを下で即チェック — データは一切ブラウザの外に出ません。 NVIDIA RTX 3060 12GBならおよそ ~42 tok/s が目安です。

ハードウェア情報を読み取っています…

実際の使用メモ

Gemma 4 12B は、チャット・コーディング・推論向けに設計され、画像理解にも対応した dense（密）な 12B モデルです。つまり、単体で十分に使えるローカルアシスタントが欲しく、なおかつ画像も読み取ってほしいという人に向いています。4-bit 量子化（quant）ならサイズは約 7.3 GB まで下がるため、RTX 3060 のような 12 GB の GPU にコンテキスト用の余裕を残して収まり、Apple Silicon Mac の統合メモリでも快適に動きます。モデルのロードには最低 12 GB の RAM が必要です。メモリが厳しい場合は 2-bit 版が約 5 GB まで下がりますが、その分の代償は品質で支払うことになります。

日常的な使い方では、RTX 3060 上で毎秒およそ 42 tok/s で出力され、生成をリアルタイムで読み進めるのに十分な速さです。M シリーズの Max では約 48 tok/s が得られます。RTX 4090 なら 100 を超えます。256K のコンテキストウィンドウは余裕がありますが、これはデフォルトではなくバッファ（緩衝領域）として捉えてください。128K のコンテキストでも、モデル本体に KV cache を合わせると合計でおよそ 27.4 GB まで膨らみます。これは単一の 12 GB カードをはるかに超えるため、システムメモリにあふれ出すか、大幅に遅くなるかのどちらかになります。コンシューマー向けハードウェアでは、実際の作業コンテキストを数千トークン程度に抑えておきましょう。

より軽量な Gemma 3 4B と比べると、12B は多段階の推論やコーディングで総じて優位を保ちます。追加のメモリと引き換えに得られるのがこの差です。メモリが厳しい場合や、チャットと画像理解だけで足りる場合は Gemma 3 4B を選ぶべきです。ここで本当に注目すべき点は、画像理解と堅実なテキスト推論が単一のモデルにまとまっていながら、それがミドルレンジの GPU でも動かせることです。ライセンス面もすっきりしています。Apache 2.0 であり、プロバイダー固有の制約に縛られることなく、商用かつ本番環境でモデルを利用できることを意味します。

スペック

パラメータ数12B

コンテキスト長256K トークン

開発元Google

ライセンスApache 2.0

公開日2026-04

得意分野チャット, コーディング, 推論, 画像認識

量子化別サイズ

量子化	ビット/重み	ダウンロード	必要RAM	品質
Q2_K	3.35	5.0 GB	8 GB	劣化が目立つ
Q4_K_M推奨	4.85	7.3 GB	12 GB	推奨
Q5_K_M	5.65	8.5 GB	16 GB	高品質
Q8_0	8.5	12.8 GB	24 GB	ほぼ原品質
F16	16	24.0 GB	32 GB	オリジナル

サイズはパラメータ数×ビット/重みからの推定値です。実際のGGUFビルドとは多少異なります。 · データ更新日: 2026-06-11 · 数値の算出方法 →

コンテキスト長別の必要メモリ

コンテキスト	KVキャッシュ（推定）	合計メモリ（Q4）
4K トークン	~0.6 GB	~7.9 GB
8K トークン	~1.3 GB	~8.6 GB
32K トークン	~5.0 GB	~12.3 GB
128K トークン	~20.1 GB	~27.4 GB

KVキャッシュはコンテキスト長に比例して増えます — 4Kで収まるモデルでも32Kではメモリ不足になることがあります。推定はgrouped-query attention使用時のFP16キャッシュを前提としており、実際の使用量はランタイムによって異なります。

ハードウェア別の推定速度

ハードウェア	帯域幅	速度の目安
NVIDIA RTX 3060 12GB	360 GB/s	~42 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~118 tok/s
Apple M-series (base)	100 GB/s	~12 tok/s
Apple M-series Pro	270 GB/s	~32 tok/s
Apple M-series Max	410 GB/s	~48 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~7 tok/s