Gemma 4 31Bの実行に必要なRAMはどれくらいですか？

推奨の4bit（Q4_K_M）版なら、システム全体で約32 GBのメモリが必要です（ダウンロードは18.6 GB）。RAMに余裕があれば、より高品質な量子化や長いコンテキストも使えます。

Gemma 4 31Bは専用GPUなしでも動きますか？

はい — RAMに収まる限り、Ollamaやllama.cppなどのツールがCPUで動かしてくれます。GPUやApple Siliconがあれば生成は数倍速くなりますが、必須ではありません。

Gemma 4 31Bはどの量子化をダウンロードすべきですか？

ほとんどの人にはQ4_K_Mが最適です — オリジナルの約4分の1のサイズで、品質低下はごくわずか。RAMに余裕があればQ5やQ8を、どうしても入らないときだけQ2を選びましょう。

Gemma 4 31Bを自分のマシンでファインチューニングできますか？

ファインチューニングは推論よりはるかに多くのメモリを必要とします。Gemma 4 31Bのフルファインチューニングには約368 GBのGPUメモリが必要ですが、QLoRAなら約46 GBまで抑えられます。多くの人にとっては、レンタルGPUでのQLoRAが現実的な選択肢です。

Q2/Q3の大きいモデルと、Q4/Q5の小さいモデル、どちらが良いですか？

たいていの場合は後者です。Q3を下回ると品質が急激に劣化します — Q4_K_Mの小さいモデルのほうが、Q2に詰め込んだ大きいモデルより良い結果を出すのが普通です。Q4未満は、ほかに何も入らないときだけ選びましょう。

← モデル一覧へモデルチェック

Gemma 4 31Bは動く？

GoogleのGemma 4 31Bは、推奨の4bit量子化で約32 GBのRAMが必要です（ダウンロードは18.6 GB）。あなたのハードウェアを下で即チェック — データは一切ブラウザの外に出ません。 Apple M-series Maxならおよそ ~19 tok/s が目安です。

ハードウェア情報を読み取っています…

実際の使用メモ

Gemma 4 31B は Google が公開する中〜大規模のオープンウェイトモデルで、パラメータ数は 30.7B。チャット、コーディング、推論、ビジョンを 1 つにまとめた構成です。ノートPCで気軽に動かせるモデルではありません。4-bit 量子化でも約 18.6 GB あり、ロードするだけで最低 32 GB の RAM が必要なため、RTX 3060 のような 12 GB のカードでは単純に収まりません。現実的な動作環境は RTX 4090 のような 24 GB の GPU か、ユニファイドメモリに余裕のある Apple Silicon Mac です。ハードウェアが揃っているなら、ローカルモデルが本当に実用的だと感じ始めるのがこのクラスです。

日常利用では快適ですが、爆速というわけではありません。RTX 4090 では 4-bit でおよそ 46 tok/s が見込め、ストリーミング出力を読みながら追える速さです。Apple M Max では 19 tok/s 前後に落ち着きますが、対話用途には十分です。DDR5 の CPU のみだとおよそ 3 tok/s まで下がり、ここは忍耐が前提の領域です。256K のコンテキストウィンドウは広大ですが、コストも大きく、128K に近づけるだけで合計メモリは約 49.3 GB に達します。フルウィンドウは上限と捉え、余裕がない限り作業用コンテキストは控えめに保つのが賢明です。

ほぼ同規模の 30.5B の兄弟分である Qwen 3 30B-A3B との比較では、トレードオフはアーキテクチャにあります。Qwen の mixture-of-experts 設計はトークンあたりの処理が軽くなりがちな一方、Gemma 4 31B は dense モデルで毎回すべての重みを使うため、ビジョンや幅広い指示追従で総じて安定感があります。もっと小さいものが欲しいなら、より軽量な Gemma 3 4B が選択肢です。このモデルの最大の強みは守備範囲の広さです。チャット、コード、推論、画像を 1 つでカバーし、しかもクリーンな Apache 2.0 ライセンスのもと、プロバイダ固有の制限なく商用・本番環境で利用できます。

スペック

パラメータ数30.7B

コンテキスト長256K トークン

開発元Google

ライセンスApache 2.0

公開日2026-04

得意分野チャット, コーディング, 推論, 画像認識

量子化別サイズ

量子化	ビット/重み	ダウンロード	必要RAM	品質
Q2_K	3.35	12.9 GB	24 GB	劣化が目立つ
Q4_K_M推奨	4.85	18.6 GB	32 GB	推奨
Q5_K_M	5.65	21.7 GB	32 GB	高品質
Q8_0	8.5	32.6 GB	48 GB	ほぼ原品質
F16	16	61.4 GB	96 GB	オリジナル

サイズはパラメータ数×ビット/重みからの推定値です。実際のGGUFビルドとは多少異なります。 · データ更新日: 2026-06-11 · 数値の算出方法 →

コンテキスト長別の必要メモリ

コンテキスト	KVキャッシュ（推定）	合計メモリ（Q4）
4K トークン	~1.0 GB	~19.6 GB
8K トークン	~1.9 GB	~20.5 GB
32K トークン	~7.7 GB	~26.3 GB
128K トークン	~30.7 GB	~49.3 GB

KVキャッシュはコンテキスト長に比例して増えます — 4Kで収まるモデルでも32Kではメモリ不足になることがあります。推定はgrouped-query attention使用時のFP16キャッシュを前提としており、実際の使用量はランタイムによって異なります。

ハードウェア別の推定速度

ハードウェア	帯域幅	速度の目安
NVIDIA RTX 3060 12GB	360 GB/s	VRAMに収まりません
NVIDIA RTX 4090 24GB	1008 GB/s	~46 tok/s
Apple M-series (base)	100 GB/s	~5 tok/s
Apple M-series Pro	270 GB/s	~12 tok/s
Apple M-series Max	410 GB/s	~19 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~3 tok/s