Qwen3 Coder Next 80B-A3Bの実行に必要なRAMはどれくらいですか？

推奨の4bit（Q4_K_M）版なら、システム全体で約64 GBのメモリが必要です（ダウンロードは48.5 GB）。RAMに余裕があれば、より高品質な量子化や長いコンテキストも使えます。

Qwen3 Coder Next 80B-A3Bは専用GPUなしでも動きますか？

はい — RAMに収まる限り、Ollamaやllama.cppなどのツールがCPUで動かしてくれます。GPUやApple Siliconがあれば生成は数倍速くなりますが、必須ではありません。

Qwen3 Coder Next 80B-A3Bはどの量子化をダウンロードすべきですか？

ほとんどの人にはQ4_K_Mが最適です — オリジナルの約4分の1のサイズで、品質低下はごくわずか。RAMに余裕があればQ5やQ8を、どうしても入らないときだけQ2を選びましょう。

Qwen3 Coder Next 80B-A3Bを自分のマシンでファインチューニングできますか？

ファインチューニングは推論よりはるかに多くのメモリを必要とします。Qwen3 Coder Next 80B-A3Bのフルファインチューニングには約960 GBのGPUメモリが必要ですが、QLoRAなら約120 GBまで抑えられます。多くの人にとっては、レンタルGPUでのQLoRAが現実的な選択肢です。

Q2/Q3の大きいモデルと、Q4/Q5の小さいモデル、どちらが良いですか？

たいていの場合は後者です。Q3を下回ると品質が急激に劣化します — Q4_K_Mの小さいモデルのほうが、Q2に詰め込んだ大きいモデルより良い結果を出すのが普通です。Q4未満は、ほかに何も入らないときだけ選びましょう。

← モデル一覧へモデルチェック

Qwen3 Coder Next 80B-A3Bは動く？

AlibabaのQwen3 Coder Next 80B-A3Bは、推奨の4bit量子化で約64 GBのRAMが必要です（ダウンロードは48.5 GB）。あなたのハードウェアを下で即チェック — データは一切ブラウザの外に出ません。 Apple M-series Maxならおよそ ~192 tok/s が目安です。

ハードウェア情報を読み取っています…

実際の使用メモ

Qwen3 Coder Next 80B-A3B はコーディング特化モデルで、Mixture-of-Experts として設計されており、このアーキテクチャがすべてを物語っています。総パラメータは 80B ですが、1トークンあたり 3B しか活性化しないため、サイズから想像するよりはるかに高速に動作します。ただしメモリはモデル全体ぶんが必要です。4-bit ではおよそ 48.5 GB に収まり、これだけであらゆるコンシューマー向け GPU が候補から外れます。24 GB の RTX 4090 にも載らず、12 GB の 3060 では言うまでもありません。現実的な動作環境は、ユニファイドメモリを潤沢に積んだ Apple Silicon の Mac か、64 GB 以上のシステム RAM を備えたワークステーションです。活性化される 3B ではなく、最低 64 GB という数字を基準に計画してください。

日常的な利用では、MoE 設計の恩恵がはっきり出ます。Apple M Max ではおよそ 192 トークン/秒でストリーミングされ、コード補完やリファクタリングでは体感的にほぼ瞬時です。DDR5 上の純粋な CPU 推論でもおよそ 28 トークン/秒は出るため、この規模のモデルとしては遅いものの実用に足ります。256K のコンテキストウィンドウはリポジトリ全体をまたいで作業するための目玉機能ですが、落とし穴はメモリです。128K コンテキストでは合計フットプリントがおよそ 95.8 GB まで膨らみます。巨大なコードベースを読み込む前にこの点を念頭に置いてください。64 GB のマシンで上限を超えさせるのは、ウェイトではなく KV キャッシュだからです。

同じ重量級の密（dense）モデル、たとえば Llama 3.1 70B と比べると、本モデルはおおむね生の汎用性をコーディングへの集中と速度に振り替えています。MoE のルーティングにより、70B の dense モデルより速く応答し、一般的なチャットよりもコードに特化しています。汎用チャット用途では、より小型の Qwen 3 チャット系のほうが適しています。際立った特長は、その速度対サイズ比であり、80B クラスのモデルからほぼ瞬時の生成が得られる点です。そして実用上のおまけがライセンスです。Apache 2.0 なので、最初に目を通すべきプロバイダー固有の制限もなく、商用・本番環境で自由に利用できます。

スペック

パラメータ数80B (アクティブ3B)

コンテキスト長256K トークン

開発元Alibaba

ライセンスApache 2.0

公開日2026-02

得意分野コーディング

量子化別サイズ

量子化	ビット/重み	ダウンロード	必要RAM	品質
Q2_K	3.35	33.5 GB	48 GB	劣化が目立つ
Q4_K_M推奨	4.85	48.5 GB	64 GB	推奨
Q5_K_M	5.65	56.5 GB	96 GB	高品質
Q8_0	8.5	85.0 GB	128 GB	ほぼ原品質
F16	16	160.0 GB	256 GB	オリジナル

サイズはパラメータ数×ビット/重みからの推定値です。実際のGGUFビルドとは多少異なります。 · データ更新日: 2026-06-11 · 数値の算出方法 →

コンテキスト長別の必要メモリ

コンテキスト	KVキャッシュ（推定）	合計メモリ（Q4）
4K トークン	~1.5 GB	~50.0 GB
8K トークン	~3.0 GB	~51.5 GB
32K トークン	~11.8 GB	~60.3 GB
128K トークン	~47.3 GB	~95.8 GB

KVキャッシュはコンテキスト長に比例して増えます — 4Kで収まるモデルでも32Kではメモリ不足になることがあります。推定はgrouped-query attention使用時のFP16キャッシュを前提としており、実際の使用量はランタイムによって異なります。

ハードウェア別の推定速度

ハードウェア	帯域幅	速度の目安
NVIDIA RTX 3060 12GB	360 GB/s	VRAMに収まりません
NVIDIA RTX 4090 24GB	1008 GB/s	VRAMに収まりません
Apple M-series (base)	100 GB/s	~47 tok/s
Apple M-series Pro	270 GB/s	~126 tok/s
Apple M-series Max	410 GB/s	~192 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~28 tok/s