128G Mac 本地大模型选型:长上下文、多模态 Coding Agent 与本地推理模型怎么选

资料更新时间:2026-05-31
目标机器:128G Apple Silicon Mac,重点讨论本地部署、本地 Coding Agent、多模态输入,以及 200k–300k 长上下文场景。

0. 先给结论

如果你的目标是把 128G Mac 真正用成一台本地 AI 工作站,我建议不要追求“装最多模型”,而是按任务分工:

任务首选模型推荐上下文
日常工程开发、Coding Agent、代码 + 截图/图片Qwen3.6-35B-A3B文本 64k–128k;视觉 32k–128k
200k–300k 纯文本长上下文、大仓库、长日志DeepSeek V4 Flash + ds4.c128k 默认;200k 主力;250k–300k 实验
纯代码 Agent / Repo 级代码理解Qwen3-Coder-30B-A3B-Instruct64k–128k
纯文本数学、算法、逻辑推理deepseek-r1:32b32k–64k
稳定纯代码修改、脚本、Docker、C++/PythonQwen2.5-Coder-32B-Instruct64k–128k
PDF、OCR、GUI、视频、多图视觉专项Qwen3-VL-30B-A3B-Instruct64k–128k

最推荐的“三件套”:

1. Qwen3.6-35B-A3B
   本地多模态 Coding / Agent 主力

2. DeepSeek V4 Flash + ds4.c
   本地 200k–300k 纯文本长上下文主力

3. Qwen3-Coder-30B-A3B-Instruct
   纯代码 Agent / 仓库级代码理解备选

如果还想加一个“轻量推理副手”,再装:

4. deepseek-r1:32b

1. 128G Mac 的真实约束

128G Apple Silicon Mac 的优势是统一内存大,很多本地模型可以直接跑在 Apple GPU + unified memory 上。但是选模型时不能只看“模型文件大小”,还要看:

模型权重
+ KV cache
+ runtime buffer
+ tokenizer / prompt buffer
+ 系统和其他软件占用
+ 视觉输入产生的 visual tokens

尤其是长上下文时,真正容易把内存顶爆的是 KV cache。所以有一个很关键的判断:

模型能加载 ≠ 长上下文能舒服跑

例如 70B dense 模型也许可以加载,但如果再开 128k、200k 上下文,实际体验可能会很差。反过来,像 DeepSeek V4 Flash 这类模型,因为长上下文和 KV cache 做了特殊设计,配合 ds4.c,就更适合冲 200k–300k。


2. Dense 和 MoE:为什么参数量不能只看一个数字

本地部署时,要区分 Dense 和 MoE

2.1 Dense 模型

Dense 模型的特点是:

每个 token 基本都经过全部参数。

例如:

Qwen2.5-Coder-32B:每 token 约走 32.5B 参数
deepseek-r1:32b:每 token 约走 32B 参数
deepseek-r1:70b:每 token 约走 70B 参数
Llama 70B:每 token 约走 70B 参数

所以 Dense 模型在 128G Mac 上跑到 32B 级别比较舒服;70B 虽然能跑,但速度、KV cache、长上下文都会变得不太舒服。

2.2 MoE 模型

MoE 模型的特点是:

总参数很多,但每个 token 只激活一部分专家。

例如:

Qwen3.6-35B-A3B:35B total / 3B active
Qwen3-Coder-30B-A3B:约 30.5B total / 3.3B active
DeepSeek V4 Flash:284B total / 13B active
DeepSeek R1 完整版:671B total / 约 37B active

MoE 的好处是推理计算量通常更接近“激活参数”,但总参数仍然要存储。所以 DeepSeek V4 Flash 虽然每 token 只激活 13B,但总参数 284B,必须依赖合适量化和专门引擎才适合 128G Mac。


3. Qwen3.7 更新了吗?

更新了,但目前不适合作为 128G Mac 本地部署目标。

截至本文整理时,可以看到 Qwen 官方发布了 Qwen3.7: The Agent Frontier,重点是 Qwen3.7-Max 这类线上/API 模型;但我没有看到适合本地部署的 Qwen3.7 开源权重。因此:

Qwen3.7:可以关注 API,但暂不纳入 128G Mac 本地部署优先级。
Qwen3.6-35B-A3B:当前更适合作为本地部署主力。

4. 全量模型大表

下面这张表把前面讨论过的模型都列出来,包括“不推荐进入优先级”的模型。
“是否列入优先级”只代表我是否建议你在 128G Mac 上投入主要精力部署它。

模型类型参数量输入标称上下文128G Mac 建议上下文部署现实性是否列入优先级备注
Qwen3.6-35B-A3BMoE + VLM35B total / 3B active文本 / 图像 / 视频262k native,可扩到约 1M文本 64k–128k;视觉 32k–128k;200k 实验是,第一优先级本地多模态 Coding / Agent 主力
DeepSeek V4 Flash + ds4.cMoE284B total / 13B active文本1M128k 默认;200k 主力;250k–300k 实验中,需要 ds4.c是,第二优先级纯文本超长上下文主力
Qwen3-Coder-30B-A3B-InstructMoE约 30.5B total / 3.3B active文本 / 代码262k native,可扩到 1M64k–128k;200k 实验高/中是,可选高优先级纯 Coding Agent、Repo 级理解
deepseek-r1:32bDense 蒸馏32B文本Ollama 标 128k32k–64k;128k 实验是,可选轻量 reasoning 副手
Qwen2.5-Coder-32B-InstructDense32.5B文本 / 代码128k64k–128k是,可选稳定纯代码模型
Qwen3-VL-30B-A3B-InstructMoE + VLM30B 级 / A3B文本 / 图像 / 视频 / 文档256k native,可扩到 1M视觉 64k–128k是,视觉专项可选PDF、OCR、GUI、视频专项
Qwen3.5-35B-A3BMoE + VLM35B total / 3B active文本 / 图像 / 视频262k 级64k–128k高/中已被 Qwen3.6 替代,除非已有部署
GLM-4.7-FlashMoE30B-A3B 级主要文本128k–200k 资料混杂64k–128k可玩,但当前主线不优先
deepseek-r1:70bDense 蒸馏70B文本Ollama 标 128k16k–64k;128k 实验能跑但慢,不如 R1-32B 实用
Qwen3-32BDense32B文本128k64k–128k可用,但不如 Qwen3.6 / Qwen3-Coder 有针对性
Qwen3-30B-A3BMoE30B total / 3B active文本128k64k–128k可用,但 Qwen3-Coder 更贴合 coding
Qwen3-14BDense14B文本128k64k–128k很高轻量快,但不是主力档
Qwen3-8BDense8B文本128k64k–128k很高轻量助手,复杂工程能力有限
Gemma 3 27BDense + VLM27B文本 / 图像128k64k–128k高/中图文可用,但 coding 不如 Qwen 主线
Gemma 3 12B / 4BDense + VLM12B / 4B文本 / 图像128k64k–128k很高轻量图文助手
Codestral 22BDense22B文本 / 代码32k32k代码补全可以,但上下文短
Qwen2.5 / Qwen2 72BDense72B / 73B文本128k 级32k–64k;128k 实验能跑但重,长上下文不舒服
Llama 3.3 70BDense70B文本128k 级32k–64k;128k 实验同上,128G Mac 不建议当主力
DeepSeek V4 ProMoE1.6T total / 49B active文本1M不建议更偏 512G+ 机器
deepseek-r1:671bMoE 完整 R1671B total / 约 37B active文本Ollama 标 160k不建议Ollama 约 404GB,128G Mac 不适合
Qwen3.7-Max / Qwen3.7闭源/API 模型未开放适合本地部署的权重主要文本 / Agent API1M 级资料本地不适用已更新,但目前不是本地部署目标

5. 真正推荐优先级

下面这张表才是我建议你真正投入时间部署和使用的列表。

优先级模型定位为什么推荐建议上下文
1Qwen3.6-35B-A3B本地多模态 Coding / Agent 主力能写代码、能看图/视频/截图、上下文长、部署资料完整文本 64k–128k;视觉 32k–128k
2DeepSeek V4 Flash + ds4.c纯文本超长上下文主力128G Mac 上最值得冲 200k–300k 的方案128k / 200k / 250k–300k
3Qwen3-Coder-30B-A3B-Instruct纯 Coding Agent 备选30B-A3B 级 MoE、长上下文、专门面向 Agentic Coding64k–128k
4deepseek-r1:32b轻量 reasoning 副手Ollama 直接可跑,纯文本推理/数学/算法不错32k–64k
5Qwen2.5-Coder-32B-Instruct稳定纯代码备选老牌强代码模型,128k,生态成熟64k–128k
6Qwen3-VL-30B-A3B-Instruct视觉专项备选PDF、OCR、GUI、视频、多图理解更专项64k–128k

6. 重点模型说明

6.1 Qwen3.6-35B-A3B:本地第一主力

这是我最推荐的常驻模型。

它的价值不只是“能跑”,而是覆盖面很适合工程师日常:

代码修改
仓库理解
Coding Agent
工具调用
截图分析
图像处理结果分析
PDF / GUI / 视频帧理解
长上下文项目问答

建议用法:

场景建议上下文
日常 coding64k
项目级代码理解128k
长日志 / 长文档128k–200k 实验
单张图片 + 代码32k–64k
多图 / PDF / GUI64k–128k
视频输入32k–64k 起步

如果只装一个本地模型,我会选它。


6.2 DeepSeek V4 Flash + ds4.c:超长上下文专项主力

如果目标是 200k–300k,它比 R1-32B、普通 Qwen32B、普通 70B dense 更值得优先折腾。

它的核心价值是:

1M context 设计
MoE 大模型能力
长上下文效率优化
KV cache 更省
ds4.c 支持磁盘 KV cache
128G Mac 有现实可玩性

建议用法:

场景建议上下文
初次验证64k / 100k
大仓库 / 长文档128k
超长日志 / agent trace200k
极限实验250k–300k
1M不建议日常用

我的建议是:

不要一上来开 300k。
先 128k 跑稳,再 200k。
250k/300k 留给确实需要的大任务。

6.3 Qwen3-Coder-30B-A3B-Instruct:纯 Coding Agent 备选

如果你的任务是纯代码,不需要看图,那么它很值得关注。

它适合:

仓库级代码理解
Agentic Coding
工具调用
Browser-use
结构化代码生成
函数调用格式

建议用法:

默认 64k
大任务 128k
200k 作为实验,不建议默认

它和 Qwen3.6 的区别:

Qwen3.6:更综合,多模态 + coding
Qwen3-Coder:更专注纯代码 agent

6.4 deepseek-r1:32b:轻量推理副手

它不是综合主力,也不是最新最强模型,但它有一个明确优势:

Ollama 直接可用,模型不大,纯文本 reasoning 风格明显。

适合:

数学推理
算法题
复杂逻辑推导
并发/边界条件分析
纯文本 debug 分析

不适合:

图像输入
大仓库 200k
长 agent trace
多模态工程任务

建议上下文:

默认 32k
复杂推理 64k
128k 只作为实验

6.5 Qwen2.5-Coder-32B-Instruct:稳定纯代码备选

这是成熟的代码模型,适合做:

Python / C++ 代码修改
Dockerfile
shell / bat 脚本
仓库结构解释
单元测试补全
局部 debug

建议上下文:

默认 64k
大任务 128k
不建议 200k+

6.6 Qwen3-VL-30B-A3B-Instruct:视觉专项备选

如果你大量处理:

PDF
OCR
GUI 截图
视频帧
多图对比
文档图表

它比通用模型更专项。

但如果只是偶尔看图,Qwen3.6-35B-A3B 就够优先。


7. 为什么不推荐某些模型进入优先级

7.1 deepseek-r1:70b

它能跑,但我不建议优先投入时间。原因是:

Dense 70B
速度慢
长上下文不舒服
128G Mac 上性价比不如 R1-32B

如果你只是偶尔想跑高难纯文本推理,可以试;但不建议当日常模型。

7.2 deepseek-r1:671b

这是完整 R1,但 Ollama 上模型大小约 404GB,128G Mac 不适合日常本地部署。

7.3 DeepSeek V4 Pro

模型级别很高,但太大。它更适合 512G+ 机器或服务器,不适合你的 128G Mac 本地方案。

7.4 Qwen3.7-Max / Qwen3.7

Qwen3.7 已经有线上模型信息,但目前没有看到适合本地部署的开源权重。所以它可以关注 API,不适合放进本地部署优先级。

7.5 普通 70B dense 模型

包括 Llama 70B、Qwen 72B 等。128G Mac 可以折腾,但不太舒服。长上下文下尤其明显。对你的任务来说,不如 Qwen3.6、DeepSeek V4 Flash、Qwen3-Coder 更直接。


8. 按任务怎么选

你的任务首选备选建议
日常 Coding AgentQwen3.6-35B-A3BQwen3-Coder-30B-A3B先 64k,复杂任务 128k
代码 + 图片/截图Qwen3.6-35B-A3BQwen3-VL-30B-A3B32k–64k 起步
PDF / OCR / GUI / 视频Qwen3-VL-30B-A3BQwen3.6-35B-A3B64k–128k
纯代码修改Qwen3-Coder-30B-A3BQwen2.5-Coder-32B64k–128k
纯文本 reasoningdeepseek-r1:32bdeepseek-r1:70b32k–64k
大仓库 / 长日志DeepSeek V4 Flash + ds4.cQwen3.6-35B-A3B128k–200k
200k–300k 上下文DeepSeek V4 Flash + ds4.c无真正同级本地替代200k 主力,300k 实验
只想装一个Qwen3.6-35B-A3B最均衡
只想一键 Ollama 轻松跑deepseek-r1:32bQwen2.5-Coder-32B GGUF方便,但不是综合最强

9. 最终推荐组合

9.1 最推荐装法:三件套

1. Qwen3.6-35B-A3B
   本地多模态 Coding / Agent 主力

2. DeepSeek V4 Flash + ds4.c
   纯文本 200k–300k 长上下文

3. Qwen3-Coder-30B-A3B-Instruct
   纯代码 Agent / Repo 级理解备选

9.2 再加一个轻量推理副手

4. deepseek-r1:32b
   数学、算法、逻辑推理

9.3 视觉任务很多,再加

5. Qwen3-VL-30B-A3B-Instruct
   PDF、OCR、GUI、视频、多图理解

10. 实际部署策略建议

10.1 默认不要把上下文开满

很多模型标称 128k、256k、1M,不代表日常应该直接开满。上下文越大:

KV cache 越大
prefill 越慢
内存压力越高
缓存命中越重要

建议默认:

64k:日常代码 / 普通 agent
128k:大仓库 / 多文件分析
200k:长日志 / 长文档
250k–300k:只给 DeepSeek V4 Flash + ds4.c 做专项实验

10.2 多模态任务不要贪长上下文

图片、视频、PDF 页面都会变成视觉 token。不是“文本 128k + 无限图片”。

建议:

单图 + 代码:32k–64k
多图 / PDF:64k–128k
视频:先 32k–64k

10.3 R1-32B 适合做“副手”,不是主力

deepseek-r1:32b 很适合推理,但它是文本模型,不会看图,也不是 200k–300k 上下文模型。它的最好位置是:

需要纯文本推理时,临时调用一下。

10.4 DeepSeek V4 Flash 是“长上下文工具”,不是所有任务都用它

如果只是改一个脚本、看一张图、写 Dockerfile,用 Qwen3.6 或 Qwen3-Coder 更直接。
DeepSeek V4 Flash 的优势是:

超长文本
超大仓库
长日志
长 agent trace

11. 最终结论

对 128G Mac,我最终建议如下:

第一主力:
Qwen3.6-35B-A3B

第二主力:
DeepSeek V4 Flash + ds4.c

第三选择:
Qwen3-Coder-30B-A3B-Instruct

可选推理副手:
deepseek-r1:32b

纯代码备选:
Qwen2.5-Coder-32B-Instruct

视觉专项备选:
Qwen3-VL-30B-A3B-Instruct

不建议投入主要精力:

Qwen3.7-Max:目前主要是 API / closed-weight,不适合本地部署规划
deepseek-r1:70b:能跑但不够轻快
deepseek-r1:671b:404GB,不适合 128G Mac
DeepSeek V4 Pro:太大
普通 70B dense:能跑但不是最优解

最短版:

本地综合主力:Qwen3.6-35B-A3B
本地超长上下文:DeepSeek V4 Flash + ds4.c
本地纯代码:Qwen3-Coder-30B-A3B 或 Qwen2.5-Coder-32B
本地轻量推理:deepseek-r1:32b

参考资料

  1. Qwen3.6-35B-A3B Hugging Face 模型页:https://huggingface.co/Qwen/Qwen3.6-35B-A3B
  2. Qwen3.6-35B-A3B 官方博客:https://qwen.ai/blog?id=qwen3.6-35b-a3b
  3. Qwen3.7 官方博客:https://qwen.ai/blog?id=qwen3.7
  4. DeepSeek V4 Flash Hugging Face 模型页:https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash
  5. DeepSeek V4 Preview Release:https://api-docs.deepseek.com/news/news260424
  6. ds4.c GitHub 项目:https://github.com/antirez/ds4
  7. Ollama deepseek-r1 tags:https://ollama.com/library/deepseek-r1/tags
  8. Ollama deepseek-r1:32b:https://ollama.com/library/deepseek-r1:32b
  9. Qwen3-Coder-30B-A3B-Instruct GGUF:https://huggingface.co/unsloth/Qwen3-Coder-30B-A3B-Instruct-GGUF
  10. Qwen2.5-Coder-32B-Instruct:https://huggingface.co/Qwen/Qwen2.5-Coder-32B-Instruct
  11. Qwen3-VL-30B-A3B-Instruct:https://huggingface.co/Qwen/Qwen3-VL-30B-A3B-Instruct
  12. Gemma 3 27B IT:https://huggingface.co/google/gemma-3-27b-it

发表评论