资料更新时间:2026-05-31
目标机器:128G Apple Silicon Mac,重点讨论本地部署、本地 Coding Agent、多模态输入,以及 200k–300k 长上下文场景。
0. 先给结论
如果你的目标是把 128G Mac 真正用成一台本地 AI 工作站,我建议不要追求“装最多模型”,而是按任务分工:
| 任务 | 首选模型 | 推荐上下文 |
|---|---|---|
| 日常工程开发、Coding Agent、代码 + 截图/图片 | Qwen3.6-35B-A3B | 文本 64k–128k;视觉 32k–128k |
| 200k–300k 纯文本长上下文、大仓库、长日志 | DeepSeek V4 Flash + ds4.c | 128k 默认;200k 主力;250k–300k 实验 |
| 纯代码 Agent / Repo 级代码理解 | Qwen3-Coder-30B-A3B-Instruct | 64k–128k |
| 纯文本数学、算法、逻辑推理 | deepseek-r1:32b | 32k–64k |
| 稳定纯代码修改、脚本、Docker、C++/Python | Qwen2.5-Coder-32B-Instruct | 64k–128k |
| PDF、OCR、GUI、视频、多图视觉专项 | Qwen3-VL-30B-A3B-Instruct | 64k–128k |
最推荐的“三件套”:
1. Qwen3.6-35B-A3B 本地多模态 Coding / Agent 主力 2. DeepSeek V4 Flash + ds4.c 本地 200k–300k 纯文本长上下文主力 3. Qwen3-Coder-30B-A3B-Instruct 纯代码 Agent / 仓库级代码理解备选
如果还想加一个“轻量推理副手”,再装:
4. deepseek-r1:32b
1. 128G Mac 的真实约束
128G Apple Silicon Mac 的优势是统一内存大,很多本地模型可以直接跑在 Apple GPU + unified memory 上。但是选模型时不能只看“模型文件大小”,还要看:
模型权重 + KV cache + runtime buffer + tokenizer / prompt buffer + 系统和其他软件占用 + 视觉输入产生的 visual tokens
尤其是长上下文时,真正容易把内存顶爆的是 KV cache。所以有一个很关键的判断:
模型能加载 ≠ 长上下文能舒服跑
例如 70B dense 模型也许可以加载,但如果再开 128k、200k 上下文,实际体验可能会很差。反过来,像 DeepSeek V4 Flash 这类模型,因为长上下文和 KV cache 做了特殊设计,配合 ds4.c,就更适合冲 200k–300k。
2. Dense 和 MoE:为什么参数量不能只看一个数字
本地部署时,要区分 Dense 和 MoE。
2.1 Dense 模型
Dense 模型的特点是:
每个 token 基本都经过全部参数。
例如:
Qwen2.5-Coder-32B:每 token 约走 32.5B 参数 deepseek-r1:32b:每 token 约走 32B 参数 deepseek-r1:70b:每 token 约走 70B 参数 Llama 70B:每 token 约走 70B 参数
所以 Dense 模型在 128G Mac 上跑到 32B 级别比较舒服;70B 虽然能跑,但速度、KV cache、长上下文都会变得不太舒服。
2.2 MoE 模型
MoE 模型的特点是:
总参数很多,但每个 token 只激活一部分专家。
例如:
Qwen3.6-35B-A3B:35B total / 3B active Qwen3-Coder-30B-A3B:约 30.5B total / 3.3B active DeepSeek V4 Flash:284B total / 13B active DeepSeek R1 完整版:671B total / 约 37B active
MoE 的好处是推理计算量通常更接近“激活参数”,但总参数仍然要存储。所以 DeepSeek V4 Flash 虽然每 token 只激活 13B,但总参数 284B,必须依赖合适量化和专门引擎才适合 128G Mac。
3. Qwen3.7 更新了吗?
更新了,但目前不适合作为 128G Mac 本地部署目标。
截至本文整理时,可以看到 Qwen 官方发布了 Qwen3.7: The Agent Frontier,重点是 Qwen3.7-Max 这类线上/API 模型;但我没有看到适合本地部署的 Qwen3.7 开源权重。因此:
Qwen3.7:可以关注 API,但暂不纳入 128G Mac 本地部署优先级。 Qwen3.6-35B-A3B:当前更适合作为本地部署主力。
4. 全量模型大表
下面这张表把前面讨论过的模型都列出来,包括“不推荐进入优先级”的模型。
“是否列入优先级”只代表我是否建议你在 128G Mac 上投入主要精力部署它。
| 模型 | 类型 | 参数量 | 输入 | 标称上下文 | 128G Mac 建议上下文 | 部署现实性 | 是否列入优先级 | 备注 |
|---|---|---|---|---|---|---|---|---|
| Qwen3.6-35B-A3B | MoE + VLM | 35B total / 3B active | 文本 / 图像 / 视频 | 262k native,可扩到约 1M | 文本 64k–128k;视觉 32k–128k;200k 实验 | 高 | 是,第一优先级 | 本地多模态 Coding / Agent 主力 |
| DeepSeek V4 Flash + ds4.c | MoE | 284B total / 13B active | 文本 | 1M | 128k 默认;200k 主力;250k–300k 实验 | 中,需要 ds4.c | 是,第二优先级 | 纯文本超长上下文主力 |
| Qwen3-Coder-30B-A3B-Instruct | MoE | 约 30.5B total / 3.3B active | 文本 / 代码 | 262k native,可扩到 1M | 64k–128k;200k 实验 | 高/中 | 是,可选高优先级 | 纯 Coding Agent、Repo 级理解 |
| deepseek-r1:32b | Dense 蒸馏 | 32B | 文本 | Ollama 标 128k | 32k–64k;128k 实验 | 高 | 是,可选 | 轻量 reasoning 副手 |
| Qwen2.5-Coder-32B-Instruct | Dense | 32.5B | 文本 / 代码 | 128k | 64k–128k | 高 | 是,可选 | 稳定纯代码模型 |
| Qwen3-VL-30B-A3B-Instruct | MoE + VLM | 30B 级 / A3B | 文本 / 图像 / 视频 / 文档 | 256k native,可扩到 1M | 视觉 64k–128k | 中 | 是,视觉专项可选 | PDF、OCR、GUI、视频专项 |
| Qwen3.5-35B-A3B | MoE + VLM | 35B total / 3B active | 文本 / 图像 / 视频 | 262k 级 | 64k–128k | 高/中 | 否 | 已被 Qwen3.6 替代,除非已有部署 |
| GLM-4.7-Flash | MoE | 30B-A3B 级 | 主要文本 | 128k–200k 资料混杂 | 64k–128k | 中 | 否 | 可玩,但当前主线不优先 |
| deepseek-r1:70b | Dense 蒸馏 | 70B | 文本 | Ollama 标 128k | 16k–64k;128k 实验 | 中 | 否 | 能跑但慢,不如 R1-32B 实用 |
| Qwen3-32B | Dense | 32B | 文本 | 128k | 64k–128k | 高 | 否 | 可用,但不如 Qwen3.6 / Qwen3-Coder 有针对性 |
| Qwen3-30B-A3B | MoE | 30B total / 3B active | 文本 | 128k | 64k–128k | 高 | 否 | 可用,但 Qwen3-Coder 更贴合 coding |
| Qwen3-14B | Dense | 14B | 文本 | 128k | 64k–128k | 很高 | 否 | 轻量快,但不是主力档 |
| Qwen3-8B | Dense | 8B | 文本 | 128k | 64k–128k | 很高 | 否 | 轻量助手,复杂工程能力有限 |
| Gemma 3 27B | Dense + VLM | 27B | 文本 / 图像 | 128k | 64k–128k | 高/中 | 否 | 图文可用,但 coding 不如 Qwen 主线 |
| Gemma 3 12B / 4B | Dense + VLM | 12B / 4B | 文本 / 图像 | 128k | 64k–128k | 很高 | 否 | 轻量图文助手 |
| Codestral 22B | Dense | 22B | 文本 / 代码 | 32k | 32k | 高 | 否 | 代码补全可以,但上下文短 |
| Qwen2.5 / Qwen2 72B | Dense | 72B / 73B | 文本 | 128k 级 | 32k–64k;128k 实验 | 中 | 否 | 能跑但重,长上下文不舒服 |
| Llama 3.3 70B | Dense | 70B | 文本 | 128k 级 | 32k–64k;128k 实验 | 中 | 否 | 同上,128G Mac 不建议当主力 |
| DeepSeek V4 Pro | MoE | 1.6T total / 49B active | 文本 | 1M | 不建议 | 低 | 否 | 更偏 512G+ 机器 |
| deepseek-r1:671b | MoE 完整 R1 | 671B total / 约 37B active | 文本 | Ollama 标 160k | 不建议 | 低 | 否 | Ollama 约 404GB,128G Mac 不适合 |
| Qwen3.7-Max / Qwen3.7 | 闭源/API 模型 | 未开放适合本地部署的权重 | 主要文本 / Agent API | 1M 级资料 | 本地不适用 | 低 | 否 | 已更新,但目前不是本地部署目标 |
5. 真正推荐优先级
下面这张表才是我建议你真正投入时间部署和使用的列表。
| 优先级 | 模型 | 定位 | 为什么推荐 | 建议上下文 |
|---|---|---|---|---|
| 1 | Qwen3.6-35B-A3B | 本地多模态 Coding / Agent 主力 | 能写代码、能看图/视频/截图、上下文长、部署资料完整 | 文本 64k–128k;视觉 32k–128k |
| 2 | DeepSeek V4 Flash + ds4.c | 纯文本超长上下文主力 | 128G Mac 上最值得冲 200k–300k 的方案 | 128k / 200k / 250k–300k |
| 3 | Qwen3-Coder-30B-A3B-Instruct | 纯 Coding Agent 备选 | 30B-A3B 级 MoE、长上下文、专门面向 Agentic Coding | 64k–128k |
| 4 | deepseek-r1:32b | 轻量 reasoning 副手 | Ollama 直接可跑,纯文本推理/数学/算法不错 | 32k–64k |
| 5 | Qwen2.5-Coder-32B-Instruct | 稳定纯代码备选 | 老牌强代码模型,128k,生态成熟 | 64k–128k |
| 6 | Qwen3-VL-30B-A3B-Instruct | 视觉专项备选 | PDF、OCR、GUI、视频、多图理解更专项 | 64k–128k |
6. 重点模型说明
6.1 Qwen3.6-35B-A3B:本地第一主力
这是我最推荐的常驻模型。
它的价值不只是“能跑”,而是覆盖面很适合工程师日常:
代码修改 仓库理解 Coding Agent 工具调用 截图分析 图像处理结果分析 PDF / GUI / 视频帧理解 长上下文项目问答
建议用法:
| 场景 | 建议上下文 |
|---|---|
| 日常 coding | 64k |
| 项目级代码理解 | 128k |
| 长日志 / 长文档 | 128k–200k 实验 |
| 单张图片 + 代码 | 32k–64k |
| 多图 / PDF / GUI | 64k–128k |
| 视频输入 | 32k–64k 起步 |
如果只装一个本地模型,我会选它。
6.2 DeepSeek V4 Flash + ds4.c:超长上下文专项主力
如果目标是 200k–300k,它比 R1-32B、普通 Qwen32B、普通 70B dense 更值得优先折腾。
它的核心价值是:
1M context 设计 MoE 大模型能力 长上下文效率优化 KV cache 更省 ds4.c 支持磁盘 KV cache 128G Mac 有现实可玩性
建议用法:
| 场景 | 建议上下文 |
|---|---|
| 初次验证 | 64k / 100k |
| 大仓库 / 长文档 | 128k |
| 超长日志 / agent trace | 200k |
| 极限实验 | 250k–300k |
| 1M | 不建议日常用 |
我的建议是:
不要一上来开 300k。 先 128k 跑稳,再 200k。 250k/300k 留给确实需要的大任务。
6.3 Qwen3-Coder-30B-A3B-Instruct:纯 Coding Agent 备选
如果你的任务是纯代码,不需要看图,那么它很值得关注。
它适合:
仓库级代码理解 Agentic Coding 工具调用 Browser-use 结构化代码生成 函数调用格式
建议用法:
默认 64k 大任务 128k 200k 作为实验,不建议默认
它和 Qwen3.6 的区别:
Qwen3.6:更综合,多模态 + coding Qwen3-Coder:更专注纯代码 agent
6.4 deepseek-r1:32b:轻量推理副手
它不是综合主力,也不是最新最强模型,但它有一个明确优势:
Ollama 直接可用,模型不大,纯文本 reasoning 风格明显。
适合:
数学推理 算法题 复杂逻辑推导 并发/边界条件分析 纯文本 debug 分析
不适合:
图像输入 大仓库 200k 长 agent trace 多模态工程任务
建议上下文:
默认 32k 复杂推理 64k 128k 只作为实验
6.5 Qwen2.5-Coder-32B-Instruct:稳定纯代码备选
这是成熟的代码模型,适合做:
Python / C++ 代码修改 Dockerfile shell / bat 脚本 仓库结构解释 单元测试补全 局部 debug
建议上下文:
默认 64k 大任务 128k 不建议 200k+
6.6 Qwen3-VL-30B-A3B-Instruct:视觉专项备选
如果你大量处理:
PDF OCR GUI 截图 视频帧 多图对比 文档图表
它比通用模型更专项。
但如果只是偶尔看图,Qwen3.6-35B-A3B 就够优先。
7. 为什么不推荐某些模型进入优先级
7.1 deepseek-r1:70b
它能跑,但我不建议优先投入时间。原因是:
Dense 70B 速度慢 长上下文不舒服 128G Mac 上性价比不如 R1-32B
如果你只是偶尔想跑高难纯文本推理,可以试;但不建议当日常模型。
7.2 deepseek-r1:671b
这是完整 R1,但 Ollama 上模型大小约 404GB,128G Mac 不适合日常本地部署。
7.3 DeepSeek V4 Pro
模型级别很高,但太大。它更适合 512G+ 机器或服务器,不适合你的 128G Mac 本地方案。
7.4 Qwen3.7-Max / Qwen3.7
Qwen3.7 已经有线上模型信息,但目前没有看到适合本地部署的开源权重。所以它可以关注 API,不适合放进本地部署优先级。
7.5 普通 70B dense 模型
包括 Llama 70B、Qwen 72B 等。128G Mac 可以折腾,但不太舒服。长上下文下尤其明显。对你的任务来说,不如 Qwen3.6、DeepSeek V4 Flash、Qwen3-Coder 更直接。
8. 按任务怎么选
| 你的任务 | 首选 | 备选 | 建议 |
|---|---|---|---|
| 日常 Coding Agent | Qwen3.6-35B-A3B | Qwen3-Coder-30B-A3B | 先 64k,复杂任务 128k |
| 代码 + 图片/截图 | Qwen3.6-35B-A3B | Qwen3-VL-30B-A3B | 32k–64k 起步 |
| PDF / OCR / GUI / 视频 | Qwen3-VL-30B-A3B | Qwen3.6-35B-A3B | 64k–128k |
| 纯代码修改 | Qwen3-Coder-30B-A3B | Qwen2.5-Coder-32B | 64k–128k |
| 纯文本 reasoning | deepseek-r1:32b | deepseek-r1:70b | 32k–64k |
| 大仓库 / 长日志 | DeepSeek V4 Flash + ds4.c | Qwen3.6-35B-A3B | 128k–200k |
| 200k–300k 上下文 | DeepSeek V4 Flash + ds4.c | 无真正同级本地替代 | 200k 主力,300k 实验 |
| 只想装一个 | Qwen3.6-35B-A3B | — | 最均衡 |
| 只想一键 Ollama 轻松跑 | deepseek-r1:32b | Qwen2.5-Coder-32B GGUF | 方便,但不是综合最强 |
9. 最终推荐组合
9.1 最推荐装法:三件套
1. Qwen3.6-35B-A3B 本地多模态 Coding / Agent 主力 2. DeepSeek V4 Flash + ds4.c 纯文本 200k–300k 长上下文 3. Qwen3-Coder-30B-A3B-Instruct 纯代码 Agent / Repo 级理解备选
9.2 再加一个轻量推理副手
4. deepseek-r1:32b 数学、算法、逻辑推理
9.3 视觉任务很多,再加
5. Qwen3-VL-30B-A3B-Instruct PDF、OCR、GUI、视频、多图理解
10. 实际部署策略建议
10.1 默认不要把上下文开满
很多模型标称 128k、256k、1M,不代表日常应该直接开满。上下文越大:
KV cache 越大 prefill 越慢 内存压力越高 缓存命中越重要
建议默认:
64k:日常代码 / 普通 agent 128k:大仓库 / 多文件分析 200k:长日志 / 长文档 250k–300k:只给 DeepSeek V4 Flash + ds4.c 做专项实验
10.2 多模态任务不要贪长上下文
图片、视频、PDF 页面都会变成视觉 token。不是“文本 128k + 无限图片”。
建议:
单图 + 代码:32k–64k 多图 / PDF:64k–128k 视频:先 32k–64k
10.3 R1-32B 适合做“副手”,不是主力
deepseek-r1:32b 很适合推理,但它是文本模型,不会看图,也不是 200k–300k 上下文模型。它的最好位置是:
需要纯文本推理时,临时调用一下。
10.4 DeepSeek V4 Flash 是“长上下文工具”,不是所有任务都用它
如果只是改一个脚本、看一张图、写 Dockerfile,用 Qwen3.6 或 Qwen3-Coder 更直接。
DeepSeek V4 Flash 的优势是:
超长文本 超大仓库 长日志 长 agent trace
11. 最终结论
对 128G Mac,我最终建议如下:
第一主力: Qwen3.6-35B-A3B 第二主力: DeepSeek V4 Flash + ds4.c 第三选择: Qwen3-Coder-30B-A3B-Instruct 可选推理副手: deepseek-r1:32b 纯代码备选: Qwen2.5-Coder-32B-Instruct 视觉专项备选: Qwen3-VL-30B-A3B-Instruct
不建议投入主要精力:
Qwen3.7-Max:目前主要是 API / closed-weight,不适合本地部署规划 deepseek-r1:70b:能跑但不够轻快 deepseek-r1:671b:404GB,不适合 128G Mac DeepSeek V4 Pro:太大 普通 70B dense:能跑但不是最优解
最短版:
本地综合主力:Qwen3.6-35B-A3B 本地超长上下文:DeepSeek V4 Flash + ds4.c 本地纯代码:Qwen3-Coder-30B-A3B 或 Qwen2.5-Coder-32B 本地轻量推理:deepseek-r1:32b
参考资料
- Qwen3.6-35B-A3B Hugging Face 模型页:https://huggingface.co/Qwen/Qwen3.6-35B-A3B
- Qwen3.6-35B-A3B 官方博客:https://qwen.ai/blog?id=qwen3.6-35b-a3b
- Qwen3.7 官方博客:https://qwen.ai/blog?id=qwen3.7
- DeepSeek V4 Flash Hugging Face 模型页:https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash
- DeepSeek V4 Preview Release:https://api-docs.deepseek.com/news/news260424
- ds4.c GitHub 项目:https://github.com/antirez/ds4
- Ollama deepseek-r1 tags:https://ollama.com/library/deepseek-r1/tags
- Ollama deepseek-r1:32b:https://ollama.com/library/deepseek-r1:32b
- Qwen3-Coder-30B-A3B-Instruct GGUF:https://huggingface.co/unsloth/Qwen3-Coder-30B-A3B-Instruct-GGUF
- Qwen2.5-Coder-32B-Instruct:https://huggingface.co/Qwen/Qwen2.5-Coder-32B-Instruct
- Qwen3-VL-30B-A3B-Instruct:https://huggingface.co/Qwen/Qwen3-VL-30B-A3B-Instruct
- Gemma 3 27B IT:https://huggingface.co/google/gemma-3-27b-it