128G Mac 本地大模型选型：长上下文、多模态 Coding Agent 与本地推理模型怎么选

资料更新时间：2026-05-31
目标机器：128G Apple Silicon Mac，重点讨论本地部署、本地 Coding Agent、多模态输入，以及 200k–300k 长上下文场景。

Table of Contents

0. 先给结论

如果你的目标是把 128G Mac 真正用成一台本地 AI 工作站，我建议不要追求“装最多模型”，而是按任务分工：

任务	首选模型	推荐上下文
日常工程开发、Coding Agent、代码 + 截图/图片	Qwen3.6-35B-A3B	文本 64k–128k；视觉 32k–128k
200k–300k 纯文本长上下文、大仓库、长日志	DeepSeek V4 Flash + ds4.c	128k 默认；200k 主力；250k–300k 实验
纯代码 Agent / Repo 级代码理解	Qwen3-Coder-30B-A3B-Instruct	64k–128k
纯文本数学、算法、逻辑推理	deepseek-r1:32b	32k–64k
稳定纯代码修改、脚本、Docker、C++/Python	Qwen2.5-Coder-32B-Instruct	64k–128k
PDF、OCR、GUI、视频、多图视觉专项	Qwen3-VL-30B-A3B-Instruct	64k–128k

最推荐的“三件套”：

1. Qwen3.6-35B-A3B
   本地多模态 Coding / Agent 主力

2. DeepSeek V4 Flash + ds4.c
   本地 200k–300k 纯文本长上下文主力

3. Qwen3-Coder-30B-A3B-Instruct
   纯代码 Agent / 仓库级代码理解备选

如果还想加一个“轻量推理副手”，再装：

4. deepseek-r1:32b

1. 128G Mac 的真实约束

128G Apple Silicon Mac 的优势是统一内存大，很多本地模型可以直接跑在 Apple GPU + unified memory 上。但是选模型时不能只看“模型文件大小”，还要看：

模型权重
+ KV cache
+ runtime buffer
+ tokenizer / prompt buffer
+ 系统和其他软件占用
+ 视觉输入产生的 visual tokens

尤其是长上下文时，真正容易把内存顶爆的是 KV cache。所以有一个很关键的判断：

模型能加载 ≠ 长上下文能舒服跑

例如 70B dense 模型也许可以加载，但如果再开 128k、200k 上下文，实际体验可能会很差。反过来，像 DeepSeek V4 Flash 这类模型，因为长上下文和 KV cache 做了特殊设计，配合 ds4.c，就更适合冲 200k–300k。

2. Dense 和 MoE：为什么参数量不能只看一个数字

本地部署时，要区分 Dense 和 MoE。

2.1 Dense 模型

Dense 模型的特点是：

每个 token 基本都经过全部参数。

例如：

Qwen2.5-Coder-32B：每 token 约走 32.5B 参数
deepseek-r1:32b：每 token 约走 32B 参数
deepseek-r1:70b：每 token 约走 70B 参数
Llama 70B：每 token 约走 70B 参数

所以 Dense 模型在 128G Mac 上跑到 32B 级别比较舒服；70B 虽然能跑，但速度、KV cache、长上下文都会变得不太舒服。

2.2 MoE 模型

MoE 模型的特点是：

总参数很多，但每个 token 只激活一部分专家。

例如：

Qwen3.6-35B-A3B：35B total / 3B active
Qwen3-Coder-30B-A3B：约 30.5B total / 3.3B active
DeepSeek V4 Flash：284B total / 13B active
DeepSeek R1 完整版：671B total / 约 37B active

MoE 的好处是推理计算量通常更接近“激活参数”，但总参数仍然要存储。所以 DeepSeek V4 Flash 虽然每 token 只激活 13B，但总参数 284B，必须依赖合适量化和专门引擎才适合 128G Mac。

3. Qwen3.7 更新了吗？

更新了，但目前不适合作为 128G Mac 本地部署目标。

截至本文整理时，可以看到 Qwen 官方发布了 Qwen3.7: The Agent Frontier，重点是 Qwen3.7-Max 这类线上/API 模型；但我没有看到适合本地部署的 Qwen3.7 开源权重。因此：

Qwen3.7：可以关注 API，但暂不纳入 128G Mac 本地部署优先级。
Qwen3.6-35B-A3B：当前更适合作为本地部署主力。

4. 全量模型大表

下面这张表把前面讨论过的模型都列出来，包括“不推荐进入优先级”的模型。
“是否列入优先级”只代表我是否建议你在 128G Mac 上投入主要精力部署它。

模型	类型	参数量	输入	标称上下文	128G Mac 建议上下文	部署现实性	是否列入优先级	备注
Qwen3.6-35B-A3B	MoE + VLM	35B total / 3B active	文本 / 图像 / 视频	262k native，可扩到约 1M	文本 64k–128k；视觉 32k–128k；200k 实验	高	是，第一优先级	本地多模态 Coding / Agent 主力
DeepSeek V4 Flash + ds4.c	MoE	284B total / 13B active	文本	1M	128k 默认；200k 主力；250k–300k 实验	中，需要 ds4.c	是，第二优先级	纯文本超长上下文主力
Qwen3-Coder-30B-A3B-Instruct	MoE	约 30.5B total / 3.3B active	文本 / 代码	262k native，可扩到 1M	64k–128k；200k 实验	高/中	是，可选高优先级	纯 Coding Agent、Repo 级理解
deepseek-r1:32b	Dense 蒸馏	32B	文本	Ollama 标 128k	32k–64k；128k 实验	高	是，可选	轻量 reasoning 副手
Qwen2.5-Coder-32B-Instruct	Dense	32.5B	文本 / 代码	128k	64k–128k	高	是，可选	稳定纯代码模型
Qwen3-VL-30B-A3B-Instruct	MoE + VLM	30B 级 / A3B	文本 / 图像 / 视频 / 文档	256k native，可扩到 1M	视觉 64k–128k	中	是，视觉专项可选	PDF、OCR、GUI、视频专项
Qwen3.5-35B-A3B	MoE + VLM	35B total / 3B active	文本 / 图像 / 视频	262k 级	64k–128k	高/中	否	已被 Qwen3.6 替代，除非已有部署
GLM-4.7-Flash	MoE	30B-A3B 级	主要文本	128k–200k 资料混杂	64k–128k	中	否	可玩，但当前主线不优先
deepseek-r1:70b	Dense 蒸馏	70B	文本	Ollama 标 128k	16k–64k；128k 实验	中	否	能跑但慢，不如 R1-32B 实用
Qwen3-32B	Dense	32B	文本	128k	64k–128k	高	否	可用，但不如 Qwen3.6 / Qwen3-Coder 有针对性
Qwen3-30B-A3B	MoE	30B total / 3B active	文本	128k	64k–128k	高	否	可用，但 Qwen3-Coder 更贴合 coding
Qwen3-14B	Dense	14B	文本	128k	64k–128k	很高	否	轻量快，但不是主力档
Qwen3-8B	Dense	8B	文本	128k	64k–128k	很高	否	轻量助手，复杂工程能力有限
Gemma 3 27B	Dense + VLM	27B	文本 / 图像	128k	64k–128k	高/中	否	图文可用，但 coding 不如 Qwen 主线
Gemma 3 12B / 4B	Dense + VLM	12B / 4B	文本 / 图像	128k	64k–128k	很高	否	轻量图文助手
Codestral 22B	Dense	22B	文本 / 代码	32k	32k	高	否	代码补全可以，但上下文短
Qwen2.5 / Qwen2 72B	Dense	72B / 73B	文本	128k 级	32k–64k；128k 实验	中	否	能跑但重，长上下文不舒服
Llama 3.3 70B	Dense	70B	文本	128k 级	32k–64k；128k 实验	中	否	同上，128G Mac 不建议当主力
DeepSeek V4 Pro	MoE	1.6T total / 49B active	文本	1M	不建议	低	否	更偏 512G+ 机器
deepseek-r1:671b	MoE 完整 R1	671B total / 约 37B active	文本	Ollama 标 160k	不建议	低	否	Ollama 约 404GB，128G Mac 不适合
Qwen3.7-Max / Qwen3.7	闭源/API 模型	未开放适合本地部署的权重	主要文本 / Agent API	1M 级资料	本地不适用	低	否	已更新，但目前不是本地部署目标

5. 真正推荐优先级

下面这张表才是我建议你真正投入时间部署和使用的列表。

优先级	模型	定位	为什么推荐	建议上下文
1	Qwen3.6-35B-A3B	本地多模态 Coding / Agent 主力	能写代码、能看图/视频/截图、上下文长、部署资料完整	文本 64k–128k；视觉 32k–128k
2	DeepSeek V4 Flash + ds4.c	纯文本超长上下文主力	128G Mac 上最值得冲 200k–300k 的方案	128k / 200k / 250k–300k
3	Qwen3-Coder-30B-A3B-Instruct	纯 Coding Agent 备选	30B-A3B 级 MoE、长上下文、专门面向 Agentic Coding	64k–128k
4	deepseek-r1:32b	轻量 reasoning 副手	Ollama 直接可跑，纯文本推理/数学/算法不错	32k–64k
5	Qwen2.5-Coder-32B-Instruct	稳定纯代码备选	老牌强代码模型，128k，生态成熟	64k–128k
6	Qwen3-VL-30B-A3B-Instruct	视觉专项备选	PDF、OCR、GUI、视频、多图理解更专项	64k–128k

6. 重点模型说明

6.1 Qwen3.6-35B-A3B：本地第一主力

这是我最推荐的常驻模型。

它的价值不只是“能跑”，而是覆盖面很适合工程师日常：

代码修改
仓库理解
Coding Agent
工具调用
截图分析
图像处理结果分析
PDF / GUI / 视频帧理解
长上下文项目问答

建议用法：

场景	建议上下文
日常 coding	64k
项目级代码理解	128k
长日志 / 长文档	128k–200k 实验
单张图片 + 代码	32k–64k
多图 / PDF / GUI	64k–128k
视频输入	32k–64k 起步

如果只装一个本地模型，我会选它。

6.2 DeepSeek V4 Flash + ds4.c：超长上下文专项主力

如果目标是 200k–300k，它比 R1-32B、普通 Qwen32B、普通 70B dense 更值得优先折腾。

它的核心价值是：

1M context 设计
MoE 大模型能力
长上下文效率优化
KV cache 更省
ds4.c 支持磁盘 KV cache
128G Mac 有现实可玩性

建议用法：

场景	建议上下文
初次验证	64k / 100k
大仓库 / 长文档	128k
超长日志 / agent trace	200k
极限实验	250k–300k
1M	不建议日常用

我的建议是：

不要一上来开 300k。
先 128k 跑稳，再 200k。
250k/300k 留给确实需要的大任务。

6.3 Qwen3-Coder-30B-A3B-Instruct：纯 Coding Agent 备选

如果你的任务是纯代码，不需要看图，那么它很值得关注。

它适合：

仓库级代码理解
Agentic Coding
工具调用
Browser-use
结构化代码生成
函数调用格式

建议用法：

默认 64k
大任务 128k
200k 作为实验，不建议默认

它和 Qwen3.6 的区别：

Qwen3.6：更综合，多模态 + coding
Qwen3-Coder：更专注纯代码 agent

6.4 deepseek-r1:32b：轻量推理副手

它不是综合主力，也不是最新最强模型，但它有一个明确优势：

Ollama 直接可用，模型不大，纯文本 reasoning 风格明显。

适合：

数学推理
算法题
复杂逻辑推导
并发/边界条件分析
纯文本 debug 分析

不适合：

图像输入
大仓库 200k
长 agent trace
多模态工程任务

建议上下文：

默认 32k
复杂推理 64k
128k 只作为实验

6.5 Qwen2.5-Coder-32B-Instruct：稳定纯代码备选

这是成熟的代码模型，适合做：

Python / C++ 代码修改
Dockerfile
shell / bat 脚本
仓库结构解释
单元测试补全
局部 debug

建议上下文：

默认 64k
大任务 128k
不建议 200k+

6.6 Qwen3-VL-30B-A3B-Instruct：视觉专项备选

如果你大量处理：

PDF
OCR
GUI 截图
视频帧
多图对比
文档图表

它比通用模型更专项。

但如果只是偶尔看图，Qwen3.6-35B-A3B 就够优先。

7. 为什么不推荐某些模型进入优先级

7.1 deepseek-r1:70b

它能跑，但我不建议优先投入时间。原因是：

Dense 70B
速度慢
长上下文不舒服
128G Mac 上性价比不如 R1-32B

如果你只是偶尔想跑高难纯文本推理，可以试；但不建议当日常模型。

7.2 deepseek-r1:671b

这是完整 R1，但 Ollama 上模型大小约 404GB，128G Mac 不适合日常本地部署。

7.3 DeepSeek V4 Pro

模型级别很高，但太大。它更适合 512G+ 机器或服务器，不适合你的 128G Mac 本地方案。

7.4 Qwen3.7-Max / Qwen3.7

Qwen3.7 已经有线上模型信息，但目前没有看到适合本地部署的开源权重。所以它可以关注 API，不适合放进本地部署优先级。

7.5 普通 70B dense 模型

包括 Llama 70B、Qwen 72B 等。128G Mac 可以折腾，但不太舒服。长上下文下尤其明显。对你的任务来说，不如 Qwen3.6、DeepSeek V4 Flash、Qwen3-Coder 更直接。

8. 按任务怎么选

你的任务	首选	备选	建议
日常 Coding Agent	Qwen3.6-35B-A3B	Qwen3-Coder-30B-A3B	先 64k，复杂任务 128k
代码 + 图片/截图	Qwen3.6-35B-A3B	Qwen3-VL-30B-A3B	32k–64k 起步
PDF / OCR / GUI / 视频	Qwen3-VL-30B-A3B	Qwen3.6-35B-A3B	64k–128k
纯代码修改	Qwen3-Coder-30B-A3B	Qwen2.5-Coder-32B	64k–128k
纯文本 reasoning	deepseek-r1:32b	deepseek-r1:70b	32k–64k
大仓库 / 长日志	DeepSeek V4 Flash + ds4.c	Qwen3.6-35B-A3B	128k–200k
200k–300k 上下文	DeepSeek V4 Flash + ds4.c	无真正同级本地替代	200k 主力，300k 实验
只想装一个	Qwen3.6-35B-A3B	—	最均衡
只想一键 Ollama 轻松跑	deepseek-r1:32b	Qwen2.5-Coder-32B GGUF	方便，但不是综合最强

9. 最终推荐组合

9.1 最推荐装法：三件套

1. Qwen3.6-35B-A3B
   本地多模态 Coding / Agent 主力

2. DeepSeek V4 Flash + ds4.c
   纯文本 200k–300k 长上下文

3. Qwen3-Coder-30B-A3B-Instruct
   纯代码 Agent / Repo 级理解备选

9.2 再加一个轻量推理副手

4. deepseek-r1:32b
   数学、算法、逻辑推理

9.3 视觉任务很多，再加

5. Qwen3-VL-30B-A3B-Instruct
   PDF、OCR、GUI、视频、多图理解

10. 实际部署策略建议

10.1 默认不要把上下文开满

很多模型标称 128k、256k、1M，不代表日常应该直接开满。上下文越大：

KV cache 越大
prefill 越慢
内存压力越高
缓存命中越重要

建议默认：

64k：日常代码 / 普通 agent
128k：大仓库 / 多文件分析
200k：长日志 / 长文档
250k–300k：只给 DeepSeek V4 Flash + ds4.c 做专项实验

10.2 多模态任务不要贪长上下文

图片、视频、PDF 页面都会变成视觉 token。不是“文本 128k + 无限图片”。

建议：

单图 + 代码：32k–64k
多图 / PDF：64k–128k
视频：先 32k–64k

10.3 R1-32B 适合做“副手”，不是主力

deepseek-r1:32b 很适合推理，但它是文本模型，不会看图，也不是 200k–300k 上下文模型。它的最好位置是：

需要纯文本推理时，临时调用一下。

10.4 DeepSeek V4 Flash 是“长上下文工具”，不是所有任务都用它

如果只是改一个脚本、看一张图、写 Dockerfile，用 Qwen3.6 或 Qwen3-Coder 更直接。
DeepSeek V4 Flash 的优势是：

超长文本
超大仓库
长日志
长 agent trace

11. 最终结论

对 128G Mac，我最终建议如下：

第一主力：
Qwen3.6-35B-A3B

第二主力：
DeepSeek V4 Flash + ds4.c

第三选择：
Qwen3-Coder-30B-A3B-Instruct

可选推理副手：
deepseek-r1:32b

纯代码备选：
Qwen2.5-Coder-32B-Instruct

视觉专项备选：
Qwen3-VL-30B-A3B-Instruct

不建议投入主要精力：

Qwen3.7-Max：目前主要是 API / closed-weight，不适合本地部署规划
deepseek-r1:70b：能跑但不够轻快
deepseek-r1:671b：404GB，不适合 128G Mac
DeepSeek V4 Pro：太大
普通 70B dense：能跑但不是最优解

最短版：

本地综合主力：Qwen3.6-35B-A3B
本地超长上下文：DeepSeek V4 Flash + ds4.c
本地纯代码：Qwen3-Coder-30B-A3B 或 Qwen2.5-Coder-32B
本地轻量推理：deepseek-r1:32b

参考资料

Qwen3.6-35B-A3B Hugging Face 模型页：https://huggingface.co/Qwen/Qwen3.6-35B-A3B
Qwen3.6-35B-A3B 官方博客：https://qwen.ai/blog?id=qwen3.6-35b-a3b
Qwen3.7 官方博客：https://qwen.ai/blog?id=qwen3.7
DeepSeek V4 Flash Hugging Face 模型页：https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash
DeepSeek V4 Preview Release：https://api-docs.deepseek.com/news/news260424
ds4.c GitHub 项目：https://github.com/antirez/ds4
Ollama deepseek-r1 tags：https://ollama.com/library/deepseek-r1/tags
Ollama deepseek-r1:32b：https://ollama.com/library/deepseek-r1:32b
Qwen3-Coder-30B-A3B-Instruct GGUF：https://huggingface.co/unsloth/Qwen3-Coder-30B-A3B-Instruct-GGUF
Qwen2.5-Coder-32B-Instruct：https://huggingface.co/Qwen/Qwen2.5-Coder-32B-Instruct
Qwen3-VL-30B-A3B-Instruct：https://huggingface.co/Qwen/Qwen3-VL-30B-A3B-Instruct
Gemma 3 27B IT：https://huggingface.co/google/gemma-3-27b-it

0. 先给结论

1. 128G Mac 的真实约束

2. Dense 和 MoE：为什么参数量不能只看一个数字

2.1 Dense 模型

2.2 MoE 模型

3. Qwen3.7 更新了吗？

4. 全量模型大表

5. 真正推荐优先级

6. 重点模型说明

6.1 Qwen3.6-35B-A3B：本地第一主力

6.2 DeepSeek V4 Flash + ds4.c：超长上下文专项主力

6.3 Qwen3-Coder-30B-A3B-Instruct：纯 Coding Agent 备选

6.4 deepseek-r1:32b：轻量推理副手

6.5 Qwen2.5-Coder-32B-Instruct：稳定纯代码备选

6.6 Qwen3-VL-30B-A3B-Instruct：视觉专项备选

7. 为什么不推荐某些模型进入优先级

7.1 deepseek-r1:70b

7.2 deepseek-r1:671b

7.3 DeepSeek V4 Pro

7.4 Qwen3.7-Max / Qwen3.7

7.5 普通 70B dense 模型

8. 按任务怎么选

9. 最终推荐组合

9.1 最推荐装法：三件套

9.2 再加一个轻量推理副手

9.3 视觉任务很多，再加

10. 实际部署策略建议

10.1 默认不要把上下文开满

10.2 多模态任务不要贪长上下文

10.3 R1-32B 适合做“副手”，不是主力

10.4 DeepSeek V4 Flash 是“长上下文工具”，不是所有任务都用它

11. 最终结论

参考资料

发表评论 取消回复

发表评论取消回复