跳至内容

Poly Space

a blog driven by interest~

Poly Space

  • 代码托管
  • 站点地图
    • 资源归档
    • AI助手
  • 太阳系探索
  • 站点介绍
  • 代码托管
  • 站点地图
    • 资源归档
    • AI助手
  • 太阳系探索
  • 站点介绍

MiniMind-O 学习笔记 19:三阶段训练,T2A、A2A audio_proj 与 A2A full

2026-05-31 作者 PengChao

前面几篇已经看过: 最后回到训练脚本。 MiniMind-O 的训练入口主要是: README 推荐 mini … 阅读更多

分类 大模型 发表评论

MiniMind-O 学习笔记 18:Talker 如何把回答变成语音

2026-05-31 作者 PengChao

上一篇从 forward 看到了 Thinker-Talker 的整体协作。 这一篇专门看 … 阅读更多

分类 大模型 发表评论

MiniMind-O 学习笔记 17:从 forward 看懂 Thinker-Talker 如何协作

2026-05-31 作者 PengChao

前面已经看过 Dataset 如何产出 9 路输入。现在进入模型本体: 核心入口是: 这篇只抓主线:一次 fo … 阅读更多

分类 大模型 发表评论

MiniMind-O 学习笔记 16:OmniDataset,文本、语音和语音监督如何进入模型

2026-05-31 作者 PengChao

理解训练,最好的入口是 Dataset。 MiniMind-O 的 Dataset 不只是把文本变成&nbsp … 阅读更多

分类 大模型 发表评论

MiniMind-O 学习笔记 15:音频如何变成 Token,Mimi 与 8 路 Codebook

2026-05-31 作者 PengChao

理解 MiniMind-O 的 Talker,先要理解一个问题: 文本模型生成的是 token id。Mini … 阅读更多

分类 大模型 发表评论

MiniMind-O 学习笔记 14:从 LLM 到 Omni,先看懂整体架构

2026-05-31 作者 PengChao

前面我们已经看过 MiniMind 语言模型和 MiniMind-V 视觉模型。MiniMind-O 是这个系 … 阅读更多

分类 大模型 发表评论

128G Mac 本地大模型选型:长上下文、多模态 Coding Agent 与本地推理模型怎么选

2026-05-31 作者 PengChao

资料更新时间:2026-05-31目标机器:128G Apple Silicon Mac,重点讨论本地部署、本 … 阅读更多

分类 大模型、 环境部署 发表评论

MiniMind 学习笔记 12:从 MiniMind-V 看懂 VLM,SigLIP、Projector 与图像 Token 注入

2026-05-30 作者 PengChao

前面已经看过 MiniMind 的 tokenizer、dataset、训练循环、模型结构和推理生成。现在可以 … 阅读更多

分类 大模型、 深度学习 标签 llm、 vlm 发表评论

从概率论到信息论:由浅入深理解 KL 散度和交叉熵

2026-05-24 作者 PengChao

在机器学习里,我们经常会遇到两个非常重要的概念: 它们经常出现在分类任务、知识蒸馏、VAE、语言模型训练、强化 … 阅读更多

分类 深度学习 标签 deeplearning 发表评论

WSL工作站配置02:独立物理硬盘挂载

2026-05-24 作者 PengChao

1. 目标 将一块独立物理 SSD 直接挂载给 WSL2 使用,格式化为 Linux 原生 ext4 … 阅读更多

分类 环境部署 标签 wsl 发表评论

WSL工作站配置01:网络SSH和GPU

2026-05-24 作者 PengChao

1. 目标架构 最终目标是把 Windows 主机作为一台远程 Linux GPU 工作站使用,Mac 只负责 … 阅读更多

分类 环境部署 标签 wsl 发表评论

MiniMind 学习笔记 11:LoRA 微调,从低秩增量到权重合并

2026-05-19 作者 PengChao

前面几篇文章已经从 tokenizer、dataset、训练循环、模型结构、Attention、RoPE、Mo … 阅读更多

分类 大模型 标签 llm 发表评论

MiniMind 学习笔记 10:Multi-Latent Attention,从 KV Cache 压缩到 MiniMind 改造思路

2026-05-17 作者 PengChao

前面几篇已经看过 MiniMind 的 Attention、RoPE 和推理生成。 这篇继续沿着同一条线看一个 … 阅读更多

分类 大模型 标签 llm 发表评论

MiniMind 学习笔记 09:LLM 推理生成,KV Cache、temperature、top-k 与 top-p

2026-05-172026-05-17 作者 PengChao

训练时,模型可以并行预测一个序列中的很多位置。 推理时,情况不同。 LLM 生成文本通常是自回归的: Mini … 阅读更多

分类 大模型 标签 llm 发表评论

MiniMind 学习笔记 08:FeedForward 与 MoE,LLM Block 里的另一半计算

2026-05-172026-05-17 作者 PengChao

很多人在学习 Transformer 时会把注意力都放在 Attention 上。 但在现代 LLM 中,Fe … 阅读更多

分类 大模型 标签 llm 发表评论

MiniMind 学习笔记 07:RoPE 旋转位置编码,从代码到三角公式

2026-05-172026-05-17 作者 PengChao

Attention 本身只看 token 内容,不天然知道 token 的位置。 如果两个 token 的内容 … 阅读更多

分类 大模型 标签 llm 发表评论

MiniMind 学习笔记 06:Attention 详解,QKV、Mask、GQA 与 MQA

2026-05-172026-05-17 作者 PengChao

Attention 是 LLM 里最核心、也最容易让初学者卡住的模块。 MiniMind 的 Attentio … 阅读更多

分类 大模型 标签 llm 发表评论
较早文章
页面1 页面2 … 页面22 下一页 →

社区论坛

Github Trendhf daily papers

企业动态

OpenAIX.AIClaude

视频博主

prompt EngineeringAitrepreneur三蓝一棕Corbin BrownScott DetweilerJason陪你练绝技
  • 2026 (22)
  • 2025 (4)
  • 2024 (38)
  • 2023 (31)
  • 2022 (48)
  • 2021 (44)
  • 2020 (41)
  • 2019 (41)
  • 2018 (72)
  • 2017 (96)
  • 2016 (68)

热门标签

caffe calibration cmake computational-photography deeplearning dynamicprograming excel halide heap image fusion interview latex leetcode llm lua mac matlab mfc money non-competition objectdetection opencv opengl openwrt Options pcl photography protobuf python pytorch qrcode quantitative trading registration segmentation sort stereovision stock submission tensorflow tracking vba vrml wsl 人类简史 失控

目录Toggle Table of ContentToggle

  • 1. Attention 的目标
  • 2. Q/K/V 的形状
  • 3. 为什么 Q head 和 KV head 可以不同
  • 4. repeat_kv 在做什么
  • 5. 这样做有什么代价
  • 6. causal mask 为什么是上三角
  • 7. attention_mask 和 causal mask 不一样
  • 8. Q/K Norm 是标准流程吗
  • 9. Attention 计算主线
  • 10. 小结
Flag Counter
© 2016-2026 Poly Studio ­ ♠ ­ Powered By WordPress and GeneratePress
  • 代码托管
  • 站点地图
    • 资源归档
    • AI助手
  • 太阳系探索
  • 站点介绍