MiniMind-O 学习笔记 19:三阶段训练,T2A、A2A audio_proj 与 A2A full
前面几篇已经看过: 最后回到训练脚本。 MiniMind-O 的训练入口主要是: README 推荐 mini … 阅读更多
a blog driven by interest~
前面几篇已经看过: 最后回到训练脚本。 MiniMind-O 的训练入口主要是: README 推荐 mini … 阅读更多
上一篇从 forward 看到了 Thinker-Talker 的整体协作。 这一篇专门看 … 阅读更多
前面已经看过 Dataset 如何产出 9 路输入。现在进入模型本体: 核心入口是: 这篇只抓主线:一次 fo … 阅读更多
理解训练,最好的入口是 Dataset。 MiniMind-O 的 Dataset 不只是把文本变成  … 阅读更多
理解 MiniMind-O 的 Talker,先要理解一个问题: 文本模型生成的是 token id。Mini … 阅读更多
前面我们已经看过 MiniMind 语言模型和 MiniMind-V 视觉模型。MiniMind-O 是这个系 … 阅读更多
资料更新时间:2026-05-31目标机器:128G Apple Silicon Mac,重点讨论本地部署、本 … 阅读更多
前面已经看过 MiniMind 的 tokenizer、dataset、训练循环、模型结构和推理生成。现在可以 … 阅读更多
在机器学习里,我们经常会遇到两个非常重要的概念: 它们经常出现在分类任务、知识蒸馏、VAE、语言模型训练、强化 … 阅读更多
1. 目标 将一块独立物理 SSD 直接挂载给 WSL2 使用,格式化为 Linux 原生 ext4 … 阅读更多
1. 目标架构 最终目标是把 Windows 主机作为一台远程 Linux GPU 工作站使用,Mac 只负责 … 阅读更多
前面几篇文章已经从 tokenizer、dataset、训练循环、模型结构、Attention、RoPE、Mo … 阅读更多
前面几篇已经看过 MiniMind 的 Attention、RoPE 和推理生成。 这篇继续沿着同一条线看一个 … 阅读更多
训练时,模型可以并行预测一个序列中的很多位置。 推理时,情况不同。 LLM 生成文本通常是自回归的: Mini … 阅读更多
很多人在学习 Transformer 时会把注意力都放在 Attention 上。 但在现代 LLM 中,Fe … 阅读更多
Attention 本身只看 token 内容,不天然知道 token 的位置。 如果两个 token 的内容 … 阅读更多
Attention 是 LLM 里最核心、也最容易让初学者卡住的模块。 MiniMind 的 Attentio … 阅读更多