llm – Poly Space

MiniMind 学习笔记 12：从 MiniMind-V 看懂 VLM，SigLIP、Projector 与图像 Token 注入

2026-05-30 作者 PengChao

前面已经看过 MiniMind 的 tokenizer、dataset、训练循环、模型结构和推理生成。现在可以 … 阅读更多

MiniMind 学习笔记 11：LoRA 微调，从低秩增量到权重合并

2026-05-19 作者 PengChao

前面几篇文章已经从 tokenizer、dataset、训练循环、模型结构、Attention、RoPE、Mo … 阅读更多

MiniMind 学习笔记 10：Multi-Latent Attention，从 KV Cache 压缩到 MiniMind 改造思路

2026-05-17 作者 PengChao

前面几篇已经看过 MiniMind 的 Attention、RoPE 和推理生成。这篇继续沿着同一条线看一个 … 阅读更多

MiniMind 学习笔记 09：LLM 推理生成，KV Cache、temperature、top-k 与 top-p

2026-05-172026-05-17 作者 PengChao

训练时，模型可以并行预测一个序列中的很多位置。推理时，情况不同。 LLM 生成文本通常是自回归的： Mini … 阅读更多

MiniMind 学习笔记 08：FeedForward 与 MoE，LLM Block 里的另一半计算

2026-05-172026-05-17 作者 PengChao

很多人在学习 Transformer 时会把注意力都放在 Attention 上。但在现代 LLM 中，Fe … 阅读更多

MiniMind 学习笔记 07：RoPE 旋转位置编码，从代码到三角公式

2026-05-172026-05-17 作者 PengChao

Attention 本身只看 token 内容，不天然知道 token 的位置。如果两个 token 的内容 … 阅读更多

MiniMind 学习笔记 06：Attention 详解，QKV、Mask、GQA 与 MQA

2026-05-172026-05-17 作者 PengChao

Attention 是 LLM 里最核心、也最容易让初学者卡住的模块。 MiniMind 的 Attentio … 阅读更多

MiniMind 学习笔记 05：Transformer Block 里到底发生了什么

2026-05-172026-05-17 作者 PengChao

上一篇看了 MiniMind 的整体结构：这篇进入每一层 MiniMindBlock。在 Min … 阅读更多

MiniMind 学习笔记 04：模型结构总览，Config、CausalLM 与 Backbone

2026-05-172026-05-17 作者 PengChao

前面已经看过 tokenizer、dataset 和训练循环。现在进入模型结构。 MiniMind 的模型代码 … 阅读更多

MiniMind 学习笔记 03：从 train_pretrain.py 看懂 LLM 训练循环

2026-05-172026-05-17 作者 PengChao

理解 LLM 训练，最好的入口不是一上来就看复杂的分布式训练框架，而是先看一个足够小、足够完整的训练脚本。 M … 阅读更多

MiniMind 学习笔记 02：LLM 的数据如何进入模型

2026-05-172026-05-17 作者 PengChao

上一篇从 tokenizer 讲起：文本会被切成 token，再变成一串整数 input_ids。但 … 阅读更多

MiniMind 学习笔记 01：从 Tokenizer 开始理解 LLM

2026-05-172026-05-10 作者 PengChao

学习 LLM 工程时，很多人会直接从 Transformer、Attention 或训练脚本开始。但如果从工程 … 阅读更多