跳至内容

Poly Space

a blog driven by interest~

Poly Space

  • 代码托管
  • 站点地图
    • 资源归档
    • AI助手
  • 太阳系探索
  • 站点介绍
  • 代码托管
  • 站点地图
    • 资源归档
    • AI助手
  • 太阳系探索
  • 站点介绍

年度归档: 2026 年

MiniMind 学习笔记 11:LoRA 微调,从低秩增量到权重合并

2026-05-19 作者 PengChao

前面几篇文章已经从 tokenizer、dataset、训练循环、模型结构、Attention、RoPE、Mo … 阅读更多

分类 大模型 标签 llm 发表评论

MiniMind 学习笔记 10:Multi-Latent Attention,从 KV Cache 压缩到 MiniMind 改造思路

2026-05-17 作者 PengChao

前面几篇已经看过 MiniMind 的 Attention、RoPE 和推理生成。 这篇继续沿着同一条线看一个 … 阅读更多

分类 大模型 标签 llm 发表评论

MiniMind 学习笔记 09:LLM 推理生成,KV Cache、temperature、top-k 与 top-p

2026-05-172026-05-17 作者 PengChao

训练时,模型可以并行预测一个序列中的很多位置。 推理时,情况不同。 LLM 生成文本通常是自回归的: Mini … 阅读更多

分类 大模型 标签 llm 发表评论

MiniMind 学习笔记 08:FeedForward 与 MoE,LLM Block 里的另一半计算

2026-05-172026-05-17 作者 PengChao

很多人在学习 Transformer 时会把注意力都放在 Attention 上。 但在现代 LLM 中,Fe … 阅读更多

分类 大模型 标签 llm 发表评论

MiniMind 学习笔记 07:RoPE 旋转位置编码,从代码到三角公式

2026-05-172026-05-17 作者 PengChao

Attention 本身只看 token 内容,不天然知道 token 的位置。 如果两个 token 的内容 … 阅读更多

分类 大模型 标签 llm 发表评论

MiniMind 学习笔记 06:Attention 详解,QKV、Mask、GQA 与 MQA

2026-05-172026-05-17 作者 PengChao

Attention 是 LLM 里最核心、也最容易让初学者卡住的模块。 MiniMind 的 Attentio … 阅读更多

分类 大模型 标签 llm 发表评论

MiniMind 学习笔记 05:Transformer Block 里到底发生了什么

2026-05-172026-05-17 作者 PengChao

上一篇看了 MiniMind 的整体结构: 这篇进入每一层 MiniMindBlock。 在 Min … 阅读更多

分类 大模型 标签 llm 发表评论

MiniMind 学习笔记 04:模型结构总览,Config、CausalLM 与 Backbone

2026-05-172026-05-17 作者 PengChao

前面已经看过 tokenizer、dataset 和训练循环。现在进入模型结构。 MiniMind 的模型代码 … 阅读更多

分类 大模型 标签 llm 发表评论

MiniMind 学习笔记 03:从 train_pretrain.py 看懂 LLM 训练循环

2026-05-172026-05-17 作者 PengChao

理解 LLM 训练,最好的入口不是一上来就看复杂的分布式训练框架,而是先看一个足够小、足够完整的训练脚本。 M … 阅读更多

分类 大模型 标签 llm 发表评论

MiniMind 学习笔记 02:LLM 的数据如何进入模型

2026-05-172026-05-17 作者 PengChao

上一篇从 tokenizer 讲起:文本会被切成 token,再变成一串整数 input_ids。但 … 阅读更多

分类 大模型 标签 llm 发表评论

MiniMind 学习笔记 01:从 Tokenizer 开始理解 LLM

2026-05-172026-05-10 作者 PengChao

学习 LLM 工程时,很多人会直接从 Transformer、Attention 或训练脚本开始。但如果从工程 … 阅读更多

分类 大模型 标签 llm 发表评论

纽约时报 20260111:伊朗准备迎接更多抗议——你需要了解的情况

2026-01-11 作者 PengChao

一、中英对照 标题: Iran Braces for More Protests. Here’s What t … 阅读更多

分类 读书随笔

纽约时报20260111:美国对叙利亚境内“伊斯兰国”目标发动大规模打击

2026-01-11 作者 PengChao

一、中英对照 标题: U.S. Launches Major Strikes on Islamic State … 阅读更多

分类 读书随笔

纽约时报20260111:史密森学会撤下标注特朗普遭弹劾的说明文字

2026-01-11 作者 PengChao

一、中英对照 标题: Smithsonian Removes Label Noting Trump Impea … 阅读更多

分类 读书随笔

纽约时报20260111:特朗普的“超级明星”上诉法院法官以133比12的投票结果支持他

2026-01-11 作者 PengChao

一、中英对照 标题 Trump’s ‘Superstar’ Appellate Judges Have Vot … 阅读更多

分类 读书随笔

纽约时报20260104:特朗普长期想要“拿走石油”,他说这次将在委内瑞拉付诸行动。

2026-01-04 作者 PengChao

正文中英对照翻译(顺读式) Trump Long Wanted to ‘Take the Oil.’ He S … 阅读更多

分类 读书随笔

纽约时报20260104:我们目前所了解的美国在委内瑞拉的行动

2026-01-112026-01-04 作者 PengChao

What We Know About the U.S. Operation in Venezuela 我们目前 … 阅读更多

分类 读书随笔
较早文章
页面1 页面2 下一页 →

社区论坛

Github Trendhf daily papers

企业动态

OpenAIX.AIClaude

视频博主

prompt EngineeringAitrepreneur三蓝一棕Corbin BrownScott DetweilerJason陪你练绝技
  • 2026 (19)
  • 2025 (6)
  • 2024 (38)
  • 2023 (31)
  • 2022 (48)
  • 2021 (44)
  • 2020 (41)
  • 2019 (41)
  • 2018 (72)
  • 2017 (96)
  • 2016 (68)

热门标签

caffe calibration cmake computational-photography deeplearning dynamicprograming excel halide heap image fusion interview latex leetcode llm lua mac matlab mfc money non-competition objectdetection opencv opengl openwrt Options pcl photography protobuf python pytorch qrcode quantitative trading registration segmentation sort stereovision stock submission tensorflow tracking vba vrml wrl 人类简史 失控
Flag Counter
© 2016-2026 Poly Studio ­ ♠ ­ Powered By WordPress and GeneratePress
  • 代码托管
  • 站点地图
    • 资源归档
    • AI助手
  • 太阳系探索
  • 站点介绍