跳至内容

Poly Space

a blog driven by interest~

Poly Space

  • 代码托管
  • 站点地图
    • 资源归档
    • AI助手
  • 太阳系探索
  • 站点介绍
  • 代码托管
  • 站点地图
    • 资源归档
    • AI助手
  • 太阳系探索
  • 站点介绍

从直觉理解雅可比矩阵、Trace 与 Determinant

2026-07-05 作者 PengChao

在学习 VAE、Normalizing Flow、扩散模型、SLAM、优化算法或者神经网络可解释性时,经常会遇 … 阅读更多

分类 mathematic、 大模型 发表评论

MiniMind-O 学习笔记 19:三阶段训练,T2A、A2A audio_proj 与 A2A full

2026-05-31 作者 PengChao

前面几篇已经看过: 最后回到训练脚本。 MiniMind-O 的训练入口主要是: README 推荐 mini … 阅读更多

分类 大模型 发表评论

MiniMind-O 学习笔记 18:Talker 如何把回答变成语音

2026-05-31 作者 PengChao

上一篇从 forward 看到了 Thinker-Talker 的整体协作。 这一篇专门看 … 阅读更多

分类 大模型 发表评论

MiniMind-O 学习笔记 17:从 forward 看懂 Thinker-Talker 如何协作

2026-05-31 作者 PengChao

前面已经看过 Dataset 如何产出 9 路输入。现在进入模型本体: 核心入口是: 这篇只抓主线:一次 fo … 阅读更多

分类 大模型 发表评论

MiniMind-O 学习笔记 16:OmniDataset,文本、语音和语音监督如何进入模型

2026-05-31 作者 PengChao

理解训练,最好的入口是 Dataset。 MiniMind-O 的 Dataset 不只是把文本变成&nbsp … 阅读更多

分类 大模型 发表评论

MiniMind-O 学习笔记 15:音频如何变成 Token,Mimi 与 8 路 Codebook

2026-05-31 作者 PengChao

理解 MiniMind-O 的 Talker,先要理解一个问题: 文本模型生成的是 token id。Mini … 阅读更多

分类 大模型 发表评论

MiniMind-O 学习笔记 14:从 LLM 到 Omni,先看懂整体架构

2026-05-31 作者 PengChao

前面我们已经看过 MiniMind 语言模型和 MiniMind-V 视觉模型。MiniMind-O 是这个系 … 阅读更多

分类 大模型 发表评论

128G Mac 本地大模型选型:长上下文、多模态 Coding Agent 与本地推理模型怎么选

2026-05-31 作者 PengChao

资料更新时间:2026-05-31目标机器:128G Apple Silicon Mac,重点讨论本地部署、本 … 阅读更多

分类 大模型、 环境部署 发表评论

MiniMind 学习笔记 12:从 MiniMind-V 看懂 VLM,SigLIP、Projector 与图像 Token 注入

2026-05-30 作者 PengChao

前面已经看过 MiniMind 的 tokenizer、dataset、训练循环、模型结构和推理生成。现在可以 … 阅读更多

分类 大模型、 深度学习 标签 llm、 vlm 发表评论

从概率论到信息论:由浅入深理解 KL 散度和交叉熵

2026-05-24 作者 PengChao

在机器学习里,我们经常会遇到两个非常重要的概念: 它们经常出现在分类任务、知识蒸馏、VAE、语言模型训练、强化 … 阅读更多

分类 深度学习 标签 deeplearning 发表评论

WSL工作站配置02:独立物理硬盘挂载

2026-05-24 作者 PengChao

1. 目标 将一块独立物理 SSD 直接挂载给 WSL2 使用,格式化为 Linux 原生 ext4 … 阅读更多

分类 环境部署 标签 wsl 发表评论

WSL工作站配置01:网络SSH和GPU

2026-05-24 作者 PengChao

1. 目标架构 最终目标是把 Windows 主机作为一台远程 Linux GPU 工作站使用,Mac 只负责 … 阅读更多

分类 环境部署 标签 wsl 发表评论

MiniMind 学习笔记 11:LoRA 微调,从低秩增量到权重合并

2026-05-19 作者 PengChao

前面几篇文章已经从 tokenizer、dataset、训练循环、模型结构、Attention、RoPE、Mo … 阅读更多

分类 大模型 标签 llm 发表评论

MiniMind 学习笔记 10:Multi-Latent Attention,从 KV Cache 压缩到 MiniMind 改造思路

2026-05-17 作者 PengChao

前面几篇已经看过 MiniMind 的 Attention、RoPE 和推理生成。 这篇继续沿着同一条线看一个 … 阅读更多

分类 大模型 标签 llm 发表评论

MiniMind 学习笔记 09:LLM 推理生成,KV Cache、temperature、top-k 与 top-p

2026-05-172026-05-17 作者 PengChao

训练时,模型可以并行预测一个序列中的很多位置。 推理时,情况不同。 LLM 生成文本通常是自回归的: Mini … 阅读更多

分类 大模型 标签 llm 发表评论

MiniMind 学习笔记 08:FeedForward 与 MoE,LLM Block 里的另一半计算

2026-05-172026-05-17 作者 PengChao

很多人在学习 Transformer 时会把注意力都放在 Attention 上。 但在现代 LLM 中,Fe … 阅读更多

分类 大模型 标签 llm 发表评论

MiniMind 学习笔记 07:RoPE 旋转位置编码,从代码到三角公式

2026-05-172026-05-17 作者 PengChao

Attention 本身只看 token 内容,不天然知道 token 的位置。 如果两个 token 的内容 … 阅读更多

分类 大模型 标签 llm 发表评论
较早文章
页面1 页面2 … 页面22 下一页 →

社区论坛

Github Trendhf daily papers

企业动态

OpenAIX.AIClaude

视频博主

prompt EngineeringAitrepreneur三蓝一棕Corbin BrownScott DetweilerJason陪你练绝技
  • 2026 (23)
  • 2025 (4)
  • 2024 (38)
  • 2023 (31)
  • 2022 (48)
  • 2021 (44)
  • 2020 (41)
  • 2019 (41)
  • 2018 (72)
  • 2017 (96)
  • 2016 (68)

热门标签

caffe calibration cmake computational-photography deeplearning dynamicprograming excel halide heap image fusion interview latex leetcode llm lua mac matlab mfc money non-competition objectdetection opencv opengl openwrt Options pcl photography protobuf python pytorch qrcode quantitative trading registration segmentation sort stereovision stock submission tensorflow tracking vba vrml wsl 人类简史 失控

目录Toggle Table of ContentToggle

  • 1. 为什么需要位置编码
  • 2. RoPE 做在哪里
  • 3. 二维旋转的基本公式
  • 4. rotate_half 在做什么
  • 5. 为什么 RoPE 天然支持相对位置
  • 6. 一个简单例子
  • 7. 为什么有很多频率
  • 8. 为什么长文本还需要 YaRN / NTK scaling
  • 9. 和代码形状对应
  • 10. 小结
Flag Counter
© 2016-2026 Poly Studio ­ ♠ ­ Powered By WordPress and GeneratePress
  • 代码托管
  • 站点地图
    • 资源归档
    • AI助手
  • 太阳系探索
  • 站点介绍