KAN(Kolmogorov-Arnold Networks)相比于MLP的改进在于激活函数的可学习,可以用更少量的参数来做更深层次的拟合,极大减少了网络参数,增强了网络的可解释性,KAN缺点在于训练过于缓慢,这篇笔记主要是对论文主干的翻译,我们先看看KAN的论文。(Paper有48页,慢慢啃)
MiniMind 学习笔记 11:LoRA 微调,从低秩增量到权重合并
前面几篇文章已经从 tokenizer、dataset、训练循环、模型结构、Attention、RoPE、Mo … 阅读更多
a blog driven by interest~
前面几篇文章已经从 tokenizer、dataset、训练循环、模型结构、Attention、RoPE、Mo … 阅读更多
前面几篇已经看过 MiniMind 的 Attention、RoPE 和推理生成。 这篇继续沿着同一条线看一个 … 阅读更多
训练时,模型可以并行预测一个序列中的很多位置。 推理时,情况不同。 LLM 生成文本通常是自回归的: Mini … 阅读更多
很多人在学习 Transformer 时会把注意力都放在 Attention 上。 但在现代 LLM 中,Fe … 阅读更多
Attention 本身只看 token 内容,不天然知道 token 的位置。 如果两个 token 的内容 … 阅读更多
Attention 是 LLM 里最核心、也最容易让初学者卡住的模块。 MiniMind 的 Attentio … 阅读更多
上一篇看了 MiniMind 的整体结构: 这篇进入每一层 MiniMindBlock。 在 Min … 阅读更多
前面已经看过 tokenizer、dataset 和训练循环。现在进入模型结构。 MiniMind 的模型代码 … 阅读更多
理解 LLM 训练,最好的入口不是一上来就看复杂的分布式训练框架,而是先看一个足够小、足够完整的训练脚本。 M … 阅读更多
上一篇从 tokenizer 讲起:文本会被切成 token,再变成一串整数 input_ids。但 … 阅读更多
学习 LLM 工程时,很多人会直接从 Transformer、Attention 或训练脚本开始。但如果从工程 … 阅读更多
波动率被用来衡量标的波动幅度,同时也影响衍生品的定价。这里主要介绍期权的波动率。 参考资料: 一、IV和HV … 阅读更多
使用img2table将图片转化为excel表格的脚本(https://github.com/xavctn/i … 阅读更多
OpenCL Vision Image Extension 使用的指令集,又叫做 EVIS (Enhanced … 阅读更多
3d gaussian splatting(3dgs)的出现是三维重建和图形渲染的里程碑。这里主要是关于把3d … 阅读更多