KAN论文笔记

KAN(Kolmogorov-Arnold Networks)相比于MLP的改进在于激活函数的可学习,可以用更少量的参数来做更深层次的拟合,极大减少了网络参数,增强了网络的可解释性,KAN缺点在于训练过于缓慢,这篇笔记主要是对论文主干的翻译,我们先看看KAN的论文。(Paper有48页,慢慢啃)

阅读更多

omniverse与blender交互

omniverse和blender结合有两种方式,一种是blender中的模型导入到omniverse中产生形态键动画,然后再导回blender,这种方式可以直接参见nvidia的视频guide,另一种方式是omniverse直接产生动画,在blender中利用插件完成绑定,我们这里介绍后面这种。

这篇博客主要介绍利用Omniverse驱动人体模型面部表情映射的大致基本流程,主要介绍两套工具之间的桥梁,不会具体到每个参数,如果需要系统学习,可以单独找omniverse或者blender的课程,它们会介绍的更详细。开始之前,需要有blender操作基础,以及对Riggfy,ARP(Auto Rig Pro)和Faceit 动画绑定插件有一些基本了解。

阅读更多

pyRender离线渲染的一些问题

记录一下使用pyRender在没有显示器的服务器端做场景渲染时遇到的一些报错和解决。

写在前面,pyrender真是个大坑,渲染还很慢, realrender用cpu渲染也很快,问题没这么多,如果还没有绑定pyrender可以早些转投realreader,调试时候也需要灵活些,发现egl后端问题解不了,可以先用osmega后端,两个可以切换着来。

阅读更多

EfficientSAM论文笔记

开始之前需要一些前置知识,关于SAM请移步:SAM论文笔记, 关于ViT基础请移步:Vision Transformer,关于MAE请移步知乎:MAE(Masked Autoencoders) – 知乎 (zhihu.com)

SAM的解码器已经足够快,但是图像编码器用的ViT还是很大,于是很多工作就在SAM基础上改进性能,进行轻量化,其中有一些比较出色的工作 比如 MobileSAM 、 FastSAM 和 EfficientSAM 等,已经将SAM推到了相当轻量。这篇博客主要是EfficientSAM的论文笔记。

阅读更多

DALL-E论文笔记

DALL-E是OpenAI的多模态与训练模型,有120亿参数,在2.5亿图像文本对上寻来呢完成,主要用于文生图后续有DALL-E2和DALL-E3,其中DALL-E和DALL-E2是可以找到源代码和权重的,后面的DALL-E3是闭源的。学习原理的话我们从DALL-E入手。

从GPT开始,zero-shot的想法开始成为自然语言处理的主流,而视觉领域能否zero-shot呢(训练一个大模型,后续使用不需要微调)?CLIP和DALL-E告诉我们视觉也可以zero-shot,所以文章的Tile是Zero-Shot Image Generation,DALL-E的名字灵感来自于著名画家Salvador Dali和墨西哥的墙Wall-E。

阅读更多

CLIP论文笔记

CLIP(Contrastive Language-Image Pre-training),OpenAI给的title:Connecting text and images,被用作文本监督信号来训练可迁移的视觉模型。CLIP是一种基于对比学习的多模态模型,训练数据是文本-图像对(一张图像和其对应的文本描述),模型能够学习到文本-图像对的匹配关系。以下内容搜集自论文、知乎、OpenAI Blog Page (一手资料参阅以下链接的openai blog)

阅读更多