Poly Space – a blog driven by interest～

3dgs部署问题记录

2024-05-282024-05-24 作者 PengChao

3d gaussian splatting（3dgs）的出现是三维重建和图形渲染的里程碑。这里主要是关于把3d … 阅读更多

KAN论文笔记

2024-05-172024-05-04 作者 PengChao

KAN（Kolmogorov-Arnold Networks）相比于MLP的改进在于激活函数的可学习，可以用更少量的参数来做更深层次的拟合，极大减少了网络参数，增强了网络的可解释性，KAN缺点在于训练过于缓慢，这篇笔记主要是对论文主干的翻译，我们先看看KAN的论文。（Paper有48页，慢慢啃）

Mamba论文笔记

2024-04-302024-04-30 作者 PengChao

简单记录一下Mamba相关几篇paper的创新和改进过程，首先SSM把RNN和CNN结合起来，可以像RNN一样 … 阅读更多

omniverse与blender交互

2024-04-172024-04-17 作者 PengChao

omniverse和blender结合有两种方式，一种是blender中的模型导入到omniverse中产生形态键动画，然后再导回blender，这种方式可以直接参见nvidia的视频guide，另一种方式是omniverse直接产生动画，在blender中利用插件完成绑定，我们这里介绍后面这种。

这篇博客主要介绍利用Omniverse驱动人体模型和面部表情映射的大致基本流程，主要介绍两套工具之间的桥梁，不会具体到每个参数，如果需要系统学习，可以单独找omniverse或者blender的课程，它们会介绍的更详细。开始之前，需要有blender操作基础，以及对Riggfy，ARP（Auto Rig Pro）和Faceit 动画绑定插件有一些基本了解。

PyCharm调用wsl调试器问题记录

2024-03-142024-03-12 作者 PengChao

记录pycharm启动wsl调试器时出现问题和解决方法。 1. 报错：wsl a localhost prox … 阅读更多

pyRender离线渲染的一些问题

2024-03-132024-03-12 作者 PengChao

记录一下使用pyRender在没有显示器的服务器端做场景渲染时遇到的一些报错和解决。

写在前面，pyrender真是个大坑，渲染还很慢， realrender用cpu渲染也很快，问题没这么多，如果还没有绑定pyrender可以早些转投realreader，调试时候也需要灵活些，发现egl后端问题解不了，可以先用osmega后端，两个可以切换着来。

Codebook机制和CodeFormer图像恢复

2024-03-03 作者 PengChao

这篇博客主要介绍Codebook机制和CodeFormer，之前介绍了一种类似包含dictionary的算法 RestoreFormer和RestoreFormer++，他们有一些共通的机制，之前看VQ-VAE时候没有把Codebook梳理清楚，这里补补坑。

图像修复笔记 RestoreFormer和RestoreFormer++

2024-03-032024-03-03 作者 PengChao

RestoreFormer收录于CVPR2022，其后续工作RestoreFormer++被收录于TPAMI2023，属于图像复原领域比较具有代表性的工作。这里需要一些transformer的前置知识，可以参见Vision Transformer.

CVAT自动标注踩坑指北

2024-02-282024-02-25 作者 PengChao

CVAT的一些笔记和常用命令： deploy启动： docker compose -f docker-comp … 阅读更多

EfficientSAM论文笔记

2024-03-012024-02-14 作者 PengChao

开始之前需要一些前置知识，关于SAM请移步：SAM论文笔记，关于ViT基础请移步：Vision Transformer，关于MAE请移步知乎：MAE(Masked Autoencoders) – 知乎 (zhihu.com)。

SAM的解码器已经足够快，但是图像编码器用的ViT还是很大，于是很多工作就在SAM基础上改进性能，进行轻量化，其中有一些比较出色的工作比如 MobileSAM 、 FastSAM 和 EfficientSAM 等，已经将SAM推到了相当轻量。这篇博客主要是EfficientSAM的论文笔记。

在wordpress中使用赏心悦目的lxgw字体

2024-02-122024-02-11 作者 PengChao

霞鹜文楷，这款字体将仿宋和楷体两种风格融合，刚硬却又不失圆润。名字取自王勃所作的一篇著名骈文《滕王阁序》-「落 … 阅读更多

SAM论文笔记

2024-02-122024-02-07 作者 PengChao

SAM，segment anything是由meta开源的分割模型，它可以用框选、提示、文本prompt范式对图像进行分割，而无需额外训练，这一类方法构筑的网络已经成为CV任务的基础模型。

自编码器AE、VAE、dVAE、VQ-VAE、VQ-VAE2

2024-02-122024-01-28 作者 PengChao

在多模态、生成模型中会用到几种类型的自编码器，通常具有Encoder、Decoder的结构。

DALL-E论文笔记

2024-01-272024-01-21 作者 PengChao

DALL-E是OpenAI的多模态与训练模型，有120亿参数，在2.5亿图像文本对上寻来呢完成，主要用于文生图后续有DALL-E2和DALL-E3，其中DALL-E和DALL-E2是可以找到源代码和权重的，后面的DALL-E3是闭源的。学习原理的话我们从DALL-E入手。

从GPT开始，zero-shot的想法开始成为自然语言处理的主流，而视觉领域能否zero-shot呢（训练一个大模型，后续使用不需要微调）？CLIP和DALL-E告诉我们视觉也可以zero-shot，所以文章的Tile是Zero-Shot Image Generation，DALL-E的名字灵感来自于著名画家Salvador Dali和墨西哥的墙Wall-E。

CLIP（Contrastive Language-Image Pre-training），OpenAI给的title：Connecting text and images，被用作文本监督信号来训练可迁移的视觉模型。CLIP是一种基于对比学习的多模态模型，训练数据是文本-图像对（一张图像和其对应的文本描述），模型能够学习到文本-图像对的匹配关系。以下内容搜集自论文、知乎、OpenAI Blog Page （一手资料参阅以下链接的openai blog）

cmake引用pybind11

2023-12-162023-12-05 作者 PengChao

python调用C++用pybind11来封装接口比较方便易用，由于pybind11和python环境有匹配关系，cmake构建工程时先检测python环境，然后导入pybind11环境，这篇博客提供一个参考的cmakelists和一个简单的测试。

Python保存函数入参到文件，并从文件load再次调用

2023-11-29 作者 PengChao

在部分调试场景下，我们需要保存函数运行的现场，方便直接从函数入口开始调试（而不是从头开始运行整个工程），我们通常会选择把函数入参保存到文件，再次调试时我们从文件运行即可。下面的代码段提供了一个功能，把函数所有入参保存到文件，然后重新从文件load函数入参，并调用函数。泛型入参都打包到字典，保证代码复用。