transformer – Poly Space

Vision Transformer

2024-02-152021-12-12 作者 PengChao

Transformer从NLP发展到视觉，开始改变视觉问题的处理方式，SwinTransformer和ViT都是典型的网络结构，典型的Transformer结构中大量使用Multi-Head Attention。ViT基于经典的Transformer模型，采用图像分块的方式将图像处理的问题转化为seq2seq的问题，这篇博客会从Attention开始，介绍到ViT。