Fine tuning image transformer on higher resolution

nielsr · September 8, 2022, 9:48am

Hi,

Yes definitely, let me open a PR today to add this!

And yes ViT is very much like BERT it outputs a vector of size 768 for each “patch” (which can be seen as each “word”), whereas a model like ResNet outputs a “feature map” of shape (batch_size, num_channels, height, width).

Topic		Replies	Views
Fine-tuning ViT with more patches/higher resolution Intermediate	3	3712	December 26, 2022
Changing resolution of transformer models for training 🤗Transformers	0	652	September 2, 2022
Pyramid Vision Transformer: Issue with input image size larger than 224 px 🤗Transformers	0	1607	September 15, 2023
Vision Transformer embeddings interpolation 🤗Transformers	0	375	July 6, 2022
How to use Transformers ViTs with different resolutions like in timm? 🤗Transformers	0	82	November 14, 2024

Fine tuning image transformer on higher resolution

Related topics