FineTuning - Possible to extract captions embedded in png files?

mostlyhuman · December 13, 2022, 7:40pm

Since png can hold text it seems like this would be supported by default but I cant figure out how to extract the captions from the png files when setting up my training images. Is it even possible?

Thank you for any help!

ravitejac · December 16, 2022, 3:11am

Donut model might help you extract the captions from images. Below are nice resources for finetuning donut:

Transformers-Tutorials/Donut at master · NielsRogge/Transformers-Tutorials · GitHub
Document AI: Fine-tuning Donut for document-parsing using Hugging Face Transformers

Topic		Replies	Views
Donut fine tuning question 🤗Optimum	0	1629	October 16, 2023
Donut Pre-Train on new Language 🤗Transformers	4	2299	July 1, 2025
Fine Tuning Git Model for Malayalam Image Captioning 🤗Transformers	0	504	June 6, 2023
Donut base-sized model, pre-trained only for a new language tutorial Models	2	1049	February 19, 2023
Question on text input in image captioning Beginners	0	268	December 4, 2022

FineTuning - Possible to extract captions embedded in png files?

Related topics