TrOCR large Printed outputs only in CAPITAL letters..why?

anamta · November 17, 2022, 8:02am

from transformers import TrOCRProcessor, VisionEncoderDecoderModel

from PIL import Image

processor = TrOCRProcessor.from_pretrained(r".\TrOCR")
model = VisionEncoderDecoderModel.from_pretrained(r".\TrOCR")
image = Image.open(r".\ld.png").convert(“RGB”)
pixel_values = processor(image, return_tensors=“pt”,attention_mask=True,Truncation=True).pixel_values
generated_ids = model.generate(pixel_values,pad_token_id=2,eos_token_id=2,max_new_tokens = 10000) #for open-end generation.

generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
generated_text

OUTPUT: ‘THIS IS I1 MEANS L & 1’

nielsr · November 17, 2022, 8:07am

Hi,

This question also has been asked at the original repository: [TrOCR, Huggingface] Inference predictions always upper case? · Issue #875 · microsoft/unilm · GitHub.

Laxmi9 · November 17, 2022, 8:16am

Facing the same problem here as well. It should return the text as it is in the image not all upper case.

Topic		Replies	Views
TrOCR only outputs upper case? Models	1	774	September 22, 2022
TrOCR - inference on images in parallel Beginners	3	684	December 13, 2023
Trocr results = 'generated_text': 'SR' Beginners	0	121	March 1, 2024
What controls the number of tokens for decoder sentence generation? Beginners	0	98	June 3, 2024
VisionEncoderDecoder/TrOCR Models	0	702	October 21, 2021

TrOCR large Printed outputs only in CAPITAL letters..why?

Related topics