BART tokenizer adds two EOS (</s>) tokens?

anon67423238 · March 25, 2022, 6:09pm

I have the problem that the BART tokenizer adds two tokens after the first segment.

tokenizer = BartTokenizer.from_pretrained("facebook/bart-base")
tokenizer.encode("What do you think?", "Nothing.", return_tensors="pt")

It outputs:

tensor([[    0,  2264,   109,    47,   206,   116,     2,     2, 19847,     4,
             2]])

Let’s decode again:

tokenizer.batch_decode(x)

['<s>What do you think?</s></s>Nothing.</s>']

Can I do anything about it?

Topic		Replies	Views
BART - Input two sentences? Beginners	2	728	June 13, 2022
BART - Input format Intermediate	4	1783	December 13, 2023
BART Tokenizer tokenises same word differently? 🤗Tokenizers	1	720	August 24, 2022
BART seq2seq -100 tokens in prediction Models	0	184	December 25, 2023
Finetuning BART on a multi-input sequence to sequence task 🤗Transformers	0	733	September 22, 2021