What does this warning mean? -overflowing tokens are not returned for the setting you have chosen

NDugar · November 11, 2021, 10:51am

Running tokenizer on dataset: 28%|████████████████▍ | 111/393 [00:28<01:12, 3.88ba/s][WARNING|tokenization_utils_base.py:3048] 2021-11-11 10:46:54,553 >> Be aware, overflowing tokens are not returned for the setting you have chosen, i.e. sequence pairs with the ‘longest_first’ truncation strategy. So the returned list will always be empty even if some tokens have been removed.

Not sure if this is the right category for it.

Bibhabasu · March 30, 2022, 6:26am

have you found the solution ? @NDugar
may be its related to truncation=True in tokenizer

Topic		Replies	Views
`return_overflowing_tokens` with something like total_max_length 🤗Transformers	0	517	January 4, 2024
Changing Tokenizer's max_length gets weird result Beginners	2	428	May 17, 2022
The 🤗 Datasets library - Hugging Face Course 🤗Datasets	1	567	November 25, 2021
Possibly incorrect sequence length warning for sequences greater than model_max_length 🤗Transformers	0	1373	April 18, 2022
Predictions with pipeline fails to truncate test set 🤗Transformers	0	180	January 23, 2024

What does this warning mean? -overflowing tokens are not returned for the setting you have chosen

Related topics