🤗Tokenizers

Topic	Replies	Views	Activity
Combine multiple sentences together during tokenization	3	5662	February 4, 2022
NER tag , aggregation stratergy	2	7452	February 1, 2022
How to ensure that tokenizers never truncate partial words?	2	1808	January 24, 2022
How to ensure the `overflow` with `stride` always starts with a full word?	0	1278	January 24, 2022
Adding new tokens to a BERT tokenizer - Getting ValueError	2	1481	January 16, 2022
Adding token to t5-base vocab does not respect space	0	736	January 13, 2022
How can I change the token id of a special token?	0	886	January 6, 2022
Import distilbert-base-uncased tokenizer to an android app along with the tflite model	3	1956	December 29, 2021
What are the equivalent manner for using texts_to_sequences?	0	646	December 29, 2021
ERROR?why encoding [MASK] before '.' would gain a idx 13?	5	1049	December 27, 2021
LongFormer tokenizer has the same token_type_ids for sequence pairs	0	716	December 20, 2021
Batch encode plus in Rust Tokenizers	1	747	December 13, 2021
Best solution for train tokenizer and MLM from scratch	0	732	December 6, 2021
Implementing custom tokenizer components (normalizers, processors)	1	2908	November 30, 2021
Does T5Tokenizer support the Greek language?	1	841	November 24, 2021
How padding in huggingface tokenizer works?	4	6968	November 22, 2021
Why we need to add special tokens to tasks other than classification?	0	872	November 17, 2021
How to configure TokenizerFast for AutoTokenizer	2	1867	November 11, 2021
How to employ different vocabs for encoder and decoder respectively?	0	677	November 9, 2021
How to use tokenizer.tokenize in Chinese data properly?	0	911	November 9, 2021
Mask only specific words	4	3725	November 7, 2021
Load custom pretrained tokenizer	0	1614	October 28, 2021
Using Custom Vocab.txt	0	1249	October 17, 2021
Tokenizer.encode not returning encodings	2	901	October 9, 2021
There is no 0.11.0 tokenizers in pip	4	791	September 30, 2021
Performance difference between ByteLevelBPE and Wordpiece tokenizers	0	686	September 22, 2021
Should have a `model_type` key in its config.json	0	1950	September 20, 2021
Using a fixed vocab.txt with AutoTokenizer?	1	2342	September 13, 2021
Train wordpiece from scratch	2	1450	September 9, 2021
I set up a different batch_size, but the time of data processing has not changed	0	537	September 1, 2021