🤗Tokenizers

Topic	Replies	Views	Activity
Tokenizer: what function removes spaces between '<' and '>'?	0	51	December 9, 2024
Convert huggingface tokenizer into sentencepiece format	1	607	November 27, 2024
Issue with Loading Custom Tokenizer: Tokenizer class BaseTokenizer does not exist or is not currently imported Error	6	227	November 6, 2024
Generate tokenizer.json for Marian(Opus) MT	2	642	November 4, 2024
Tokenizer method inference	3	45	November 2, 2024
How to skip tokens from translation?	2	888	October 15, 2024
Error loading tokenizer: data did not match any variant of untagged enum ModelWrapper at line 1251003 column 3	3	3603	October 10, 2024
Authorization header is correct, but the token seems invalid	3	167	October 10, 2024
AutoTokenizer.encode with multiThread and mutliProcess	2	275	October 9, 2024
Trying to use AutoTokenizer with TensorFlow gives: `ValueError: text input must of type `str` (single example), `List[str]` (batch or single pretokenized example) or `List[List[str]]` (batch of pretokenized examples).`	11	20016	October 5, 2024
Help to choose decoder for devnagari ocr	0	14	September 20, 2024
Speed up tokenizer training	5	1224	September 17, 2024
Cannot load tokenizer for llama2	6	7157	September 13, 2024
What is based model of XLM-RoBERTa Tokenizer? SenetencePiece? XLNetTokenizer	0	32	September 12, 2024
Tokenization compared to sentencepiece	0	89	September 11, 2024
Tokenizer Error [AGAIN!]	0	50	September 10, 2024
Decoding sequence of tokens produces question marks instead of actual tokens	1	26	September 3, 2024
Chat_template is not set & throwing error	3	12649	August 31, 2024
Memory leaks when training Gemma or Phi 3 and 3.5 tokenizer	0	70	August 29, 2024
What does "trim_offsets" do in tokenizer post-processor?	0	48	August 25, 2024
How to train a LlamaTokenizer?	22	4030	August 20, 2024
Issue with XLM-RoBERTa tokenizer	1	301	August 15, 2024
Adding tokens, but tokenizer doesn't use them	1	399	August 14, 2024
Can I retrain GPT-2 tokeniser on Chinese data and use it with GPT-2 XL or other models to create a Chinese-speaking model?	0	23	August 14, 2024
Encoding and then decodeing text is not equal	2	197	August 12, 2024
HugginChat (Android App)	0	53	August 8, 2024
Token Classification: How to tokenize and align labels with overflow and stride?	4	6145	July 22, 2024
Error with new tokenizers (URGENT!)	16	51233	July 22, 2024
Fine tuning a T5 model for translation - How do I apply my trained tokenizer to the target sentences?	0	39	July 20, 2024
When I using the chat_template of llama 2 tokenizer the response of IT model is nothing	0	113	July 13, 2024