🤗Tokenizers

Topic	Replies	Views	Activity
Tokenizing Float Tensor?	0	937	January 28, 2023
Padding and truncation for custom tokenizer	1	648	January 22, 2023
Incorporate SARI score into run_summarization.py example script	0	360	January 13, 2023
Is that possible to embed the tokenizer into the model to have it running on GCP using TensorFlow Serving?	4	3248	January 12, 2023
Huggingface inference API issue	0	513	January 10, 2023
Using Tokenizer for integer data	0	535	January 3, 2023
GPT2 long text approach	0	560	December 20, 2022
Huggingface t5 models seem to not download a tokenizer file	0	643	December 16, 2022
How to save a fast tokenizer using the transformer library and then load it using Tokenizers?	7	3489	December 14, 2022
Using a BertTokenizer when training a RobertaForMaskedLM	0	518	December 8, 2022
Need clarity on "padding" parameter in Bert Tokenizer	0	489	December 8, 2022
How to convert HuggingFace tokenizers into ONNX format?	1	652	December 5, 2022
Can't save ConvBert tokenizer	1	1064	December 4, 2022
RoBERTa Tokenizer Java Implementation	1	2539	November 29, 2022
Unigram vocab_size doesn't fit	0	425	November 28, 2022
Option to load only tokenizer and model configuration into "token-classification" pipeline	0	792	November 25, 2022
Encode_plus Pretokenized input seuqence must be Union	0	462	November 21, 2022
Application of TFBertTokenizer	0	444	November 21, 2022
TemplateProcessing for encoder-decoder	0	507	November 16, 2022
Using `TFBertTokenizer` instead of `BertTokenizer` with `TFBertForQuestionAnswering`	1	1259	November 15, 2022
How to concatenate an answer to multiple choices after padded tokenization	0	447	November 15, 2022
Maximum recursion depth exceeded when using DataCollator	2	3720	November 14, 2022
Adding a special language token to MBART	0	591	November 12, 2022
Custom PostProcessor?	0	926	November 10, 2022
Tokenizer.pad_token=what?	2	10226	November 8, 2022
Using HuggingFace Tokenizers Without Special Characters	2	1965	November 2, 2022
How to get sp_model variable from T5Tokenizer?	1	1034	October 29, 2022
Wav2vec2CTCTokenizer and vocab.json	2	1124	October 29, 2022
Period ID in RobertaTokenizer with is_split_into_words	1	540	October 27, 2022
WordLevel error: Missing [UNK] token from the vocabulary	4	3345	October 27, 2022