Getting spans from tokenizer

ldavid · October 11, 2023, 9:48pm

I just found token_to_chars when tokenized_text = tokenizer(text), and it seems to be what I need. I’ll take a deeper look.


tokenized = tokenizer(text)
num_of_tokens = len(tokenized_text["input_ids"])
for i in range(num_of_tokens):
    charspan = tokenized_text.token_to_chars(i)
    print(charspan.start, charspan.end)

Topic		Replies	Views
NER model fine tuning with labeled spans Beginners	5	3895	May 7, 2023
RoBERTa Tokenizer supported characters 🤗Transformers	0	625	December 24, 2020
Punctuation and Spaces in RoBERTa Tokenizer for NER with Pre-tokenized Data 🤗Transformers	0	580	January 16, 2022
Tokenization in a NER context 🤗Tokenizers	5	5680	August 11, 2021
Ask for help with prediction results of Named Entity Recognition Task 🤗Transformers	10	3225	May 21, 2021

Getting spans from tokenizer

Related topics