Word tokenizers for text generators

PeterB123A · September 21, 2022, 11:02pm

Word based text generators make use of tokenizations, they scan a text, build a word-vector table.

I wonder how this is done. ea does it learn each verb, walk walking walked walks, etc as different words. Or is there an indexer, stored with a base verb, with only a lookup table for irregular verbs?
In essence, To Walk Conjugation - All English Verb Forms
does already contains short base sentences, that are part of everyday chat. " I’ve been walking."
( maybe just stored as some number- that could become walk 24 walk or Sandra 27 walk.
I was thinking could such a scheme optimize (reduce footprint) a smaller amount of total word vectors.
by making the tokenizer / de-tokenizer smart (supply it with most language rules, firt word capitalize add . at the end etc)

Topic		Replies	Views
Tokenizer from own vocab 🤗Tokenizers	0	456	July 11, 2022
Contextual tokenizer that create tokens for words depending on the surrounding Beginners	0	251	May 18, 2022
How the vocabulary of BERT tokenizer is generated? 🤗Transformers	2	2939	January 6, 2024
Keyword generation using T5 Models	4	1983	November 2, 2022
Text Generation, adding random words, weird linebreaks & symbols at random Beginners	5	982	May 24, 2021

Word tokenizers for text generators

Related topics