Questions re: Tokenizer pipeline composability / reuse outside of the HF ecosystem

namnnumbr · December 18, 2023, 1:30pm

I’d like to use portions of the tokenizer pipeline (Normalizer, Pre-tokenizer) separately for some initial preprocessing/cleaning, do some external functions for additional preprocessing, then hand back to (a new?) tokenizer pipeline for

normalizer
pre-tokenizer
–
custom (non-tokenizer pipeline) functions
–
tokenizer.normalizer
tokenizer.pre-tokenizer
tokenizer.tokenize

Is there a way to create a Tokenizer pipeline object that doesn’t tokenize? Or should I just do something like

nzr = normalizers.Sequence(...)
ptok = pre_tokenizer(...)

def custom_fn(text: str):
    # custom preprocessing
    ...
    return txt

cleaned = custom_fn(
    ptok.pre_tokenize_str(
       nzr.normalize_str(text)
    )
)

Further, if I hope to apply these to a Huggingface Dataset, should I just map the function to the dataset?

my_ds = load_dataset(...)
nzr = normalizers.Sequence(...)
ptok = pre_tokenizer(...)

my_ds = my_ds.map(nzr.normalize_str)
my_ds = my_ds.map(ptok.pre_tokenize_str)

Topic		Replies	Views
What does `tokenizers.normalizer.normalize` do? 🤗Tokenizers	5	3583	October 12, 2020
Save tokenizer with argument 🤗Tokenizers	2	1974	October 26, 2022
Implementing custom tokenizer components (normalizers, processors) 🤗Tokenizers	1	2920	November 30, 2021
Custom, without any pretraining, training with PyTorch Beginners	0	290	January 30, 2023
Pipeline's Tokenizer vs training tokenizer Beginners	1	454	March 8, 2021

Questions re: Tokenizer pipeline composability / reuse outside of the HF ecosystem

Related topics