TemplateProcessing for encoder-decoder

astariul · November 16, 2022, 12:30am

I’ve seen the docs on how to define the encoding format with TemplateProcessing. For example for BERT it would be :

from tokenizers.processors import TemplateProcessing

tokenizer.post_processor = TemplateProcessing(
    single="[CLS] $A [SEP]",
    pair="[CLS] $A [SEP] $B:1 [SEP]:1",
    special_tokens=[("[CLS]", 1), ("[SEP]", 0)],
)

But what about encoder-decoder ? What I want to achieve is :

The encoder get a sentence with CLS and SEP : <cls> sen1 <sep>
The decoder get a sentence with BOS and EOS : <s> sen2 </s>

I call my tokenizer like : x = tokenizer([sen1], text_target=[sen2])

So my question is : how can I define TemplateProcessing to achieve this kind of format ?

Topic		Replies	Views
BOS tokens for mBERT tokenizer 🤗Tokenizers	1	634	April 14, 2021
Tokenizer post_processor help 🤗Tokenizers	1	1366	October 27, 2022
Issue with post-processing 🤗Tokenizers	1	1104	June 15, 2022
Preprocessing raw text 🤗Tokenizers	2	595	October 26, 2022
Add BOS and EOS when encoding a sentence 🤗Tokenizers	2	14729	August 22, 2022

TemplateProcessing for encoder-decoder

Related topics