Tokenizer train_new_from_iterator hanging for several models

gabrielaltay · March 16, 2024, 1:42am

Trying to train some tokenizers based on existing ones and some of them are just hanging during the “Compute merges” step.

transformers.__version__: 4.38.2
tokenizers.__version__: 0.15.2

from datasets import load_dataset
from transformers import AutoTokenizer

def batch_iterator(dataset, batch_size=1_000):
    for batch in dataset.iter(batch_size=batch_size):
        yield batch["text"]

if __name__ == "__main__":

    dsd = load_dataset("hyperdemocracy/usc-llm-text")

## these hang
#    base_model = "mistralai/Mistral-7B-v0.1"
#    base_model = "google/gemma-7b"
#    base_model = "meta-llama/Llama-2-7b-hf"

## these work
#    base_model = "openai-community/gpt2"
#    base_model = "google-bert/bert-base-uncased"
#    base_model = "google-bert/bert-base-cased"
    base_model = "microsoft/phi-2"

    orig_tokenizer = AutoTokenizer.from_pretrained(base_model)
    vocab_size = 2**15
    new_tokenizer = orig_tokenizer.train_new_from_iterator(batch_iterator(dsd["train"]), vocab_size)

    tag = base_model.split("/")[-1]
    out_path = f"tokenizer-{tag}-v{vocab_size}"
    new_tokenizer.save_pretrained(out_path)
    new_tokenizer.push_to_hub(f"hyperdemocracy/{out_path}")

Topic		Replies	Views
Tokenizer Trainer Crashing 🤗Tokenizers	0	702	April 15, 2023
Speed issues using tokenizer.train_new_from_iterator on ~50GB dataset 🤗Transformers	7	2243	November 11, 2024
Dataset.map hangs on tokenization (relatively small dataset) 🤗Datasets	2	1977	April 22, 2022
Fine-tune transformers for language model Beginners	2	662	August 14, 2022
Inconsistencies between BERT and RoBERTa: what am I doing wrong? Beginners	0	360	May 11, 2022

Tokenizer train_new_from_iterator hanging for several models

Related topics