“How to train a new language model from scratch using Transformers and Tokenizers” not working properly (as of december 2021)

VictorHegel · December 14, 2021, 11:57am

Hello,

I’m trying to run EsperBERTo example in Colab to train model and tokenizer from scratch. When recreating tokenizer in transformers, I get “file ./EsperBERTo/config.json not found” sort-of message , that I saw discussed earlier in another topic here:

“How to train a new language model from scratch using Transformers and Tokenizers” possibly requiring an update

I’ve tried to follow the solution from the aforementioned topic, but it didn’t help. Could someone please tell me how to avoid the issue?

Topic		Replies	Views
"How to train a new language model from scratch using Transformers and Tokenizers" possibly requiring an update Site Feedback	4	2559	November 1, 2022
How to train from scratch with run_mlm.py, .txt file? Beginners	20	6779	September 22, 2024
“OSError: Model name './XX' was not found in tokenizers model name list” - cannot load custom tokenizer in Transformers 🤗Tokenizers	14	6901	April 25, 2023
Error with new tokenizers (URGENT!) 🤗Tokenizers	16	51193	July 22, 2024
Saving tokenizer's configuration Beginners	1	2811	February 24, 2022

“How to train a new language model from scratch using Transformers and Tokenizers” not working properly (as of december 2021)

“How to train a new language model from scratch using Transformers and Tokenizers” possibly requiring an update

Related topics