Create a simple and reproducable training process for a GPT-like model?

n42 · December 27, 2023, 11:08pm

Hmm… well, the answer is probably simple. I created a dummy data set containing n repetitions of “Hello World!”. And it seems like this results in low loss but at least my algo seems to work. Still I wonder if there are other ways to achieve that. Still, the model is not very accurate, this is how it completes “Hello”:

Hello 
Helo Wor
Hello 
Helorld!
Hello 
Helorlo 
Hellorld! 
Held
Hello Wo 
Held!
Hellorlorlorld!
Hellorld! Wo

Topic		Replies	Views
How to train gpt-2 from scratch? (no fine-tuning) Beginners	17	18937	December 14, 2022
I need help getting more accurate results after training Beginners	0	54	August 25, 2024
Resources for model design (number of layers, attention heads, etc) Beginners	2	597	January 4, 2021
Fine-tuning gpt2 generates repetive test despte many hyperparameters, gpt-large/xl? Beginners	0	554	November 3, 2020
Train GPT2 on wikitext from scratch Beginners	5	3815	October 25, 2021

Create a simple and reproducable training process for a GPT-like model?

Related topics