Search query autocomplete from the queries I have in my data

vyaslkv · July 31, 2020, 11:19am

Currently I tried fine tuning GPT2 with default parameters for search query autocomplete but it is not giving results from the training data I have provided I used nearly 70k search strings separated by the <|endoftext|> token I fine tuned with the default parameters. currently it is generating some random text what should I do should I use something else or am I missing something?

github.com/huggingface/transformers

Training data format

opened 04:54PM - 22 Jul 20 UTC

closed 01:56AM - 09 Nov 20 UTC

vyaslkv

wontfix

I have text on which I want to fine tune the gpt2 model for text autocompletion …on my text the text sentences are separated by new line is there any format I should follow. When I trained on the data as it is it is not giving me proper results with the default training parameters. I have nearly after split 25k sentences for training. Please suggest. The training data looks like this <img width="1220" alt="Screenshot 2020-07-22 at 10 24 01 PM" src="https://user-images.githubusercontent.com/33617789/88205241-18a09c00-cc6a-11ea-924e-a8df103c8b94.png">

I am using below code for query auotocomplete

from transformers import AutoModelWithLMHead, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("output1/")
model = AutoModelWithLMHead.from_pretrained("output1/")
input_ids = tokenizer.encode('Vegetative reproduction of Agave', return_tensors='pt')
# set return_num_sequences > 1
beam_outputs = model.generate(
    input_ids, 
    max_length=50, 
    num_beams=10, 
    no_repeat_ngram_size=2, 
    num_return_sequences=10, 
    early_stopping=True
)

# now we have 3 output sequences
print("Output:\n" + 100 * '-')
for i, beam_output in enumerate(beam_outputs):
  print("{}: {}".format(i, tokenizer.decode(beam_output, skip_special_tokens=False)))

Topic	Replies	Views
Fine-tuned transformers model generats nonsensical results Beginners	216	July 10, 2024
Need help with gpt2 model Beginners	585	July 9, 2023
GPT-2 fine-tuning Beginners	1610	June 12, 2023
Fine tuning and retokenizing Beginners	589	May 29, 2022
How to fine-tune GPT on my own data for text generation Beginners	2188	January 17, 2022

Search query autocomplete from the queries I have in my data

Related topics