LLAMA 2 Tokenized Inputs Use Too Much Data

mylesf · August 15, 2023, 11:49pm

Hi all. I was wondering if anyone has used the Llama2 tokenizer yet. I tokenized a list of around 500,000 strings and it took up over 200GB of data. It seems like way too much, so was wondering if anyone else encountered this.

Topic		Replies	Views
Getting LLaMA tokenizer from meta Beginners	0	119	December 19, 2023
Adding too many tokens breaks tokenizer 🤗Tokenizers	0	296	March 12, 2024
Packing issue, SFTTrainer 🤗Transformers	0	320	November 10, 2023
LLaMA2 - tokenizer padding affecting logits (even with attention_mask) 🤗Transformers	8	4537	March 26, 2024
Llama 2 10x slower than LLaMA 1 🤗Transformers	1	724	November 7, 2023

LLAMA 2 Tokenized Inputs Use Too Much Data

Related topics