I'm a little scared, I'm new

Kinkazma · July 31, 2024, 12:25am

Hello
I want to test the performance of these two models: Meta-Llama-3.1-70B.i1-IQ1_S.gguf and Llama-3.1-8B-EZO-1.1-it.f16.gguf. I want to compare the quality of Llama 3.1 70B in Q1 against Llama 3.1 8B in F16, thus comparing the quantised version of the higher model with that of the lower model in its best configuration. Both models are around 15GB.
I’d really like to know when this will be compared. What I’d really like is to have simple graphs with the models and their performance and their level of decline in performance when we quantify to really see when we test it against our tests, to see how it evokes, it seems to me that there are probably things to be discovered in this way, I want to know these things. against the tests to see how it impacts them and how each one degrades. It doesn’t seem to me that there’s anything, and even less so in everything to do with neural reasoning, to say that quantisation causes everyone to lose the same amount, the same capacities and in a purely linear and homogeneous way, whereas it could be that quantisation causes losses in fits and starts depending on the value of the quantisation, and on the areas affected depending on the architecture, and the level of quantisation. As a result, a single quantization can cause more data to be lost than the same quantization would have if we had changed a few details about the quantity pruned. We currently prune a tree homogeneously, but it is necessary to prune where there is an accumulation of leaves that deprive each other of light. For the development of small models, it’s becoming important to be able to target what to remove, rather than pruning blindly, and also to be able to identify the statures and their functions in order to determine where to cut.
Efficiency can very well vary in a non-linear way, i.e. quantization will make very few changes for certain thresholds, but once you reach another threshold, performance is greatly reduced, but if you had stayed just a little bit higher, efficiency wouldn’t have been reduced as much because there would be intervals during which the amount of knowledge that would be lost by removing a few bytes would pass through the network.
We need to study the quantised models, their performance and compare them with other quantised models of similar size in GO. The conclusions are not trivial and you need to try and see. And make the benchmarks available for consultation.
Anyway…
Please, I need an LLM language model, preferably 128k. At least one that’s no bigger than 25 gigabytes and that’s specialised in code. To help me do the things I’ll explain here:
I’d like to import these GGUF models into Ollama because they’re not easy to find there. And I’d really like to be able to get them there. So if you could help me, it would really help me a lot. I’m on MacOS M1 Max (all latest). Thank you very much. Thank you very much. Thank you very much. Thank you so much. Thank you so much. And thank you.
And I’d really like this match I’m proposing to be tried out?
I don’t know much about testing to see if it hasn’t already been done because I can’t find anything and I’m not very good at finding things. I’m good at other things, let’s say. I’m a philosopher.

So if you could help me, I’d be grateful.
It’s a bit of an open letter
If you want to reply, you can do so here, but you can also send it to my e-mail address
trash@spamify.org
(It’s an address with my domain name, it was free, it’s ugly, but efficient for the internet).

I beg you

Je souhaite tester les performances de ces deux modèles :Meta-Llama-3.1-70B.i1-IQ1_S.gguf et Llama-3.1-8B-EZO-1.1-it.f16.gguf. Je veux comparer la qualité de Llama 3.1 70B en Q1 par rapport à Llama 3.1 8B en F16, en comparant ainsi la version quantifiée du modèle supérieur avec celle du modèle inférieur dans sa meilleure configuration. Pare que les deux modèles tournent autour des 15GO.
J’aimerais vraiment savoir quand on compare ça. Ce que j’aimerais bien c’est qu’on ait des graphiques tout simples avec les modèles et leur performance et leur niveau de décroissance à ses performances quand on quantise pour voir vraiment quand on le teste face à nos tests, pour voir comment cela évole, il me semble qu’il y a probablement des choses a décrourir ainsi, je veux connaitre ces choses. face aux épreuves voir comment ça les impact et comment chacun se dégrade. Il ne me semble qu’il n’y a rien, et encore moins en tout ce qui touche le raisonnement neuronal, pour dire que la quantisation fait perdre autant à tous, les mêmes capacités et de façon purement linéaire et homogène, alors qu’il se pourrait que la quantization provoque des pertes en dents de scie suivant la valeur de la quantization, et sur des domaines touchés selon l’architecture, et le palier de quantization. Faisant qu’une seule quantization peut faire perdre plus de données que la même si on avait changé quelques détail sur la quantité élaguée. On taille actuellement un arbre de façon homogène, mais il faut tailler là ou il y a une accumulation de feuilles qui se privent entre elles de lumière. Pour le développement de petits modèles il devient important de pouvoir cibler quoi retirer, plutôt qu’à l’aveugle, et pouvoir aussi donc identifier les statures et leurs fonctions pour déterminer ou couper.
L’efficience peut très bien varier de façon non linéaire, c’est à dire que quantization va pour certains seuils faire très peu de changements, mais passé à un autre seuil, et là les performances sont beaucoup réduites, mais si on était resté un tout petit peu plus haut, ça ne les aurait pas réduites autant l’efficience parce qu’il y aurait des intervalles durant lesquelles la quantité de savoir qui va être perdue en retirant quelques octets passant dans le réseau.
Il faut étudier les modèles quantifiés, leurs performances et les comparer aux autres modèles quantifiés à taille cousine en GO. Les conclusions ne sont pas triviales et ça nécessite d’essayer de voir. Et rendre les bench consultables.
Passons…
S’il vous plait, il me faut un modèle de langage LLM de préférence en 128k. En tout cas qui dépasse pas les 25 gigaoctets qui soit spécialisé dans le code. Pour m’aider à faire les trucs que j’expliquerais ici :
Ces modèles GGUF, j’aimerais les importer dans Ollama parce qu’ils n’y sont pas facilement trouvables. Et j’aimerais bien pouvoir réussir à les y emmener. Donc si vous pouviez m’aider, ça m’aiderait vraiment beaucoup. Moi, je suis sur MacOS M1 Max (all latest). Merci. Merci. Merci. Merci. Merci. Merci.
Et j’aimerais bien justement que ce match que je propose soit essayé ?
Je ne connais pas bien les tests pour voir si ça n’aurait pas déjà été fait parce que je ne trouve pas et je ne suis pas très doué pour trouver. Je suis doué sur d’autres domaines disons. Je suis philosophe.

Voilà, si vous pouviez m’aider je serais reconnaissant.
C’est un peu une lettre ouverte
Si vous voulez me répondre vous pouvez le faire ici mais vous pouvez aussi le faire sur ma boîte mail
trash@spamify.org
Ici je ne saurais pas y revenir facilement, la boite mail oui. (C’est une adresse avec mon nom de domaine, il était libre, c’est moche, mais efficace pour internet.)

Je vous en prie

Topic		Replies	Views
Why can't I reproduce benchmark scores from papers like Phi, Llama, or Qwen? Am I doing something wrong or is this normal? Models	2	61	June 10, 2025
Performance problems with finetuned model (Llama 2 7B based) Beginners	3	687	June 10, 2024
Downloaded models Beginners	14	2024	September 15, 2024
Quantization vs context size Beginners	1	312	September 16, 2024
Pruned Llama on lm-evaluation-harness Models	0	171	July 29, 2024

I'm a little scared, I'm new

Related topics