JAN est une solution permettant de transformer votre ordinateur en une machine AI (Intelligence Artificielle), en exécutant localement des modèles de langage de grande taille (LLMs) sur votre ordinateur.
Tutoriel de base pour JAN.ai: https://youtu.be/N_K4-N61S4c
C’est une solution axée sur la confidentialité, priorisant les opérations locales et qui est open-source. Avec JAN, vous pouvez faire fonctionner des LLMs tels que Mistral ou Llama2 directement sur votre ordinateur, soit en mode hors ligne, soit en vous connectant à des API d’IA à distance, comme l’API GPT-4 d’OpenAI ou Groq.
Cette approche offre une alternative privée et personnalisable à l’utilisation de services d’IA basés sur le cloud, permettant aux utilisateurs d’exploiter la puissance des modèles d’IA les plus avancés directement sur leurs propres machines
Comparaison de quelques modèles d’IA
Modèle |
Points forts |
Faiblesses |
Caractéristiques clés |
Hermes Pro 7B Q4 |
- Excellentes capacités générales et conversationnelles
- Excelle dans les tâches structurées JSON et l’appel de fonctions
|
Peu d’informations sur l’ensemble de données d’entraînement |
- Version améliorée et réentraînée de Nous Hermes 2
- Utilise ChatML comme format de prompt
|
Mistral Instruct 7B Q4 |
- Surpasse les modèles jusqu’à 13B sur plusieurs benchmarks
- Idéal pour le raisonnement de bon sens, la résolution de coréférence, les questions-réponses et la créativité
|
Performances inférieures à Gemma 7B sur certains benchmarks comme HumanEval et GSM8K |
- Entraîné sur des données générées par GPT-4 et d’autres ensembles de données de haute qualité
- Utilise ChatML comme format de prompt
|
Stealth 7B Q4 |
Pas assez d’informations dans les résultats de recherche pour évaluer |
Pas assez d’informations dans les résultats de recherche pour évaluer |
Pas assez d’informations dans les résultats de recherche pour évaluer |
Trinity-v1.2 7B Q4 |
Pas assez d’informations dans les résultats de recherche pour évaluer |
Pas assez d’informations dans les résultats de recherche pour évaluer |
Pas assez d’informations dans les résultats de recherche pour évaluer |
Gemma 7B Q4 |
- Meilleures performances que Mistral 7B sur HumanEval, GSM8K et MATH
- Excelle dans les tâches de dialogue, mathématiques et génération de code
|
Performances inférieures à Mistral 7B sur PIQA, Boolq, Winogrande, Arc-c et BBH |
Modèle développé par Google |
Openchat-3.5 7B Q4 |
- L’un des 3 meilleurs modèles 7B avec OpenHermes et Nous-Capybara
- Créatif, idéal pour le chat et le jeu de rôle bien écrit
|
Moins précis que Nous-Capybara qui est idéal pour des réponses véridiques |
Utilise le format officiel OpenChat |
Paramètre « Temperature »
But de l’ajustement « Temperature »
-
- Il permet de contrôler combien de « risques » le modèle d’IA prend lorsqu’il génère des réponses ou des contenus.
- Une température élevée pousse le modèle à être plus créatif et à prendre plus de risques*.
- Une température basse le rend plus prévisible et sûr dans ses réponses.
Comment cela affecte les résultats
-
- Température basse (par exemple, 0.2 ou 0.5) : Le modèle va probablement donner des réponses plus sûres, plus attendues et plus cohérentes. Il évite les erreurs, mais peut aussi être moins créatif ou intéressant.
- Température élevée (par exemple, 0.8 ou 1.0) : Le modèle est encouragé à explorer des options plus diverses et à être plus original dans ses réponses. Cela peut rendre les réponses plus variées et créatives, mais aussi parfois moins précises ou plus susceptibles à l’erreur.
Quand ajuster la température ?
-
- Si tu veux que le modèle te surprenne et génère des idées uniques, augmente la température.
- Si tu préfères des réponses plus fiables et cohérentes, surtout pour des tâches importantes, diminue la température.
Pense à la température comme à un curseur entre « sécurité » et « aventure« . En ajustant ce curseur, tu indiques au modèle comment tu veux qu’il se comporte :
- soit en suivant le chemin connu et sûr,
- soit en explorant des sentiers moins battus pour peut-être découvrir quelque chose de nouveau et d’excitant.
Voici comment on pourrait le résumer :
- Avec une température basse, le modèle va :
- S’en tenir de près aux exemples et aux données sur lesquels il a été entraîné.
- Produire des réponses plus prévisibles et « sûres », avec moins de nouveauté.
- Avec une température élevée, le modèle peut :
- Faire des liens plus créatifs ou moins évidents entre les idées.
- Produire des contenus plus originaux ou inattendus, qui peuvent parfois sembler « inventés » parce qu’ils s’éloignent des réponses typiques ou attendues.
* Prendre plus de risques: Lorsqu’on dit que le modèle « prend plus de risques » avec une température plus élevée, cela signifie qu’il est plus susceptible d' »inventer » ou de produire des réponses qui s’écartent de ce qui est strictement basé sur les données ou les exemples qu’il a appris pendant son entraînement. En d’autres termes, il va tenter des associations d’idées plus originales ou inattendues, ce qui peut conduire à des créations plus uniques et innovantes, mais aussi parfois à des réponses moins précises ou moins liées aux données d’entraînement.
Paramètre « Top P »
Le paramètre « Top P », également connu sous le nom de « nucleus sampling », est une autre façon de contrôler la génération de texte par le modèle d’intelligence artificielle. Il aide à déterminer quelles réponses sont choisies en fonction de leur probabilité. Expliquons cela de façon simple :
Qu’est-ce que « Top P » ?
-
- Imagine que tu as une boîte pleine de différentes idées (ou réponses) que le modèle peut générer. Chaque idée a une étiquette indiquant à quel point elle est probable ou pertinente selon le modèle. « Top P » aide à décider jusqu’à quel point on va chercher dans la boîte* pour trouver une réponse à donner.
Comment ça marche ?
-
- Si tu fixes un « Top P » élevé, cela signifie que tu permets au modèle de considérer une plus grande variété d’idées, y compris certaines moins probables, avant de choisir laquelle utiliser. Cela peut rendre les réponses plus diverses et intéressantes.
- Si tu mets un « Top P » bas, le modèle se concentre seulement sur les idées les plus probables, celles qui sont « en haut » de la boîte et les plus sûres, rendant les réponses plus prévisibles et cohérentes.
Pourquoi ajuster « Top P » ?
-
- Pour plus de créativité : Un « Top P » plus élevé peut produire des réponses plus uniques et créatives, car le modèle explore une plus grande variété d’options.
- Pour plus de pertinence : Un « Top P » plus bas peut être utile quand tu as besoin de réponses plus directes et pertinentes, car le modèle se limite aux options les plus probables.
En résumé pour « Top P »
« Top P » est comme un filtre qui détermine quelle gamme d’idées le modèle considère avant de décider quoi dire. En ajustant ce paramètre, tu peux équilibrer entre la diversité et l’originalité des réponses et leur pertinence ou précision par rapport à ta demande.
* Va chercher dans la boîte:
l’expression « va chercher dans la boîte » est une façon imagée de décrire comment le modèle d’intelligence artificielle sélectionne ses réponses parmi toutes celles possibles. Voici une explication plus détaillée de cette analogie :
- La « boîte » représente l’ensemble des réponses possibles que le modèle peut générer. Chaque réponse a une certaine probabilité d’être la plus pertinente ou appropriée à la situation.
- « Chercher dans la boîte » fait référence au processus par lequel le modèle évalue ces réponses possibles, en fonction de leur probabilité, pour décider laquelle va être effectivement générée et présentée à l’utilisateur.
Lorsqu’on ajuste le paramètre « Top P » :
- Si « Top P » est réglé sur une valeur élevée, cela signifie que le modèle considérera une large portion de la boîte, incluant des réponses moins probables. Cela lui permet d’explorer des idées plus variées et potentiellement plus créatives, car il ne se limite pas aux options les plus sûres ou les plus évidentes.
- Si « Top P » est réglé sur une valeur faible, le modèle se concentre sur une petite partie « en haut » de la boîte, où se trouvent les réponses les plus probables. Cela tend à produire des réponses plus précises et pertinentes, mais peut limiter la diversité et la créativité des réponses générées.
Cette analogie aide à comprendre comment le modèle trie et sélectionne les réponses qu’il va générer, en se basant sur le niveau de diversité et de risque que l’utilisateur souhaite introduire dans le processus de génération de texte.
Paramètre « Stream »
Le paramètre « Stream situé en dessous » ou « Enable real-time data processing for faster predictions » dans certains logiciels ou modèles d’IA se réfère à l’activation du traitement des données en temps réel pour accélérer la génération de prédictions ou de résultats. Voici une explication simplifiée de ce que cela signifie et comment cela fonctionne :
Objectif
-
- Ce paramètre permet au modèle d’intelligence artificielle de traiter les données entrantes (comme du texte ou d’autres types d’informations) en continu, sans attendre que l’ensemble complet des données soit fourni avant de commencer le traitement. Cela aide à obtenir des réponses ou des prédictions plus rapidement.
Fonctionnement
-
- Quand ce mode est activé, dès qu’une partie des données est disponible, le modèle commence immédiatement à l’analyser et à travailler dessus. Cela peut être particulièrement utile dans des situations où les données sont générées ou reçues en continu, comme lors d’une conversation en direct ou lors de la surveillance de flux de données en temps réel.
Avantages
-
- Réactivité : Le modèle peut répondre plus rapidement, car il n’a pas à attendre la fin de la transmission de toutes les données pour commencer à les traiter.
- Efficacité : Cela peut rendre l’ensemble du système plus efficace, en utilisant mieux les ressources disponibles et en réduisant les temps d’attente.
Scénarios d’utilisation
-
- Cette fonctionnalité est particulièrement utile dans les applications nécessitant une interaction rapide avec l’utilisateur, comme les chatbots, ou pour analyser des flux de données en direct, comme dans le monitoring de réseaux sociaux ou la surveillance de systèmes informatiques.
En résumé pour « Stream »
Activer le traitement des données en temps réel permet au modèle d’être plus dynamique et réactif, offrant des prédictions ou des réponses presque immédiates, ce qui est crucial pour des applications nécessitant une grande rapidité de traitement et une interaction fluide avec les utilisateurs ou les systèmes en temps réel.
Paramètre « Max Tokens »
Le paramètre « Max Tokens » définit le nombre maximum de jetons (tokens) que le modèle d’intelligence artificielle est autorisé à générer dans une seule réponse. Un « jeton » peut être un mot, une partie de mot, ou même un signe de ponctuation, selon la manière dont le modèle a été entraîné. Expliquons ce concept de manière simple :
But de « Max Tokens »
-
- Ce paramètre limite la longueur de la réponse que le modèle peut produire. Il sert à contrôler à la fois la quantité d’information fournie et à éviter que le modèle ne continue à générer du texte indéfiniment.
Comment ça affecte les réponses
-
- Si « Max Tokens » est élevé : Le modèle a plus d’espace pour développer sa réponse, ce qui peut être utile pour des questions complexes nécessitant des explications détaillées ou pour des tâches créatives comme écrire une histoire.
- Si « Max Tokens » est bas : Le modèle se concentre sur des réponses plus courtes et directes. Cela peut être pratique pour obtenir des informations rapidement ou pour des interactions où la brièveté est préférée.
Pourquoi ajuster « Max Tokens » ?
-
- Pour la précision : Des réponses plus courtes peuvent parfois être plus précises ou directement liées à la question posée, car le modèle a moins de chances de s’égarer sur des tangentes.
- Pour la créativité : Une limite plus élevée donne au modèle plus de liberté pour explorer des idées et fournir des réponses plus créatives ou détaillées.
- Pour le contrôle : Cela te permet de contrôler l’utilisation des ressources, notamment en évitant des réponses excessivement longues qui pourraient être plus coûteuses en termes de temps de calcul et d’utilisation de la bande passante.
En résumé pour « Max Tokens »
Ajuster le « Max Tokens » te permet de trouver le bon équilibre entre la quantité d’information nécessaire et la gestion efficace des ressources, selon le contexte spécifique dans lequel le modèle d’IA est utilisé. C’est un outil clé pour adapter la sortie du modèle aux besoins précis de l’utilisateur ou de la tâche à accomplir.
Paramètre « Stop »
Le paramètre « Stop » est une fonctionnalité des modèles d’intelligence artificielle qui permet de définir des jetons spécifiques (tokens) ou des phrases qui signalent au modèle de cesser de générer du texte supplémentaire. Voici une explication simple de son fonctionnement et de son utilité :
Objectif du paramètre « Stop »
-
- Il sert à indiquer au modèle un point précis où il doit arrêter de produire du texte. Cela peut être un mot, une ponctuation spécifique, ou une phrase.
Comment cela fonctionne
-
- Lorsque le modèle génère du texte et atteint le jeton ou la phrase spécifiée dans le paramètre « Stop », il s’arrête immédiatement, même s’il n’a pas atteint la limite maximale de jetons (Max Tokens) autorisée pour la réponse.
Pourquoi l’utiliser ?
-
- Pour contrôler la longueur du texte : Cela permet de s’assurer que le modèle ne dépasse pas une certaine section ou partie d’un document, d’une réponse, ou d’une histoire.
- Pour structurer le contenu : En utilisant des marqueurs de fin spécifiques, tu peux mieux organiser le contenu généré, par exemple en terminant un paragraphe, une section, ou un article à un point précis.
- Pour des tâches spécifiques : Dans certaines applications, comme la génération automatique de réponses à des emails ou la création de contenus où la fin est prédéfinie, ce paramètre aide à terminer le texte de manière appropriée.
Exemples d’utilisation
-
- Si tu veux que le modèle rédige un email et s’arrête juste après la formule de politesse, tu peux définir cette formule (par exemple, « Cordialement, ») comme un token de stop.
- Pour générer des descriptions de produits qui doivent se terminer par une phrase d’appel à l’action, tu peux insérer cette phrase comme critère d’arrêt pour chaque description.
En résumé pour « Stop »
Le paramètre « Stop » offre un contrôle précis sur la fin de la génération de texte, permettant une plus grande maîtrise sur la structure et la longueur des contenus produits par le modèle d’intelligence artificielle. C’est un outil utile pour personnaliser les sorties selon des besoins spécifiques.
Paramètre « Frequency Penalty »
Le « Frequency Penalty » (Pénalité de Fréquence) est un paramètre des modèles d’intelligence artificielle qui ajuste la probabilité que le modèle répète des mots ou des phrases dans sa sortie. Voici une explication simplifiée de son fonctionnement :
But du « Frequency Penalty »
-
- Ce paramètre aide à contrôler la variété du texte généré par le modèle en décourageant ou en réduisant la répétition de mots ou de phrases déjà utilisés.
- Comment cela fonctionne :
- Lorsqu’un mot ou une phrase est généré, le « Frequency Penalty » augmente le coût d’utilisation de ce même mot ou phrase dans la suite du texte. Plus le pénalité est élevée, moins il est probable que le modèle réutilise ces éléments.
Effets sur les réponses
-
- Avec un « Frequency Penalty » faible ou nul : Le modèle peut répéter plus fréquemment certains mots ou phrases, ce qui peut être utile pour souligner un point ou quand la répétition est stylistiquement appropriée.
- Avec un « Frequency Penalty » élevé : Le modèle est incité à utiliser une plus grande variété de mots et de phrases, ce qui peut rendre le texte plus diversifié et intéressant, et éviter les redondances.
Pourquoi ajuster ce paramètre ?
-
- Pour augmenter la créativité : En décourageant la répétition, le modèle peut explorer des formulations plus originales et diversifiées.
- Pour améliorer la qualité du texte : Cela permet d’éviter les répétitions excessives qui peuvent rendre un texte monotone ou répétitif, améliorant ainsi sa lisibilité et son intérêt.
- Pour adapter le style de rédaction : Selon le type de contenu (créatif, informatif, technique), tu peux souhaiter plus ou moins de variété dans le langage utilisé.
En résumé pour « Frequency Penalty »
En ajustant le « Frequency Penalty », tu peux donc affiner la manière dont le modèle génère du texte, en équilibrant entre la répétition utile pour l’accentuation et la diversité pour la richesse du contenu. C’est un outil précieux pour personnaliser la sortie du modèle selon les besoins spécifiques du projet ou du contenu à générer.
Paramètre « Presence Penalty »
Le « Presence Penalty » aide à rendre les réponses de l’IA plus diversifiées et créatives.
Voici une explication simple :
But
-
- Empêche l’IA de répéter les mêmes idées, rendant ses réponses plus variées.
Fonctionnement
-
- Plus le penalty est élevé, moins l’IA a tendance à réutiliser des concepts déjà mentionnés.
Effets
-
- Les réponses deviennent plus uniques et intéressantes, avec moins de répétitions.
Pourquoi ajuster
-
- Pour obtenir des réponses plus créatives ou pour éviter la redondance dans le contenu généré par l’IA.
En résumé pour « Presence Penalty »
Ajuster le « Presence Penalty » permet de contrôler la nouveauté et la variété dans les réponses de l’IA, ce qui est utile pour encourager la production de contenu original et captivant.
Paramètre « Prompt template »
Le but du paramètre « Prompt template » est de définir un modèle de texte qui sera utilisé pour structurer les instructions données à l’IA. C’est une sorte de « recette » qui indique à l’IA comment interpréter ce qu’on lui demande.
Voici comment cela fonctionne
- Le « Prompt template » contient des balises spéciales comme [INST] et [/INST]
- Le texte que tu écris pour parler à l’IA sera inséré entre ces balises
- L’IA sait alors que ce qui est entre [INST] et [/INST] sont les instructions à suivre
Cela a les effets suivants sur les réponses de l’IA
- En utilisant toujours le même format de « Prompt template », l’IA comprend mieux ce qu’on attend d’elle
- Cela permet d’obtenir des réponses plus précises et cohérentes avec la demande
- Un bon « Prompt template » aide l’IA à rester concentrée sur la tâche demandée
On peut vouloir ajuster ce paramètre dans certains cas
- Si on veut changer la façon dont on donne les instructions à l’IA
- Pour essayer d’améliorer la qualité et la pertinence des réponses obtenues
- Pour adapter le « Prompt template » à des usages spécifiques de l’IA
En résumé pour « Prompt template »
Le paramètre « Prompt template » dans Jan.ai permet de définir un modèle pour formater les instructions données à l’intelligence artificielle, en utilisant des balises comme [INST] et [/INST]. Cela aide l’IA à mieux comprendre ce qu’on lui demande et à générer des réponses plus adaptées. Ajuster ce paramètre peut permettre d’optimiser les performances de l’IA selon l’usage souhaité.
Paramètre « Context Length »
Le paramètre « Context Length » (longueur du contexte) dans Jan.AI, en particulier avec le moteur Nitro basé sur llama.cpp, est crucial pour déterminer combien de texte (en termes de tokens) le modèle peut considérer pour générer une réponse ou effectuer une opération. Voici un résumé simple adapté à une compréhension de base :
But de « Context Length »
- Il définit la quantité de texte que le modèle peut « lire » ou prendre en compte en une seule fois. Plus la longueur est grande, plus le modèle peut considérer de texte pour sa réponse.
Comment cela fonctionne
- Imagine que tu as un livre devant toi, mais tu ne peux regarder qu’une page à la fois pour répondre à une question. La « longueur du contexte » est comme le nombre de pages que tu peux voir en même temps. Plus tu peux voir de pages, mieux tu peux comprendre l’histoire pour répondre.
Effets sur les réponses
- Si la longueur du contexte est trop courte, le modèle peut manquer d’informations clés pour fournir des réponses précises ou cohérentes. Si elle est plus longue, il peut comprendre mieux le contexte, mais cela peut demander plus de ressources (comme la mémoire de l’ordinateur).
Pourquoi ajuster ce paramètre
- Tu ajustes ce paramètre pour équilibrer entre la précision des réponses du modèle et les ressources disponibles (comme la puissance de calcul et la mémoire). Cela dépend de ce que tu veux faire et de ce que ton matériel peut gérer.
En résumé pour « Context Length »
« Context Length » est un peu comme la mémoire à court terme du modèle. En ajustant ce paramètre, tu contrôles combien d’information le modèle peut considérer pour répondre, affectant ainsi sa performance et précision.
Jan.AI permet un ajustement fin de ce paramètre dans le fichier nitro.json
, où la longueur par défaut est généralement de 2048 tokens, avec une possibilité de l’étendre jusqu’à 4096 tokens pour des opérations plus complexes nécessitant plus de contexte.
Paramètre « Retrieval »
Le paramètre « Retrieval » dans les outils de Jan.ai est conçu pour améliorer la façon dont l’assistant gère et utilise les informations issues des fichiers que vous lui envoyez. Voici un résumé pour expliquer cela à un adolescent de 15 ans :
But de « Retrieval »
- Cette fonction permet à l’assistant d’analyser et de récupérer automatiquement le contenu pertinent à partir des fichiers que tu partages avec lui. Cela est utile pour obtenir des réponses plus précises basées sur des informations spécifiques contenues dans tes documents.
Comment cela fonctionne
- Une fois que tu as activé le paramètre « Retrieval » et partagé un fichier avec Jan.ai, l’assistant peut directement puiser dans ce fichier pour chercher et utiliser les informations nécessaires pour répondre à tes questions.
Effets sur les réponses
- Les réponses fournies par l’assistant seront plus précises et adaptées, car elles se baseront sur les données spécifiques extraites de tes fichiers. Cela peut être particulièrement utile pour des projets de recherche ou des tâches qui nécessitent des réponses basées sur des documents ou des données spécifiques.
Pourquoi ajuster ce paramètre
- Tu voudrais peut-être ajuster ce paramètre pour contrôler la manière et la fréquence avec laquelle l’assistant accède aux fichiers que tu partages. Cela peut aider à gérer la confidentialité et la pertinence des informations utilisées par l’assistant.
En résumé pour « Retrieval »
L’ajustement « Retrieval » dans Jan.ai est une fonctionnalité puissante qui permet à l’assistant d’utiliser efficacement les informations contenues dans les fichiers partagés pour fournir des réponses personnalisées et précises. Cela rend l’assistant plus utile pour des tâches spécifiques qui dépendent de données contenues dans des documents.
Paramètre « Top K »
Le but de l’ajustement « Top K » est de contrôler la créativité et la variété des réponses générées par l’intelligence artificielle. Cela permet de choisir parmi les K mots les plus probables à chaque étape de génération du texte.
Comment cela fonctionne
- À chaque fois que l’IA doit choisir le prochain mot, elle attribue une probabilité à tous les mots possibles
- Le paramètre « Top K » va garder uniquement les K mots ayant les probabilités les plus élevées
- L’IA va ensuite choisir aléatoirement le prochain mot parmi ces K mots les plus probables
Cela a les effets suivants sur les réponses générées
- Une valeur K plus faible va donner des réponses plus prévisibles et cohérentes, en se limitant aux mots très probables
- Une valeur K plus élevée va permettre plus de créativité et de variété, en considérant aussi des mots moins probables
On peut vouloir ajuster ce paramètre pour différentes raisons
- Avec un K faible, on obtient des réponses plus en lien avec le contexte mais moins surprenantes
- Avec un K élevé, les réponses sont plus diversifiées et créatives mais potentiellement moins pertinentes
- La valeur optimale de K dépend de l’application : faible pour des réponses ciblées, élevée pour plus d’originalité
En résumé pour « Top K »
Le paramètre « Top K » dans Jan.ai est une façon de régler le compromis entre cohérence et créativité dans la génération de texte par l’IA, en contrôlant le nombre K de mots considérés à chaque étape parmi les plus probables. C’est un réglage important à adapter selon l’usage souhaité.
Paramètre « Chunk Size »
Le but de l‘ajustement « Chunk Size » est de contrôler la taille des morceaux de texte (chunks) qui seront traités par l’IA. Cela permet de découper un long document en plus petites parties que l’IA pourra analyser séparément.
Voici comment cela fonctionne
- Le document original est divisé en morceaux (chunks) dont la taille est définie par le paramètre « Chunk Size »
- Chaque morceau contient un nombre de mots ou de caractères qui ne dépasse pas la valeur de « Chunk Size »
- L’IA va traiter chaque morceau individuellement pour en extraire les informations pertinentes
Cela a les effets suivants sur les réponses de l’IA
- Avec des morceaux plus petits, l’IA peut se concentrer sur des informations précises sans être distraite par le reste du texte
- Des morceaux trop grands peuvent contenir trop d’informations non pertinentes qui vont perturber l’analyse de l’IA
- La taille optimale des morceaux dépend du type de document et de la tâche à accomplir par l’IA
On peut vouloir ajuster ce paramètre pour différentes raisons
- Pour trouver le meilleur compromis entre des morceaux assez grands pour garder le contexte et assez petits pour rester pertinents
- Pour adapter la taille des morceaux au type de document (articles, dialogues, listes, etc.)
- Pour optimiser les performances de l’IA en fonction de la puissance de calcul disponible
En résumé pour « Top K »
Le paramètre « Chunk Size » dans Jan.ai permet de régler la taille des morceaux de texte qui seront analysés par l’intelligence artificielle. C’est un réglage important pour obtenir les meilleures performances possibles en découpant les documents de façon optimale selon leur type et la tâche à réaliser. Bien choisir la taille des « chunks » aide l’IA à se concentrer sur les informations pertinentes.
Paramètre « Chunk Overlap »
Le but de l‘ajustement « Chunk Overlap » est de contrôler le nombre de mots qui se chevauchent entre deux morceaux de texte adjacents lorsqu’un long document est découpé. Cela permet de s’assurer qu‘il n’y a pas de perte d’information importante à la frontière entre deux morceaux.
Voici comment cela fonctionne
- Quand on découpe un texte en morceaux de taille fixe, il y a un risque de couper une phrase en deux
- Le paramètre « Chunk Overlap » indique combien de mots à la fin d’un morceau seront répétés au début du morceau suivant
- Cela crée une zone de chevauchement entre les morceaux consécutifs pour garder le contexte
Cela a les effets suivants sur les réponses de l’IA
- Un chevauchement suffisant entre les morceaux aide l’IA à mieux comprendre le sens global du texte
- Sans chevauchement, des informations clés pourraient être perdues car coupées entre deux morceaux
- Mais un chevauchement trop grand fait aussi perdre de la place pour inclure du contenu unique à chaque morceau
On peut vouloir ajuster ce paramètre pour différentes raisons
- Pour trouver le bon équilibre entre chevauchement et place pour du contenu unique dans chaque morceau
- Un chevauchement de 10 à 20% de la taille du morceau est souvent un bon compromis
- La valeur optimale dépend du type de texte, de sa structure en phrases et paragraphes
En résumé pour « Chunk Overlap »
Le paramètre « Chunk Overlap » dans Jan.ai permet de régler le nombre de mots qui se répètent d’un morceau de texte à l’autre quand on découpe un document. C’est important pour que l’IA puisse bien comprendre le sens malgré le découpage, sans perdre trop de place. Il faut trouver le bon réglage entre chevauchement et place pour le contenu unique dans chaque morceau.
Paramètre « Retrieval Template »
Le but de l‘ajustement « Retrieval Template » est de définir un modèle pour guider l’IA dans sa façon de chercher une réponse à une question en utilisant des morceaux de texte pertinents. C‘est comme une recette que l‘IA va suivre pour trouver la meilleure réponse possible.
Voici comment cela fonctionne
- Le modèle contient des variables comme {CONTEXT} et {QUESTION} qui seront remplacées par le vrai contenu
- {CONTEXT} sera remplacé par les morceaux de texte qui peuvent aider à répondre, trouvés par l’IA
- {QUESTION} sera remplacé par la question à laquelle l’IA doit répondre
- L’IA va suivre les instructions du modèle, comme dire qu’elle ne sait pas plutôt qu’inventer une réponse
Cela a les effets suivants sur les réponses de l’IA
- Le modèle aide l’IA à se concentrer sur les informations importantes pour répondre à la question
- En suivant les instructions du modèle, l’IA donne des réponses plus honnêtes et pertinentes
- Un bon modèle évite que l’IA ne s’égare ou n’invente des choses qui ne sont pas dans les textes
On peut vouloir ajuster ce paramètre pour différentes raisons
- Pour adapter la façon dont l’IA cherche ses réponses selon le type de questions posées
- Pour ajouter des instructions spécifiques à l’IA, comme toujours citer ses sources
- Pour essayer différents modèles et voir celui qui donne les meilleures réponses
En résumé pour « Retrieval Template »
Le paramètre « Retrieval Template » dans Jan.ai permet de définir un modèle qui va guider l’IA étape par étape dans sa façon de trouver une réponse à une question en se basant sur des morceaux de texte. C’est comme une recette à suivre pour que l’IA donne la réponse la plus honnête et pertinente possible, sans inventer des choses qui ne sont pas dans les textes fournis. Ajuster ce modèle peut aider à obtenir de meilleures réponses selon les questions posées.