Passer aux informations sur le produit
LLM en génie de la production
LLM en génie de la production
Description
Introduction au livre
Comprendre la structure des modèles et concevoir des systèmes d'IA génératifs précis et fiables

Avec l'accélération de la commercialisation des LLM, les capacités de mise en œuvre à l'échelle de la production, alliant précision, fiabilité et évolutivité, deviennent des technologies clés.
Les développeurs doivent désormais avoir une compréhension structurelle de l'ensemble de la pile technologique LLM.
Ce livre vous guide pas à pas à travers les concepts fondamentaux de l'IA générative, de la conception du système à son déploiement. Il aborde les principes de fonctionnement des modèles basés sur les Transformers, diverses stratégies d'induction, la conception RAG, les techniques d'ajustement fin et l'utilisation de frameworks tels que LangChain et LamarIndex. Il servira de guide aux développeurs souhaitant intégrer naturellement les technologies LLM, du concept à l'application.
  • Vous pouvez consulter un aperçu du contenu du livre.
    Aperçu

indice
À propos de l'auteur et du traducteur xi
Préface du traducteur xiii
Recommandation xv
Revue du lecteur bêta xvii
Recommandation 19
À partir du xxii
Remerciements xxvii
À propos de ce livre xxviii

CHAPITRE 1 Introduction au LLM 1
1.1 Bref historique des modèles de langage 1
1.2 Qu'est-ce qu'un LLM ? 2
1.3 Composantes de base du LLM 3
1.4 Exercice 1 : Traduction avec LLM (API GPT-3.5) 19
1.5 Exercice 2 : Contrôle de la sortie LLM par apprentissage à partir de quelques exemples 20
1.6 Résumé 22

CHAPITRE 2 LLM Architecture et Environnement 23
2.1 Comprendre les transformateurs 23
2.2 Conception et sélection des modèles de transformateurs 33
2.3 Techniques d'optimisation de l'architecture des transformateurs 41
2.4 Architecture GPT 43
2.5 Présentation du modèle multimodal à grande échelle 46
2.6 Modèle commercial vs.
Modèle public vs.
Modèle de langage open source 52
2.7 Applications et cas d'utilisation du LLM 59
2.8 Résumé 67

CHAPITRE 3 Applications pratiques du LLM 69
3.1 Comprendre les hallucinations et les biais 69
3.2 Comment réduire les hallucinations dans la sortie LLM 71
3.3 Évaluation des performances du LLM 79
3.4 Résumé 84

CHAPITRE 4 Introduction à l'ingénierie rapide 86
4.1 Instruction des invites et des invites 86
4.2 Techniques d'incitation 91
4.3 Injection rapide et sécurité 97
4.4 Résumé 100

CHAPITRE 5 RAG 102
5.1 Pourquoi RAG ? 102
5.2 Création d'un pipeline RAG de base à partir de zéro 106
5.3 Résumé 119

CHAPITRE 6 Présentation de LangChain et LlamaIndex 120
6.1 Cadre LLM 120
6.2 Introduction à LangChain 121
6.3 Exercice 1 : Création d’une application basée sur LLM à l’aide de LangChain 126
6.4 Exercice 2 : Création d’un outil de résumé d’article de presse 130
6.5 Introduction au lama (Index 137)
6.6 LangChain contre.
LlamaIndex contre.
Assistant OpenAI 145
6.7 Résumé 147

CHAPITRE 7 Sujets d'écriture utilisant LangChain 148
7.1 Qu'est-ce qu'un modèle d'invite LangChain ? 148
7.2 Invites à quelques coups et exemples de sélecteurs 156
7.3 Qu'est-ce qu'une chaîne dans LangChain ? 163
7.4 Exercice 1 : Gestion des sorties à l’aide de l’analyseur syntaxique de sortie 171
7.5 Exercice 2 : Améliorer le récapitulateur d’articles de presse 183
7.6 Exercice ③ Création d'un graphe de connaissances à partir de données textuelles : découverte des liens cachés 191
7.7 Résumé 197

CHAPITRE 8 Index, moteurs de recherche et préparation des données 199
8.1 Index et moteur de recherche de LangChain 199
8.2 Collecte de données 205
8.3 Séparateur de texte 209
8.4 Recherche de similarité et intégration vectorielle 219
8.5 Exercice 1 : Chatbot de questions-réponses avec le service client (225)
8.6 Exercice 2 : Résumé vidéo YouTube avec Whisper et LangChain 232
8.7 Exercice ③ Assistant vocal pour base de connaissances 243
8.8 Exercice ④ Prévenir les productions indésirables grâce à une chaîne d'autocritique 255
8.9 Exercice ⑤ Prévenir les réponses inappropriées des chatbots de service client 260
8.10 Résumé 265

CHAPITRE 9 CHIFFON AVANCÉ 268
9.1 De la preuve de concept au produit : les défis du système RAG 268
9.2 Techniques avancées de dressage et LlamaIndex 269
9.3 Indicateurs RAG et évaluation 284
9.4 LangChain, LangSmith et LangChain Hub 299
9.5 Résumé 304

CHAPITRE 10 Agent 306
10.1 Agents : Modèles de grande taille comme moteurs d’inférence 306
10.2 AutoGPT et BabyAGI en bref 312
10.3 Projet de simulation d'agents de LangChain 327
10.4 Exercice 1 : Création d’un rapport d’analyse – Agent de rédaction 332
10.5 Exercice 2 : Requêtes de base de données et synthèse avec LlamaIndex 340
10.6 Exercice ③ Création d'un agent à l'aide d'OpenAI Assistant 350
10.7 Exercice 4 LangChain OpenGPTs 354
10.8 Exercice ⑤ Analyse de fichiers PDF avec l'analyseur de documents financiers multimodal 357
10.9 Résumé 371

CHAPITRE 11 Réglage fin 372
11.1 Comprendre le réglage fin 372
11.2 LoRA 373
11.3 Exercice ① SFT 376 utilisant LoRA
11.4 Exercice 2 : Analyse du sentiment financier à l’aide de SFT et LoRA 389
11.5 Exercice ③ Cohere LLM : Optimisation à l’aide de données médicales 398
11.6 RLHF 408
11.7 Exercice ④ Améliorer les performances du LLM grâce à RLHF 411
11.8 Résumé 433

CHAPITRE 12 Déploiement et optimisation 435
12.1 Distillation du modèle et modèle enseignant-élève 435
12.2 Optimisation de la distribution LLM : quantification, élagage et décodage spéculatif 441
12.3 Exercice pratique : Déploiement de LLM quantifié sur des processeurs GCP 452
12.4 Déploiement de LLM open source dans un environnement cloud 461
12.5 Résumé 463

Sortie 465
Glossaire 468
Recherche 472

Image détaillée
Image détaillée 1

Dans le livre
Il existe plusieurs versions de l'architecture GPT destinées à différents usages.
Dans les chapitres suivants, nous aborderons d'autres bibliothèques plus adaptées aux environnements de production, mais ici nous présenterons minGPT, une version simplifiée du modèle GPT-2 d'OpenAI développée par Andrey Karpaty.
minGPT est une version allégée du modèle GPT que vous pouvez implémenter et expérimenter directement dans votre dépôt.
/ minGPT est un outil pédagogique conçu pour expliquer simplement la structure GPT, condensé en environ 300 lignes de code, et utilisant la bibliothèque PyTorch.
Sa structure simple le rend utile pour comprendre en profondeur le fonctionnement interne des modèles de la famille GPT, et le code comprend des explications claires pour chaque processus, ce qui facilite l'apprentissage.

--- p.45

L'ICL (apprentissage en contexte) est une approche dans laquelle un modèle apprend en incluant des exemples ou des démonstrations dans les invites.
L'incitation par quelques exemples est un sous-ensemble de l'apprentissage contextuel qui fournit un petit ensemble d'exemples ou de démonstrations pertinents au modèle.
Cette stratégie permet au modèle de généraliser et d'améliorer ses performances sur des tâches plus complexes.
L'apprentissage par incitation à partir de quelques exemples permet aux modèles de langage d'apprendre à partir d'un petit nombre d'exemples.
Cette adaptabilité permet au modèle de gérer un large éventail de tâches avec seulement un petit nombre d'exemples d'entraînement.
Dans le cas de l'apprentissage sans exemple, le modèle génère une sortie pour une tâche totalement nouvelle, tandis que l'apprentissage avec peu d'exemples améliore les performances en tirant parti d'exemples contextualisés.
Dans cette technique, l'invite se compose souvent de plusieurs exemples ou entrées suivis des réponses correspondantes.
Les modèles de langage apprennent de ces exemples et les appliquent pour répondre à des questions similaires.

--- p.92

La dernière étape de la mise en place du pipeline RAG consiste à préparer des incitations qui encouragent LLM à exploiter les informations qu'il trouve plutôt que de se fier à ses propres connaissances intrinsèques.
À ce stade, le modèle agit comme un éditeur, examinant les informations fournies et organisant ou générant des réponses qui correspondent à la consigne.
C'est un peu comme lorsqu'un avocat, ne connaissant pas toutes les réponses par cœur, consulte des documents, des livres et des bases de données pour répondre aux questions et « assimile » les informations afin de trouver une réponse.
Comme les avocats, les titulaires d'un LLM cherchent souvent à réduire les erreurs (hallucinations) en se référant aux ressources disponibles.
Pour que cela fonctionne, vous devez ajuster deux arguments : system_prompt et user_prompt.
La principale modification apportée à system_prompt est qu'elle indique au modèle de répondre à la question en utilisant des fragments d'informations spécifiques fournis.
user_prompt indique au modèle de répondre uniquement sur la base des données fournies entre les balises 〈START_OF_CONTEXT〉 et 〈END_OF_CONTEXT〉.
Ici, nous utilisons la méthode .join() pour concaténer les fragments récupérés en une seule longue chaîne, et la fonction .format() pour remplacer les premier et deuxième espaces réservés { } dans la variable prompt par le contexte combiné et la question de l'utilisateur, respectivement.

--- pp.115-116

Dans LlamaIndex, après la collecte des données, les documents sont transformés au sein d'un cadre de traitement.
Ce processus convertit le document en unités plus petites et plus détaillées appelées objets Node.
Les nœuds sont dérivés du document original et contiennent le contenu principal, les métadonnées et les détails contextuels.
LlamaIndex inclut une classe NodeParser qui convertit automatiquement le contenu des documents en nœuds structurés.
La liste des objets document a été convertie en objets nœud à l'aide de SimpleNodeParser.

--- p.139

Dans RAG, la construction de requêtes est le processus de conversion de la question d'un utilisateur en un format compatible avec diverses sources de données.
Pour les données non structurées, cela nous permet de convertir les questions au format vectoriel, de les comparer à la représentation vectorielle du document source et d'identifier les segments les plus pertinents.
Il peut également être appliqué à des données structurées telles que des bases de données en écrivant des requêtes dans un langage tel que SQL.
L'idée principale est d'exploiter la structure inhérente des données pour répondre aux requêtes des utilisateurs.
Par exemple, la requête « films sur les extraterrestres en 1980 » combine un élément sémantique comme « extraterrestres » (mieux recherché via un magasin vectoriel) avec un élément structurel comme « année == 1980 ».
Ce processus consiste à traduire les requêtes en langage naturel dans le langage de requête spécifique de la base de données, tel que SQL (un langage de requête structuré pour les bases de données relationnelles) ou Cypher (une base de données graphiques).

--- pp.272-273

La dernière étape de RLHF consiste à intégrer les modèles précédemment développés.
Dans cette étape, un modèle de récompense est utilisé pour aligner plus étroitement le modèle affiné avec les retours humains.
Au cours de la boucle d'entraînement, des invites définies par l'utilisateur suscitent des réponses du modèle OPT affiné, qui sont ensuite évaluées via un modèle de récompense.
Les scores d'évaluation sont attribués en fonction de la similarité avec les réponses susceptibles d'être générées par un humain.
--- p.423

Avis de l'éditeur
Développement de services d'IA pratiques avec un LLM

Bien que le LLM évolue rapidement, avec l'émergence constante de nouveaux modèles et techniques, les outils et techniques de développement utilisés aujourd'hui constituent la base pour la gestion de modèles d'IA plus avancés.
Ceux qui maîtrisent parfaitement ces fondements seront en mesure d'exploiter au mieux les modèles plus performants qui verront le jour. L'IA est utilisée dans des domaines variés, tels que le traitement automatique du langage naturel, l'explication d'algorithmes, le développement logiciel, la vulgarisation de concepts académiques et la création d'images génératives, et elle est source d'innovation dans tous les secteurs d'activité.

Cet ouvrage présente les dernières tendances en matière de modélisation des langages et de traitement automatique du langage naturel, fournit une explication approfondie du fonctionnement des modèles et présente des méthodes pratiques et immédiatement applicables.
Plus précisément, grâce au projet de construction du pipeline RAG, vous explorerez directement des technologies de pointe en matière de traitement de texte et d'interaction contextuelle. En vous concentrant sur l'ingénierie rapide, l'optimisation et RAG (des technologies essentielles qui améliorent la précision et la fiabilité des applications LLM spécifiques), vous découvrirez concrètement le processus de création de produits applicables aux services du monde réel.
Au-delà des simples explications conceptuelles, il propose des stratégies pour surmonter les limitations et des méthodes de mise en œuvre pratiques, aidant ainsi les développeurs à réaliser leurs propres applications et produits.

Ce livre, composé de 12 chapitres, couvre systématiquement tous les aspects, des concepts fondamentaux du LLM à leur application pratique.
Le chapitre 1 explore les raisons de la puissance de LLM, notamment les lois d'échelle, la taille du contexte et les capacités émergentes, tandis que le chapitre 2 décrit diverses conceptions de modèles axées sur l'architecture du transformateur et chaque composant de couche.
Le chapitre 3 analyse les limitations telles que l'illusion, la latence et les contraintes de calcul, et le chapitre 4 met en pratique des techniques d'incitation telles que l'apprentissage avec peu d'exemples et les incitations enchaînées avec des exemples de code.
Le chapitre 5 aborde les principes de base de RAG, les concepts de base de données vectorielles et les méthodes de stockage et de récupération des données, et le chapitre 6 explique comment simplifier les tâches LLM avec LangChain et LlamaIndex.


Le chapitre 7 traite des différents types d'invites, du contrôle des réponses et des techniques de suivi, tandis que le chapitre 8 traite de l'optimisation de la recherche, y compris la création d'index, le partitionnement des données et le stockage.
Le chapitre 9 aborde les techniques RAG avancées, la résolution potentielle de problèmes, l'évaluation des performances des chatbots et présente même comment utiliser LangSmith.
Le chapitre 10 traite ensuite des agents intelligents qui interagissent avec l'environnement extérieur, et le chapitre 11 traite des stratégies de réglage fin utilisant LoRA et QLoRA.
Dans les 12 derniers chapitres, nous proposons des méthodes d'optimisation qui réduisent les coûts tout en maintenant les performances, telles que la distillation de modèles, la quantification et l'élagage.
Chaque chapitre contient 19 projets pratiques, dont un outil de résumé d'actualités basé sur RAG, un chatbot de questions-réponses pour le support client, un outil de résumé de vidéos YouTube utilisant Whisper et LangChain, un analyseur de documents financiers PDF et une analyse des sentiments financiers basée sur LoRA, vous permettant d'apprendre les concepts par la pratique et de les appliquer directement à votre travail.

Même si les modèles et les implémentations évoluent avec le temps, les principes et les approches abordés dans ce livre restent valables.
Il ne s'agit pas seulement de connaissances pratiques nécessaires maintenant, mais qui peuvent également être appliquées à des modèles plus avancés qui émergeront à l'avenir.

Contenu principal

● Comprendre la structure du LLM et la stratégie de sélection du modèle
● Techniques d'ingénierie et de contrôle des réponses rapides
● Construction d'un pipeline RAG basé sur la recherche vectorielle
● Utilisation de Langchain et de l'index Rama
● Réglage fin basé sur LoRA et QLoRA
● Technologies d'agents telles qu'AutoGPT et BabyAGI
● Évaluation et débogage à l'aide de Langsmith
● Stratégies de quantification, d'allègement des modèles, d'optimisation et de déploiement

Ce livre présente 19 projets pratiques de master en droit que vous pouvez réaliser vous-même.

● Traduction avec LLM
● Contrôle de la sortie LLM par apprentissage à partir de quelques exemples
● Création d'applications basées sur LLM à l'aide de LangChain
● Mise en place d'un outil de résumé d'articles de presse
● Gestion des sorties à l'aide d'un analyseur syntaxique de sortie
● Résumé amélioré des articles de presse
● Création d'un graphe de connaissances à partir de données textuelles
Chatbot de questions-réponses du service client
● Résumé vidéo YouTube utilisant Whisper et LangChain
● Prévenir les résultats indésirables grâce à une chaîne d'autocritique
● Prévenir les réponses inappropriées des chatbots du service client
● Création d'un agent pour rédiger des rapports d'analyse
● Requêtes et résumés de bases de données utilisant LlamaIndex
● Création d'un agent à l'aide d'OpenAI Assistant
● LangChain OpenGPTs
● Analyser les fichiers PDF avec un analyseur de documents financiers multimodal
● SFT utilisant LoRA
● Analyse du sentiment financier à l'aide de SFT et LoRA
● Optimisation du modèle Cohere LLM à l'aide de données médicales
● Amélioration des performances LLM grâce à RLHF
SPÉCIFICATIONS DES PRODUITS
- Date d'émission : 11 septembre 2025
- Nombre de pages, poids, dimensions : 516 pages | 188 × 245 × 25 mm
- ISBN13 : 9791194587347

Vous aimerez peut-être aussi

카테고리