
LLM : Construire à partir de zéro
Description
Introduction au livre
En suivant le code ligne par ligne, vous réaliserez votre propre GPT !
Un guide pratique pour mettre en œuvre GPT de A à Z et maîtriser les principes du LLM du bout des doigts.
Les concepts difficiles sont résolus par l'image, et le LLM s'apprend en pratiquant soi-même.
Ce livre est un ouvrage pratique d'introduction au LLM qui vous permet d'apprendre la structure et les principes de fonctionnement des modèles de langage à grande échelle du début à la fin.
Plutôt que de simplement expliquer les concepts, nous commençons par le prétraitement du texte, la tokenisation et l'intégration, puis nous construisons étape par étape les blocs d'auto-attention, d'attention multi-têtes et de transformateur.
Ensuite, nous intégrons ces composants pour compléter un véritable modèle GPT et abordons directement les éléments clés de la conception d'architecture moderne, tels que le nombre de paramètres du modèle, les techniques de stabilisation de l'entraînement, les fonctions d'activation et les méthodes de régularisation.
Il fournit également des conseils approfondis sur le processus de pré-apprentissage et de mise au point.
Vous pouvez effectuer un pré-entraînement sur des données non étiquetées, optimiser les modèles pour des tâches en aval telles que la classification de texte, et même vous exercer avec des techniques d'apprentissage dirigé émergentes.
Il aborde également des sujets de pointe tels que le réglage fin efficace des paramètres (PEFT) basé sur LoRA, et présente un large éventail de façons de connecter LLM aux services et à la recherche du monde réel.
Tous les concepts sont implémentés en code PyTorch et optimisés pour la pratique dans un environnement d'ordinateur portable standard.
En suivant le processus de mise en œuvre décrit dans ce livre, vous comprendrez naturellement ce qui se passe à l'intérieur d'un LLM et acquerrez une compréhension pratique du fonctionnement des mécanismes des modèles de langage à grande échelle.
Un guide pratique pour mettre en œuvre GPT de A à Z et maîtriser les principes du LLM du bout des doigts.
Les concepts difficiles sont résolus par l'image, et le LLM s'apprend en pratiquant soi-même.
Ce livre est un ouvrage pratique d'introduction au LLM qui vous permet d'apprendre la structure et les principes de fonctionnement des modèles de langage à grande échelle du début à la fin.
Plutôt que de simplement expliquer les concepts, nous commençons par le prétraitement du texte, la tokenisation et l'intégration, puis nous construisons étape par étape les blocs d'auto-attention, d'attention multi-têtes et de transformateur.
Ensuite, nous intégrons ces composants pour compléter un véritable modèle GPT et abordons directement les éléments clés de la conception d'architecture moderne, tels que le nombre de paramètres du modèle, les techniques de stabilisation de l'entraînement, les fonctions d'activation et les méthodes de régularisation.
Il fournit également des conseils approfondis sur le processus de pré-apprentissage et de mise au point.
Vous pouvez effectuer un pré-entraînement sur des données non étiquetées, optimiser les modèles pour des tâches en aval telles que la classification de texte, et même vous exercer avec des techniques d'apprentissage dirigé émergentes.
Il aborde également des sujets de pointe tels que le réglage fin efficace des paramètres (PEFT) basé sur LoRA, et présente un large éventail de façons de connecter LLM aux services et à la recherche du monde réel.
Tous les concepts sont implémentés en code PyTorch et optimisés pour la pratique dans un environnement d'ordinateur portable standard.
En suivant le processus de mise en œuvre décrit dans ce livre, vous comprendrez naturellement ce qui se passe à l'intérieur d'un LLM et acquerrez une compréhension pratique du fonctionnement des mécanismes des modèles de langage à grande échelle.
- Vous pouvez consulter un aperçu du contenu du livre.
Aperçu
indice
Chapitre 1 : Comprendre les modèles de langage à grande échelle
1.1 Qu'est-ce qu'un LLM ?
1.2 Demande de maîtrise en droit (LLM)
1.3 Phase de construction LLM
1.4 Introduction à la structure du transformateur
1.5 Exploiter les grands ensembles de données
1.6 Un examen plus approfondi de la structure GPT
1.7 Construction d'un modèle de langage à grande échelle
1.8 Résumé
Chapitre 2 : Traitement des données textuelles
2.1 Comprendre les plongements lexicaux
2.2 Tokenisation du texte
2.3 Conversion d'un jeton en un identifiant de jeton
2.4 Ajout de jetons de contexte spéciaux
Encodage par paires de 2,5 octets
2.6 Échantillonnage des données avec une fenêtre glissante
2.7 Création d'embeddings de jetons
2.8 Encodage des positions des mots
2.9 Résumé
Chapitre 3 : Mise en œuvre du mécanisme d'attention
3.1 Problèmes liés à la modélisation des longues séquences
3.2 Capture des dépendances des données à l'aide de mécanismes d'attention
3.3 Porter attention aux différentes parties de l'information grâce à l'auto-attention
__3.3.1 Un mécanisme d'auto-attention simple sans poids entraînables
__3.3.2 Calcul des poids d'attention pour tous les jetons d'entrée
3.4 Mise en œuvre de l'auto-attention avec des poids entraînables
3.4.1 Calcul étape par étape des pondérations d'attention
__3.4.2 Implémentation d'une classe Python d'auto-attention
3.5 Dissimuler les mots futurs par une attention nasale
3.5.1 Application du masque de protection nasale
3.5.2 Masquage supplémentaire des pondérations d'attention avec abandon
__3.5.3 Implémentation de la classe d'attention de Kozal
3.6 Étendre l'attention monocentrique à l'attention multicentrique
__3.6.1 Empilement de plusieurs couches d'attention à tête unique
3.6.2 Mise en œuvre de l'attention multi-têtes avec répartition des poids
3.7 Résumé
Chapitre 4 : Implémentation d’un modèle GPT à partir de zéro
4.1 Mise en œuvre de la structure LLM
Normalisation de l'activation avec normalisation de couche 4.2
4.3 Implémentation d'un réseau à propagation directe utilisant la fonction d'activation GELU
4.4 Ajout d'une connexion de raccourci
4.5 Connexion des couches d'attention et linéaires au bloc transformateur
4.6 Création d'un modèle GPT
4.7 Création de texte
4.8 Résumé
Chapitre 5 Pré-entraînement avec des données non étiquetées
5.1 Évaluation du modèle de génération de texte
5.1.1 Génération de texte à l'aide de GPT
__5.1.2 Calcul de la perte de génération de texte
5.1.3 Calcul de la perte sur les ensembles d'entraînement et de validation
5.2 Formation LLM
5.3 Stratégies de décodage pour contrôler le hasard
5.3.1 Échelle de température
5.3.2 Échantillonnage des k premiers
5.3.3 Modification de la fonction de génération de texte
5.4 Chargement et sauvegarde de modèles avec PyTorch
5.5 Chargement des poids pré-entraînés depuis OpenAI
5.6 Résumé
Ajustements pour la classification du chapitre 6
6.1 Différentes méthodes de réglage fin
6.2 Préparation de l'ensemble de données
6.3 Création d'un chargeur de données
6.4 Initialisation du modèle avec des poids pré-entraînés
6.5 Ajout d'un en-tête de classification
6.6 Calcul de la perte et de la précision de la classification
6.7 Ajustement du modèle avec des données d'apprentissage supervisé
6.8 Utilisation de LLM comme classificateur de spam
6.9 Résumé
Chapitre 7 Réglages fins pour suivre les instructions
7.1 Introduction à la mise au point de l'enseignement
7.2 Préparation de l'ensemble de données pour l'apprentissage supervisé : ajustement fin
7.3 Création d'un groupe de formation
7.4 Création d'un chargeur de données pour l'ensemble de données d'instructions
7.5 Chargement d'un LLM pré-formé
7.6 Réglage fin du LLM à partir des données d'instructions
7.7 Extraction et enregistrement des réponses
7.8 Évaluation du LLM optimisé
7.9 Conclusion
__7.9.1 Et ensuite ?
7.9.2 Se tenir informé des domaines en évolution rapide
7.9.3 Conclusion
7.10 Résumé
Annexe A : Introduction à PyTorch
A.1 Qu'est-ce que PyTorch ?
__A.1.1 Les trois composants principaux de PyTorch
__A.1.2 Qu'est-ce que l'apprentissage profond ?
__A.1.3 Installation de PyTorch
A.2 Comprendre les tenseurs
__A.2.1 Scalaires, vecteurs, matrices et tenseurs
__A.2.2 Type de données tenseur
__A.2.3 Opérations fréquemment utilisées sur les tenseurs PyTorch
A.3 Représentation du modèle sous forme de graphe de calcul
A.4 La différenciation automatique simplifiée
A.5 Création d'un réseau neuronal multicouche
A.6 Mise en place d'un chargeur de données efficace
A.7 Boucle d'entraînement générale
A.8 Modèles d'enregistrement et de chargement
A.9 Optimisation des performances d'entraînement avec les GPU
__A.9.1 Calculs PyTorch utilisant des périphériques GPU
__A.9.2 Formation sur un seul GPU
__A.9.3 Formation multi-GPU
A.10 Résumé
Annexe B Références et lectures complémentaires
Annexe C : Exercices et réponses
Annexe D : Ajout de fonctionnalités supplémentaires à votre boucle d’entraînement
D.1 Échauffement du rythme d'apprentissage
D.2 Atténuation cosinus
D.3 Découpage par dégradé
D.4 Fonction d'entraînement modifiée
Annexe E Réglage fin et efficace des paramètres à l'aide de LoRA
E.1 Introduction à LoRA
E.2 Préparation de l'ensemble de données
E.3 Initialisation du modèle
E.4 Réglage fin et efficace des paramètres à l'aide de LoRA
[Table des matières du cahier d'exercices]
Chapitre 1 : Comprendre les modèles de langage à grande échelle
Chapitre 2 : Traitement des données textuelles
Chapitre 3 : Mise en œuvre du mécanisme d'attention
Chapitre 4 : Implémentation d’un modèle GPT à partir de zéro
Chapitre 5 Pré-entraînement avec des données non étiquetées
Ajustements pour la classification du chapitre 6
Chapitre 7 Réglages fins pour suivre les instructions
Annexe A : Introduction à PyTorch
Annexe D : Ajout de fonctionnalités supplémentaires à votre boucle d’entraînement
Annexe E Réglage fin et efficace des paramètres à l'aide de LoRA
1.1 Qu'est-ce qu'un LLM ?
1.2 Demande de maîtrise en droit (LLM)
1.3 Phase de construction LLM
1.4 Introduction à la structure du transformateur
1.5 Exploiter les grands ensembles de données
1.6 Un examen plus approfondi de la structure GPT
1.7 Construction d'un modèle de langage à grande échelle
1.8 Résumé
Chapitre 2 : Traitement des données textuelles
2.1 Comprendre les plongements lexicaux
2.2 Tokenisation du texte
2.3 Conversion d'un jeton en un identifiant de jeton
2.4 Ajout de jetons de contexte spéciaux
Encodage par paires de 2,5 octets
2.6 Échantillonnage des données avec une fenêtre glissante
2.7 Création d'embeddings de jetons
2.8 Encodage des positions des mots
2.9 Résumé
Chapitre 3 : Mise en œuvre du mécanisme d'attention
3.1 Problèmes liés à la modélisation des longues séquences
3.2 Capture des dépendances des données à l'aide de mécanismes d'attention
3.3 Porter attention aux différentes parties de l'information grâce à l'auto-attention
__3.3.1 Un mécanisme d'auto-attention simple sans poids entraînables
__3.3.2 Calcul des poids d'attention pour tous les jetons d'entrée
3.4 Mise en œuvre de l'auto-attention avec des poids entraînables
3.4.1 Calcul étape par étape des pondérations d'attention
__3.4.2 Implémentation d'une classe Python d'auto-attention
3.5 Dissimuler les mots futurs par une attention nasale
3.5.1 Application du masque de protection nasale
3.5.2 Masquage supplémentaire des pondérations d'attention avec abandon
__3.5.3 Implémentation de la classe d'attention de Kozal
3.6 Étendre l'attention monocentrique à l'attention multicentrique
__3.6.1 Empilement de plusieurs couches d'attention à tête unique
3.6.2 Mise en œuvre de l'attention multi-têtes avec répartition des poids
3.7 Résumé
Chapitre 4 : Implémentation d’un modèle GPT à partir de zéro
4.1 Mise en œuvre de la structure LLM
Normalisation de l'activation avec normalisation de couche 4.2
4.3 Implémentation d'un réseau à propagation directe utilisant la fonction d'activation GELU
4.4 Ajout d'une connexion de raccourci
4.5 Connexion des couches d'attention et linéaires au bloc transformateur
4.6 Création d'un modèle GPT
4.7 Création de texte
4.8 Résumé
Chapitre 5 Pré-entraînement avec des données non étiquetées
5.1 Évaluation du modèle de génération de texte
5.1.1 Génération de texte à l'aide de GPT
__5.1.2 Calcul de la perte de génération de texte
5.1.3 Calcul de la perte sur les ensembles d'entraînement et de validation
5.2 Formation LLM
5.3 Stratégies de décodage pour contrôler le hasard
5.3.1 Échelle de température
5.3.2 Échantillonnage des k premiers
5.3.3 Modification de la fonction de génération de texte
5.4 Chargement et sauvegarde de modèles avec PyTorch
5.5 Chargement des poids pré-entraînés depuis OpenAI
5.6 Résumé
Ajustements pour la classification du chapitre 6
6.1 Différentes méthodes de réglage fin
6.2 Préparation de l'ensemble de données
6.3 Création d'un chargeur de données
6.4 Initialisation du modèle avec des poids pré-entraînés
6.5 Ajout d'un en-tête de classification
6.6 Calcul de la perte et de la précision de la classification
6.7 Ajustement du modèle avec des données d'apprentissage supervisé
6.8 Utilisation de LLM comme classificateur de spam
6.9 Résumé
Chapitre 7 Réglages fins pour suivre les instructions
7.1 Introduction à la mise au point de l'enseignement
7.2 Préparation de l'ensemble de données pour l'apprentissage supervisé : ajustement fin
7.3 Création d'un groupe de formation
7.4 Création d'un chargeur de données pour l'ensemble de données d'instructions
7.5 Chargement d'un LLM pré-formé
7.6 Réglage fin du LLM à partir des données d'instructions
7.7 Extraction et enregistrement des réponses
7.8 Évaluation du LLM optimisé
7.9 Conclusion
__7.9.1 Et ensuite ?
7.9.2 Se tenir informé des domaines en évolution rapide
7.9.3 Conclusion
7.10 Résumé
Annexe A : Introduction à PyTorch
A.1 Qu'est-ce que PyTorch ?
__A.1.1 Les trois composants principaux de PyTorch
__A.1.2 Qu'est-ce que l'apprentissage profond ?
__A.1.3 Installation de PyTorch
A.2 Comprendre les tenseurs
__A.2.1 Scalaires, vecteurs, matrices et tenseurs
__A.2.2 Type de données tenseur
__A.2.3 Opérations fréquemment utilisées sur les tenseurs PyTorch
A.3 Représentation du modèle sous forme de graphe de calcul
A.4 La différenciation automatique simplifiée
A.5 Création d'un réseau neuronal multicouche
A.6 Mise en place d'un chargeur de données efficace
A.7 Boucle d'entraînement générale
A.8 Modèles d'enregistrement et de chargement
A.9 Optimisation des performances d'entraînement avec les GPU
__A.9.1 Calculs PyTorch utilisant des périphériques GPU
__A.9.2 Formation sur un seul GPU
__A.9.3 Formation multi-GPU
A.10 Résumé
Annexe B Références et lectures complémentaires
Annexe C : Exercices et réponses
Annexe D : Ajout de fonctionnalités supplémentaires à votre boucle d’entraînement
D.1 Échauffement du rythme d'apprentissage
D.2 Atténuation cosinus
D.3 Découpage par dégradé
D.4 Fonction d'entraînement modifiée
Annexe E Réglage fin et efficace des paramètres à l'aide de LoRA
E.1 Introduction à LoRA
E.2 Préparation de l'ensemble de données
E.3 Initialisation du modèle
E.4 Réglage fin et efficace des paramètres à l'aide de LoRA
[Table des matières du cahier d'exercices]
Chapitre 1 : Comprendre les modèles de langage à grande échelle
Chapitre 2 : Traitement des données textuelles
Chapitre 3 : Mise en œuvre du mécanisme d'attention
Chapitre 4 : Implémentation d’un modèle GPT à partir de zéro
Chapitre 5 Pré-entraînement avec des données non étiquetées
Ajustements pour la classification du chapitre 6
Chapitre 7 Réglages fins pour suivre les instructions
Annexe A : Introduction à PyTorch
Annexe D : Ajout de fonctionnalités supplémentaires à votre boucle d’entraînement
Annexe E Réglage fin et efficace des paramètres à l'aide de LoRA
Image détaillée

Avis de l'éditeur
« Si vous n’y arrivez pas, c’est que vous ne le comprenez pas vraiment. » – Richard Feynman
La meilleure façon de comprendre le LLM est de le mettre en œuvre soi-même, de A à Z.
Comme son nom l'indique, LLM (Large Language Model) est un modèle de très grande taille.
Mais ce n'est pas parce que c'est important qu'il faut considérer un LLM comme une boîte noire.
Comme l'a dit Feynman, le meilleur moyen de vraiment comprendre quelque chose est de le créer.
Apprenez étape par étape comment construire un LLM grâce à ce livre.
Développons nous-mêmes un modèle de base sans utiliser aucune autre bibliothèque LLM existante, transformons-le en un classificateur de texte et créons finalement un chatbot qui suit mes instructions conversationnelles.
Nous aborderons chaque étape, de la planification et du codage de votre modèle à son entraînement et à son réglage fin.
À la fin de ce livre, vous aurez acquis une compréhension solide et fondamentale du fonctionnement des LLM comme ChatGPT.
[Contenu de ce livre]
■ Planification et développement d'un LLM similaire à GPT-2
■Optimisation du modèle linéaire général pour la classification de texte
■Chargement des poids pré-entraînés
■Élaborer un LLM qui suit les instructions humaines
Mise en place d'un parcours de formation complet
Un cahier d'exercices est également inclus ! Pour mieux comprendre, rien de plus simple !
La méthode d'apprentissage présentée dans ce livre — la construction de vos propres modèles — est la meilleure façon d'apprendre les principes fondamentaux du fonctionnement des modèles de langage à grande échelle.
Bien que nous ayons inclus des explications claires, des images et du code, cela peut paraître intimidant car le sujet est complexe.
J'ai préparé un cahier d'exercices pour vous aider à comprendre plus facilement et plus clairement.
Ce cahier d'exercices suit la structure du « Building from Scratch LLM », couvrant les concepts clés de chaque chapitre et vous mettant au défi avec des quiz à choix multiples, des questions sur le code et les concepts clés, et des questions qui nécessitent une réflexion approfondie et des réponses développées.
Bien entendu, les réponses aux questions sont également incluses.
Assurons-nous de maîtriser les connaissances acquises en les utilisant de diverses manières, par exemple avant ou après la lecture du texte, ou lorsque nous souhaitons étudier de manière répétée au fil du temps.
[Préface de l'auteur]
Je crois que la maîtrise de l'écriture de code relatif aux concepts fondamentaux est cruciale pour réussir dans ce domaine.
Cela nous permet non seulement de corriger les bugs et d'améliorer les performances, mais aussi d'expérimenter de nouvelles idées.
Lorsque j'ai commencé mon LLM il y a quelques années, j'ai eu beaucoup de mal à apprendre comment mettre cela en œuvre.
J'ai dû éplucher de nombreux articles de recherche et des dépôts de code incomplets pour obtenir tous les éléments.
Ce livre propose des tutoriels étape par étape détaillant les composantes clés et les étapes de développement du LLM.
J'espère que cela vous aidera à mieux comprendre le LLM.
Je suis convaincu que la meilleure façon de comprendre le LLM est de le mettre en œuvre soi-même, en partant de zéro.
Vous trouverez ça amusant, vous aussi ! Bonne lecture et bon codage !
[Préface du traducteur]
Je partage l'avis de l'auteur selon lequel la meilleure façon de comprendre le LLM est de le mettre en œuvre soi-même, de A à Z.
Cette méthode d'apprentissage est particulièrement efficace en informatique et en apprentissage automatique.
En tant qu'ingénieur, je suis encore très curieux de savoir comment fonctionnent les outils.
Peut-être que ceux d'entre vous qui ont pris ce livre en main me ressemblent.
En suivant ce livre et en construisant votre tour LLM, brique par brique, à l'aide de PyTorch, vous acquerrez une compréhension claire de l'état actuel de l'IA et du LLM.
En disséquant la structure du LLM, nous nous retrouvons à approuver l'argument selon lequel le LLM produit des textes qui semblent faire des inférences non pas pour un raisonnement réel, mais dans un souci de rationalisation a posteriori.
Qu'est-ce que le raisonnement, au fond ? Comment les humains se distinguent-ils des machines ? Il reste tant de questions sans réponse.
Il ne fait aucun doute que ce domaine continuera de regorger de choses intéressantes et mystérieuses.
[Avis d'un lecteur bêta]
Il est rare de trouver une explication de l'architecture des transformateurs et du LLM aussi facile à comprendre.
J'ai trouvé particulièrement utile le fait qu'il propose des exercices étape par étape.
Je recommande ce livre à tous les développeurs d'IA car il fournit une base solide.
- Kim Byeong-gyu | Développeur de services d'IA chez Ibricks
La structure et le processus d'apprentissage des GPT sont expliqués en détail, étape par étape, ce qui m'a permis de comprendre le fonctionnement de modèles comme ChatGPT. N'ayant aucune connaissance en LLM, ce livre a été un guide précieux, posant méthodiquement les bases, des concepts fondamentaux à la pratique.
-Kim Jun-ho | Développeur back-end SSG.com
Je pense que ce livre réduit considérablement la peur et les obstacles à l'entrée dans le programme de maîtrise en droit (LLM), car il combine des explications conceptuelles avec des exercices pratiques.
Kim Min-seon | Gestion des données, Société coréenne des ressources en eau
Toutes les ressources sont disponibles pour une pratique directe dans Google Colab, ce que j'ai trouvé particulièrement satisfaisant car cela offrait un environnement où je pouvais m'exercer tout en lisant.
J'ai surtout été impressionné par l'absence d'erreurs dans le code source fourni.
Ce livre est conçu pour être compris grâce à une combinaison de théorie et de pratique ; je le recommande donc vivement à tous ceux qui souhaitent comprendre les principes fondamentaux du fonctionnement du LLM.
Kim Jong-yeol, chef d'équipe, division des solutions écosystémiques
En partant des concepts de base du LLM, nous progressons naturellement vers des contenus plus avancés grâce à une pratique concrète avec du code réel.
Il s'agit d'un excellent guide qui vous aide à comprendre les principes en profondeur en partant des bases, étape par étape.
- Chu Sang-won | Testeur GOTROOT
Vous pouvez trouver l'inspiration sur le plan académique en observant le processus de formation des idées d'un article de recherche, et en appliquant concrètement des concepts abstraits de niveau recherche, vous pourrez mieux comprendre les parties les plus complexes de l'article.
Bien qu'il couvre un large éventail de contenus, l'absence d'erreurs de code permet une immersion totale dans le contenu, et l'implémentation intuitive du code, centrée sur PyTorch, est également très utile pour une utilisation pratique.
Heo Min | Développement de l'IA et planification stratégique, Équipe de stratégie de l'information, Université Hankuk d'études étrangères
J'ai été impressionné par la structure, conçue pour être facile à suivre même pour les personnes non familiarisées avec PyTorch. Il s'agit du guide pratique par excellence, couvrant l'intégralité du processus de développement des LLM, de la théorie fondamentale à l'implémentation concrète du modèle et aux techniques pratiques d'optimisation.
- Kang Kyung-mok | Responsable (Chef d'équipe) chez Korea Somebet (filiale du groupe Harim) et Docteur en administration des affaires
C'est un excellent livre qui va au-delà de la simple description de l'utilisation de LLM et vous aide à le comprendre en le mettant en pratique vous-même.
- Lee Jin | Data Scientist, Équipe de développement de Kyungdong Navien
Ce livre explique pas à pas le mécanisme d'auto-attention du Transformer. Si vous souhaitez développer une intuition du fonctionnement interne des modèles LLM et GPT, sa lecture est indispensable.
- Avis des lecteurs d'Amazon
L'auteur fournit tout le code, ce qui facilite sa compréhension.
Vous pouvez facilement modifier le code et apprendre énormément. Si vous souhaitez comprendre le fonctionnement d'un LLM, c'est le meilleur investissement que vous puissiez faire.
- Avis des lecteurs d'Amazon
La meilleure façon de comprendre le LLM est de le mettre en œuvre soi-même, de A à Z.
Comme son nom l'indique, LLM (Large Language Model) est un modèle de très grande taille.
Mais ce n'est pas parce que c'est important qu'il faut considérer un LLM comme une boîte noire.
Comme l'a dit Feynman, le meilleur moyen de vraiment comprendre quelque chose est de le créer.
Apprenez étape par étape comment construire un LLM grâce à ce livre.
Développons nous-mêmes un modèle de base sans utiliser aucune autre bibliothèque LLM existante, transformons-le en un classificateur de texte et créons finalement un chatbot qui suit mes instructions conversationnelles.
Nous aborderons chaque étape, de la planification et du codage de votre modèle à son entraînement et à son réglage fin.
À la fin de ce livre, vous aurez acquis une compréhension solide et fondamentale du fonctionnement des LLM comme ChatGPT.
[Contenu de ce livre]
■ Planification et développement d'un LLM similaire à GPT-2
■Optimisation du modèle linéaire général pour la classification de texte
■Chargement des poids pré-entraînés
■Élaborer un LLM qui suit les instructions humaines
Mise en place d'un parcours de formation complet
Un cahier d'exercices est également inclus ! Pour mieux comprendre, rien de plus simple !
La méthode d'apprentissage présentée dans ce livre — la construction de vos propres modèles — est la meilleure façon d'apprendre les principes fondamentaux du fonctionnement des modèles de langage à grande échelle.
Bien que nous ayons inclus des explications claires, des images et du code, cela peut paraître intimidant car le sujet est complexe.
J'ai préparé un cahier d'exercices pour vous aider à comprendre plus facilement et plus clairement.
Ce cahier d'exercices suit la structure du « Building from Scratch LLM », couvrant les concepts clés de chaque chapitre et vous mettant au défi avec des quiz à choix multiples, des questions sur le code et les concepts clés, et des questions qui nécessitent une réflexion approfondie et des réponses développées.
Bien entendu, les réponses aux questions sont également incluses.
Assurons-nous de maîtriser les connaissances acquises en les utilisant de diverses manières, par exemple avant ou après la lecture du texte, ou lorsque nous souhaitons étudier de manière répétée au fil du temps.
[Préface de l'auteur]
Je crois que la maîtrise de l'écriture de code relatif aux concepts fondamentaux est cruciale pour réussir dans ce domaine.
Cela nous permet non seulement de corriger les bugs et d'améliorer les performances, mais aussi d'expérimenter de nouvelles idées.
Lorsque j'ai commencé mon LLM il y a quelques années, j'ai eu beaucoup de mal à apprendre comment mettre cela en œuvre.
J'ai dû éplucher de nombreux articles de recherche et des dépôts de code incomplets pour obtenir tous les éléments.
Ce livre propose des tutoriels étape par étape détaillant les composantes clés et les étapes de développement du LLM.
J'espère que cela vous aidera à mieux comprendre le LLM.
Je suis convaincu que la meilleure façon de comprendre le LLM est de le mettre en œuvre soi-même, en partant de zéro.
Vous trouverez ça amusant, vous aussi ! Bonne lecture et bon codage !
[Préface du traducteur]
Je partage l'avis de l'auteur selon lequel la meilleure façon de comprendre le LLM est de le mettre en œuvre soi-même, de A à Z.
Cette méthode d'apprentissage est particulièrement efficace en informatique et en apprentissage automatique.
En tant qu'ingénieur, je suis encore très curieux de savoir comment fonctionnent les outils.
Peut-être que ceux d'entre vous qui ont pris ce livre en main me ressemblent.
En suivant ce livre et en construisant votre tour LLM, brique par brique, à l'aide de PyTorch, vous acquerrez une compréhension claire de l'état actuel de l'IA et du LLM.
En disséquant la structure du LLM, nous nous retrouvons à approuver l'argument selon lequel le LLM produit des textes qui semblent faire des inférences non pas pour un raisonnement réel, mais dans un souci de rationalisation a posteriori.
Qu'est-ce que le raisonnement, au fond ? Comment les humains se distinguent-ils des machines ? Il reste tant de questions sans réponse.
Il ne fait aucun doute que ce domaine continuera de regorger de choses intéressantes et mystérieuses.
[Avis d'un lecteur bêta]
Il est rare de trouver une explication de l'architecture des transformateurs et du LLM aussi facile à comprendre.
J'ai trouvé particulièrement utile le fait qu'il propose des exercices étape par étape.
Je recommande ce livre à tous les développeurs d'IA car il fournit une base solide.
- Kim Byeong-gyu | Développeur de services d'IA chez Ibricks
La structure et le processus d'apprentissage des GPT sont expliqués en détail, étape par étape, ce qui m'a permis de comprendre le fonctionnement de modèles comme ChatGPT. N'ayant aucune connaissance en LLM, ce livre a été un guide précieux, posant méthodiquement les bases, des concepts fondamentaux à la pratique.
-Kim Jun-ho | Développeur back-end SSG.com
Je pense que ce livre réduit considérablement la peur et les obstacles à l'entrée dans le programme de maîtrise en droit (LLM), car il combine des explications conceptuelles avec des exercices pratiques.
Kim Min-seon | Gestion des données, Société coréenne des ressources en eau
Toutes les ressources sont disponibles pour une pratique directe dans Google Colab, ce que j'ai trouvé particulièrement satisfaisant car cela offrait un environnement où je pouvais m'exercer tout en lisant.
J'ai surtout été impressionné par l'absence d'erreurs dans le code source fourni.
Ce livre est conçu pour être compris grâce à une combinaison de théorie et de pratique ; je le recommande donc vivement à tous ceux qui souhaitent comprendre les principes fondamentaux du fonctionnement du LLM.
Kim Jong-yeol, chef d'équipe, division des solutions écosystémiques
En partant des concepts de base du LLM, nous progressons naturellement vers des contenus plus avancés grâce à une pratique concrète avec du code réel.
Il s'agit d'un excellent guide qui vous aide à comprendre les principes en profondeur en partant des bases, étape par étape.
- Chu Sang-won | Testeur GOTROOT
Vous pouvez trouver l'inspiration sur le plan académique en observant le processus de formation des idées d'un article de recherche, et en appliquant concrètement des concepts abstraits de niveau recherche, vous pourrez mieux comprendre les parties les plus complexes de l'article.
Bien qu'il couvre un large éventail de contenus, l'absence d'erreurs de code permet une immersion totale dans le contenu, et l'implémentation intuitive du code, centrée sur PyTorch, est également très utile pour une utilisation pratique.
Heo Min | Développement de l'IA et planification stratégique, Équipe de stratégie de l'information, Université Hankuk d'études étrangères
J'ai été impressionné par la structure, conçue pour être facile à suivre même pour les personnes non familiarisées avec PyTorch. Il s'agit du guide pratique par excellence, couvrant l'intégralité du processus de développement des LLM, de la théorie fondamentale à l'implémentation concrète du modèle et aux techniques pratiques d'optimisation.
- Kang Kyung-mok | Responsable (Chef d'équipe) chez Korea Somebet (filiale du groupe Harim) et Docteur en administration des affaires
C'est un excellent livre qui va au-delà de la simple description de l'utilisation de LLM et vous aide à le comprendre en le mettant en pratique vous-même.
- Lee Jin | Data Scientist, Équipe de développement de Kyungdong Navien
Ce livre explique pas à pas le mécanisme d'auto-attention du Transformer. Si vous souhaitez développer une intuition du fonctionnement interne des modèles LLM et GPT, sa lecture est indispensable.
- Avis des lecteurs d'Amazon
L'auteur fournit tout le code, ce qui facilite sa compréhension.
Vous pouvez facilement modifier le code et apprendre énormément. Si vous souhaitez comprendre le fonctionnement d'un LLM, c'est le meilleur investissement que vous puissiez faire.
- Avis des lecteurs d'Amazon
SPÉCIFICATIONS DES PRODUITS
- Date d'émission : 22 septembre 2025
- Nombre de pages, poids, dimensions : 560 pages | 183 × 235 × 23 mm
- ISBN13 : 9791140715848
Vous aimerez peut-être aussi
카테고리
Langue coréenne
Langue coréenne