Passer aux informations sur le produit
Intégration coréenne
Intégration coréenne
Description
Introduction au livre
La clé pour améliorer les performances des modèles de traitement automatique du langage naturel : l’intégration du coréen

L'embedding est un terme qui désigne le résultat de la conversion du langage naturel en un vecteur, c'est-à-dire une liste de nombres, ou l'ensemble du processus consistant à effectuer cette conversion.
Le terme « embedding » provient de l'idée de convertir chaque mot ou phrase en un vecteur et de l'« intégrer » dans un espace vectoriel.
Pour permettre aux ordinateurs de traiter le langage naturel, celui-ci doit être converti en une forme calculable appelée plongement.


Les représentations vectorielles jouent un rôle très important en tant que première passerelle permettant aux ordinateurs de comprendre le langage naturel.
Il n'est pas exagéré de dire que les performances d'un modèle de traitement automatique du langage naturel sont déterminées par son intégration.
Ce livre offre un aperçu complet des différentes techniques d'intégration et présente l'ensemble du processus, du prétraitement des données coréennes à la construction de l'intégration, sous forme de tutoriel.
Il couvre tout, des techniques au niveau du mot telles que Word2Vec aux plongements au niveau de la phrase tels que ELMo et BERT.
  • Vous pouvez consulter un aperçu du contenu du livre.
    Aperçu

indice
Chapitre 1.
introduction
1.1 Qu'est-ce que l'intégration ?
1.2 Le rôle de l'encastrement
1.2.1 Calcul de la pertinence des mots/phrases
1.2.2 Implication des informations sémantiques/grammaticales
1.2.3 Apprentissage par transfert
1.3 Historique et types de techniques d'intégration
1.3.1 Du modèle statistique au modèle basé sur les réseaux de neurones
1.3.2 Du niveau du mot au niveau de la phrase
Règle 1.3.3 → De bout en bout → Pré-entraînement/Réglage fin
1.3.4 Types et performances des plongements lexicaux
1.4 Environnement de développement
1.4.1 Introduction à l'environnement
1.4.2 Configuration AWS
1.4.3 Exécution du code
1.4.4 Signalement de bogues et questions-réponses
1.4.5 Sources ouvertes utilisées dans ce livre
1.5 Données et termes clés abordés dans ce livre
1.6 Résumé de ce chapitre
1.7 Références

Chapitre 2.
Comment les vecteurs acquièrent du sens

2.1 Traitement et compréhension du langage naturel
2.2 Quels sont les mots les plus utilisés ?
2.2.1 Hypothèses de fond de guerre
2.2.2 TF-IDF
2.2.3 Réseau de moyennage profond
2.3 Dans quel ordre les mots sont-ils écrits ?
2.3.1 Modèles de langage à base statistique
2.3.2 Modèle de langage basé sur un réseau neuronal
2.4 Quels mots sont utilisés ensemble ?
2.4.1 Hypothèses de distribution
2.4.2 Distribution et signification (1) : Morphèmes
2.4.3 Distribution et signification (2) : Parties du discours
2.4.4 Information mutuelle ponctuelle
2.4.5 Word2Vec
2.5 Résumé de ce chapitre
2.6 Références

Chapitre 3.
prétraitement coréen

3.1 Acquisition des données
3.1.1 Wikipédia coréenne
3.1.2 KorQuAD
3.1.3 Corpus de critiques de films Naver
3.1.4 Téléchargement des données prétraitées
3.2 Analyse morphologique basée sur l'apprentissage supervisé
3.2.1 Comment utiliser KoNLPy
3.2.2 Analyse des différences de performance par analyseur au sein de KoNLPy
3.2.3 Comment utiliser Khaiii
3.2.4 Ajout d'un dictionnaire utilisateur à Eunjeonhannyeon
3.3 Analyse morphologique basée sur l'apprentissage non supervisé
3.3.1 Analyseur morphologique soynlp
3.3.2 Morceau de phrase Google
3.3.3 Correction de l'espacement
3.3.4 Téléchargement des données d'analyse morphologique complètes
3.4 Résumé de ce chapitre
3.5 Références

Chapitre 4.
Intégrations au niveau des mots

4.1 NPLM
4.1.1 Structure de base du modèle
4.1.2 Apprentissage du NPLM
4.1.3 NPLM et information sémantique
4.2 Word2Vec
4.2.1 Structure de base du modèle
4.2.2 Constitution des données d'entraînement
4.2.3 Formation du modèle
Tutoriel 4.2.4
4.3 FastText
4.3.1 Structure de base du modèle
4.3.2 Tutoriel
4.3.3 Caractères coréens et FastText
4.4 Analyse sémantique latente
4.4.1 Matrice PPMI
4.4.2 Comprendre la sémantique latente par la décomposition matricielle
4.4.3 Comprendre Word2Vec par décomposition matricielle
Tutoriel 4.4.4
4.5 Gants
4.5.1 Structure de base du modèle
Tutoriel 4.5.2
Pivotant 4,6
4.6.1 Structure de base du modèle
Tutoriel 4.6.2
4.7 Quels plongements lexicaux utiliser
4.7.1 Téléchargement des plongements lexicaux
4.7.2 Évaluation de la similarité des mots
4.7.3 Évaluation par analogie de mots
4.7.4 Visualisation des plongements lexicaux
4.8 Intégration pondérée
4.8.1 Aperçu du modèle
4.8.2 Mise en œuvre du modèle
Tutoriel 4.8.3
4.9 Résumé de ce chapitre
4.10 Références

Chapitre 5.
plongements au niveau de la phrase

5.1 Analyse sémantique latente
5.2 Doc2Vec
5.2.1 Aperçu du modèle
Tutoriel 5.2.2
5.3 Allocation de Dirichlet latente
5.3.1 Aperçu du modèle
5.3.2 Architecture
5.3.3 LDA et échantillonnage de Gibbs
Tutoriel 5.3.4
5.4 ELMo
5.4.1 Couche de convolution au niveau des caractères
5.4.2 LSTM bidirectionnel, couche de score
Couche ELMo 5.4.3
5.4.4 Tutoriel gratuit sur les trains
5.5 Réseau de transformateurs
5.5.1 Attention au produit scalaire à l'échelle
5.5.2 Attention multi-têtes
5.5.3 Réseaux à propagation directe positionnelle
5.5.4 Stratégies d'apprentissage des transformateurs
5.6 BERT
5.6.1 BERT, ELMo, GPT
5.6.2 Tâches de pré-entraînement et constitution des données d'entraînement
5.6.3 Structure du modèle BERT
5.6.4 Tutoriel gratuit sur les trains
5.7 Résumé de ce chapitre
5.8 Références

Chapitre 6.
Réglage fin intégré

6.1 Pré-entraînement et réglage fin
6.2 Création d'un pipeline pour la classification
6.3 Utilisation des plongements lexicaux
6.3.1 Vue d'ensemble du réseau
6.3.2 Mise en œuvre du réseau
Tutoriel 6.3.3
6.4 Utilisation d'ELMo
6.4.1 Vue d'ensemble du réseau
6.4.2 Mise en œuvre du réseau
Tutoriel 6.4.3
6.5 Utilisation de BERT
6.5.1 Vue d'ensemble du réseau
6.5.2 Mise en œuvre du réseau
Tutoriel 6.5.3
6.6 Quels plongements lexicaux utiliser
6.7 Résumé de ce chapitre
6.8 Références

supplément
Annexe A.
Principes fondamentaux de l'algèbre linéaire
1.1 Opérations vectorielles et matricielles
1.2 Produit scalaire et covariance
1.3 Produit scalaire et projection
1.4 Produits scalaires et transformations linéaires
1.5 Réduction de dimensionnalité basée sur la factorisation matricielle (1) : Analyse en composantes principales (ACP)
1.6 Réduction de dimensionnalité basée sur la factorisation matricielle (2) : Décomposition en valeurs singulières (SVD)

Annexe B.
Principes fondamentaux de la théorie des probabilités

2.1 Variables aléatoires et distributions de probabilité
2.2 Théorie des probabilités bayésiennes

Annexe C.
Notions de base des réseaux neuronaux

3.1 Comprendre les réseaux de neurones avec un DAG
3.2 Les réseaux neuronaux sont des modèles probabilistes.
3.3 Estimation du maximum de vraisemblance et perte d'apprentissage
3.4 Descente en pente
3.5 Rétropropagation par nœud de calcul
3.6 CNN et RNN

Annexe D.
Langue coréenne de base

4.1 Unités syntaxiques
4.2 Types de phrases
4.3 Les parties du discours
4.4 Quantité et temps
4.5 Sujet
4.6 Augmentation
4.7 Aspect
4.8 Rôle sémantique
4.9 Passif
4.10 Sadong
4.11 Refus

Annexe E.
Références

Image détaillée
Image détaillée 1

Avis de l'éditeur
Ce que ce livre couvre

■ Introduction au concept, aux types et à l'histoire de l'embedding, la première porte d'entrée vers le traitement du langage naturel.
■ Fondements théoriques expliquant comment les plongements lexicaux encapsulent le sens du langage naturel
■ Partage de savoir-faire sur le prétraitement des corpus coréens, notamment Wikipédia et KorQuAD
■ Guide des packages KoNLPy, soynlp et Google Sentencepiece
■ Les plongements lexicaux tels que Word2Vec, GloVe, FastText et Swivel
■ Description des plongements lexicaux au niveau de la phrase tels que LDA, Doc2Vec, ELMo et BERT
■ Le tutoriel débutera après avoir expliqué le processus d'apprentissage et de fonctionnement du modèle individuel au niveau du code.
■ Intégration d'exercices de réglage fin axés sur les tâches de classification de documents

Ce livre présente différentes techniques d'intégration.
Nous aborderons de manière générale les plongements lexicaux et les plongements phraséaux.
Il s'agit d'une technique permettant de convertir chaque mot et chaque phrase en un vecteur.
Les plongements lexicaux décrits ici incluent Word2Vec, GloVe, FastText et Swivel.
Les représentations vectorielles au niveau de la phrase incluent ELMo et BERT.
Cet ouvrage examine les fondements théoriques de chaque technique d'intégration, puis explique le processus de construction d'intégrations réelles à l'aide d'un corpus coréen.
Lors de l'explication de chaque technique, essayez de suivre autant que possible les formules et les notations de l'article original.
Le code sera également introduit à partir du dépôt officiel des auteurs de l'article.

Le prétraitement des corpus et le réglage fin des plongements lexicaux sont également des sujets importants abordés dans cet ouvrage.
Le premier processus doit être effectué avant la construction de l'embedding, et le second processus doit être effectué après la construction de l'embedding.
Pour le prétraitement, nous expliquons comment utiliser des outils open source tels que KoNLPy, soynlp et Google Sentencepiece.
Nous allons nous exercer à affiner les plongements lexicaux en utilisant l'exemple d'une tâche de classification de documents qui prédit la polarité d'un document, par exemple positive ou négative.

Le contenu principal de chaque chapitre est le suivant.

Le chapitre 1, « Introduction », examine la définition, l'histoire et les types d'intégration.
Le processus de mise en place d'un environnement de développement tel que Docker est également expliqué.

Le chapitre 2, « Comment les vecteurs acquièrent du sens », explique comment intégrer le sens du langage naturel dans des représentations vectorielles.
Bien que chaque technique d'intégration présente ses propres différences, il est important de noter qu'elles partagent une caractéristique commune : elles reflètent les informations sur les modèles statistiques du corpus.

Le chapitre 3, « Prétraitement coréen », couvre le processus de prétraitement des données coréennes pour l'apprentissage par représentation.
Ce document explique comment convertir des données sous forme de documents web ou de fichiers JSON en fichiers texte purs et comment effectuer une analyse morphologique sur ces derniers.
Une correction d'espacement est également introduite.

Le chapitre 4, « Intégration au niveau des mots », décrit différents modèles d’intégration au niveau des mots. NPLM, Word2Vec et FastText sont des modèles basés sur la prédiction, tandis que LSA, GloVe et Swivel sont des techniques basées sur la factorisation matricielle.
L'intégration pondérée est une méthode qui étend l'intégration de mots au niveau de la phrase.

Le chapitre 5, « Intégrations au niveau de la phrase », traite des intégrations au niveau de la phrase.
Nous présentons trois types : la factorisation matricielle, les modèles probabilistes et les modèles basés sur les réseaux neuronaux.
L'analyse sémantique latente (LSA) est une factorisation matricielle, l'allocation de Dirichlet latente (LDA) est un modèle probabiliste et Doc2Vec, ELMo et BERT sont des méthodes qui se concentrent sur les réseaux neuronaux.
Plus précisément, BERT est basé sur un réseau de transformateurs basé sur l'auto-attention.

Le chapitre 6, « Réglage fin des plongements », traite du réglage fin des plongements au niveau des mots et des phrases.
Nous effectuons une tâche de classification de la polarité à l'aide d'un corpus de critiques de films Naver.

L’« Annexe » rappelle brièvement les connaissances de base nécessaires à la compréhension de ce livre.
Explique des concepts clés tels que l'algèbre linéaire, la théorie des probabilités, les réseaux neuronaux et la linguistique coréenne.
SPÉCIFICATIONS DES PRODUITS
- Date de publication : 26 septembre 2019
- Nombre de pages, poids, dimensions : 348 pages | 188 × 235 × 30 mm
- ISBN13 : 9791161753508
- ISBN10 : 1161753508

Vous aimerez peut-être aussi

카테고리