
Apprendre la reconnaissance vocale avec Python
Description
Introduction au livre
Des bases de la reconnaissance vocale à la pratique de l'apprentissage profond avec PyTorch,
Un livre sur l'apprentissage de la reconnaissance vocale avec Python a été publié !
La reconnaissance vocale est une technologie qui permet d'identifier le contenu oral d'un signal vocal. Autrement dit, elle permet à un ordinateur de reconnaître et de traiter la parole humaine comme un signal. Les technologies de reconnaissance vocale, telles que les enceintes connectées et les assistants vocaux pour smartphones, sont déjà omniprésentes dans notre quotidien.
La technologie de reconnaissance vocale est utilisée dans divers domaines, comme par exemple dans l'étape de prétraitement d'un système de traduction vocale et dans un système de rédaction automatique de comptes rendus de réunion.
En particulier, la technologie de reconnaissance vocale devrait se développer dans divers domaines, tels que la connexion aux systèmes de navigation des véhicules ou comme dispositif de saisie pour les personnes handicapées physiques, car elle permet de faire fonctionner des machines sans les mains.
Ce livre permet de comprendre l'histoire et les tendances de développement technologique de la reconnaissance vocale à ce jour, et propose une pratique concrète des systèmes de reconnaissance vocale les plus récents utilisant Python et PyTorch.
Il explique l'objectif de la reconnaissance vocale et donne un aperçu de l'algorithme, analyse le code source en détail et, enfin, joint le code source afin que les lecteurs puissent l'implémenter eux-mêmes.
Plus précisément, il énonce clairement le but pour lequel la technologie d'intelligence artificielle a été créée et si cette technologie peut atteindre cet objectif.
Ce livre sera une lecture incontournable pour les développeurs et les étudiants de premier cycle qui souhaitent mettre en œuvre correctement la reconnaissance vocale.
-Téléchargez le code source : https://github.com/bjpublic/python_speech_recognition
Un livre sur l'apprentissage de la reconnaissance vocale avec Python a été publié !
La reconnaissance vocale est une technologie qui permet d'identifier le contenu oral d'un signal vocal. Autrement dit, elle permet à un ordinateur de reconnaître et de traiter la parole humaine comme un signal. Les technologies de reconnaissance vocale, telles que les enceintes connectées et les assistants vocaux pour smartphones, sont déjà omniprésentes dans notre quotidien.
La technologie de reconnaissance vocale est utilisée dans divers domaines, comme par exemple dans l'étape de prétraitement d'un système de traduction vocale et dans un système de rédaction automatique de comptes rendus de réunion.
En particulier, la technologie de reconnaissance vocale devrait se développer dans divers domaines, tels que la connexion aux systèmes de navigation des véhicules ou comme dispositif de saisie pour les personnes handicapées physiques, car elle permet de faire fonctionner des machines sans les mains.
Ce livre permet de comprendre l'histoire et les tendances de développement technologique de la reconnaissance vocale à ce jour, et propose une pratique concrète des systèmes de reconnaissance vocale les plus récents utilisant Python et PyTorch.
Il explique l'objectif de la reconnaissance vocale et donne un aperçu de l'algorithme, analyse le code source en détail et, enfin, joint le code source afin que les lecteurs puissent l'implémenter eux-mêmes.
Plus précisément, il énonce clairement le but pour lequel la technologie d'intelligence artificielle a été créée et si cette technologie peut atteindre cet objectif.
Ce livre sera une lecture incontournable pour les développeurs et les étudiants de premier cycle qui souhaitent mettre en œuvre correctement la reconnaissance vocale.
-Téléchargez le code source : https://github.com/bjpublic/python_speech_recognition
- Vous pouvez consulter un aperçu du contenu du livre.
Aperçu
indice
Chapitre 1 Qu'est-ce que la reconnaissance vocale ?
Section 1 : Qu’est-ce que la reconnaissance vocale et où est-elle utilisée ?
Section 2 : Qu'est-ce que la reconnaissance vocale ? - Principes de la reconnaissance vocale -
Section 3 : Objectif et structure de ce livre
Chapitre 2 Connaissances de base en reconnaissance vocale
Section 1 : Reconnaissance vocale et probabilité
Section 2 : Définition du problème de reconnaissance vocale sous forme de formule
Section 3 Types de textes et dictionnaire de prononciation - Phonèmes, Hiragana, Caractères, Mots -
Section 4 Deux expériences de reconnaissance vocale
Section 5 : Processus expérimental de reconnaissance vocale
Chapitre 3 : Principes de base du traitement de la parole et de l’extraction de caractéristiques
Section 1 : Préparation des données
Section 2 : Lecture du fichier audio
Section 3 Décomposition fréquentielle de la parole par transformée de Fourier
Section 4 : Génération d'un spectre par transformation de Fourier à court terme sur la voix
Section 5 Caractéristiques du banc de filtres Log Mel
Section 6 Caractéristiques du cepstre de fréquence Mel
Section 7 : Calcul de la moyenne et de l’écart type des caractéristiques
Chapitre 4 : Premiers pas en reconnaissance vocale : Appariement DP
Section 1 : Problèmes d'alignement indissociables de la reconnaissance vocale
Section 2 Appariement DP
Section 3 : Mise en œuvre de la correspondance DP
Chapitre 5 : Reconnaissance vocale basée sur les modèles GMM-HMM
Section 1 : Perspectives de distribution et de fréquence, et non modèles
Section 2 : Estimation des paramètres à l'aide de la distribution normale et de l'estimation du mode
Section 3 Distribution normale mixte (GMM) et algorithme EM
Section 4 Modèle de Markov caché (HMM)
Section 5 : Mise en œuvre du modèle GMM-HMM
Chapitre 6 : Reconnaissance vocale basée sur les réseaux de neurones profonds et les modèles de Markov cachés.
Section 1 : De la « distribution » au « réseau neuronal profond »
Section 2 Réseau neuronal profond
Section 3 : Système hybride DNN-HMM combinant DNN et HMM
Section 4 : Implémentation d’un réseau de neurones profonds (DNN) et d’un modèle de Markov caché (HMM) avec Python et PyTorch
Section 5 Reconnaissance vocale continue à grand vocabulaire basée sur les HMM
Chapitre 7 Reconnaissance vocale continue basée sur un modèle de bout en bout
Section 1 : Du système hybride au modèle de réseau neuronal complet
Section 2 Réseau neuronal récurrent
Section 3 Classification temporelle connexionniste (CTC)
Section 4 : Implémentation de CTC avec Python et PyTorch
Section 5 Modèle encodeur-décodeur d'attention
Section 6 : Implémentation d’un modèle d’attention avec Python et PyTorch
Section 7 Autres techniques et modèles de reconnaissance vocale
Références de la section 8
Section 1 : Qu’est-ce que la reconnaissance vocale et où est-elle utilisée ?
Section 2 : Qu'est-ce que la reconnaissance vocale ? - Principes de la reconnaissance vocale -
Section 3 : Objectif et structure de ce livre
Chapitre 2 Connaissances de base en reconnaissance vocale
Section 1 : Reconnaissance vocale et probabilité
Section 2 : Définition du problème de reconnaissance vocale sous forme de formule
Section 3 Types de textes et dictionnaire de prononciation - Phonèmes, Hiragana, Caractères, Mots -
Section 4 Deux expériences de reconnaissance vocale
Section 5 : Processus expérimental de reconnaissance vocale
Chapitre 3 : Principes de base du traitement de la parole et de l’extraction de caractéristiques
Section 1 : Préparation des données
Section 2 : Lecture du fichier audio
Section 3 Décomposition fréquentielle de la parole par transformée de Fourier
Section 4 : Génération d'un spectre par transformation de Fourier à court terme sur la voix
Section 5 Caractéristiques du banc de filtres Log Mel
Section 6 Caractéristiques du cepstre de fréquence Mel
Section 7 : Calcul de la moyenne et de l’écart type des caractéristiques
Chapitre 4 : Premiers pas en reconnaissance vocale : Appariement DP
Section 1 : Problèmes d'alignement indissociables de la reconnaissance vocale
Section 2 Appariement DP
Section 3 : Mise en œuvre de la correspondance DP
Chapitre 5 : Reconnaissance vocale basée sur les modèles GMM-HMM
Section 1 : Perspectives de distribution et de fréquence, et non modèles
Section 2 : Estimation des paramètres à l'aide de la distribution normale et de l'estimation du mode
Section 3 Distribution normale mixte (GMM) et algorithme EM
Section 4 Modèle de Markov caché (HMM)
Section 5 : Mise en œuvre du modèle GMM-HMM
Chapitre 6 : Reconnaissance vocale basée sur les réseaux de neurones profonds et les modèles de Markov cachés.
Section 1 : De la « distribution » au « réseau neuronal profond »
Section 2 Réseau neuronal profond
Section 3 : Système hybride DNN-HMM combinant DNN et HMM
Section 4 : Implémentation d’un réseau de neurones profonds (DNN) et d’un modèle de Markov caché (HMM) avec Python et PyTorch
Section 5 Reconnaissance vocale continue à grand vocabulaire basée sur les HMM
Chapitre 7 Reconnaissance vocale continue basée sur un modèle de bout en bout
Section 1 : Du système hybride au modèle de réseau neuronal complet
Section 2 Réseau neuronal récurrent
Section 3 Classification temporelle connexionniste (CTC)
Section 4 : Implémentation de CTC avec Python et PyTorch
Section 5 Modèle encodeur-décodeur d'attention
Section 6 : Implémentation d’un modèle d’attention avec Python et PyTorch
Section 7 Autres techniques et modèles de reconnaissance vocale
Références de la section 8
Image détaillée

Avis de l'éditeur
Mettre en œuvre et tester un modèle d'apprentissage automatique de reconnaissance vocale en Python
Principes de base et exercices pas à pas de la reconnaissance vocale
La technologie de reconnaissance vocale progresse de jour en jour.
Auparavant, j'utilisais un enregistreur lorsque j'avais besoin de transcrire des notes importantes de réunions ou de cours, mais aujourd'hui, j'utilise une application de prise de notes par reconnaissance vocale.
La reconnaissance vocale est déjà omniprésente dans notre quotidien, qu'il s'agisse d'Apple Siri, de Google Assistant ou de Samsung Bixby installés sur nos téléphones, de la reconnaissance vocale prise en charge par les enceintes intelligentes que nous avons tous à la maison, ou des applications de navigation que nous utilisons dans nos voitures.
La reconnaissance vocale a récemment connu des progrès technologiques rapides grâce à la modélisation par apprentissage profond, ce qui a permis d'améliorer sa qualité. Cependant, davantage de données et de modèles sont encore nécessaires pour parvenir à une reconnaissance vocale parfaite.
Il reste de nombreux problèmes pratiques à résoudre, tels que la reconnaissance vocale dans des environnements bruyants et lorsque plusieurs personnes parlent simultanément.
Ce livre retrace l'histoire du développement de la technologie de reconnaissance vocale, du passé à nos jours.
Il raconte l'histoire de l'influence des techniques de reconnaissance vocale passées sur la technologie de reconnaissance vocale actuelle.
Il fournit également des connaissances théoriques et du code pratique pour chaque technique de reconnaissance vocale, y compris les théories des probabilités et du traitement du signal largement utilisées dans la technologie de reconnaissance vocale, et vous aide à développer le système de reconnaissance vocale le plus récent utilisant l'apprentissage profond avec Python et PyTorch.
L'auteur de ce livre l'a écrit afin que les lecteurs novices en matière de reconnaissance vocale puissent comprendre le fonctionnement général et les caractéristiques de cette technologie, au-delà de sa simple compréhension.
Je recommande ce livre à tous ceux qui s'intéressent à l'évolution future de la technologie de reconnaissance vocale, à tous ceux qui souhaitent appliquer rapidement cette technologie dans leur travail, à tous ceux qui s'intéressent au traitement vocal et à l'apprentissage automatique en général, et à tous ceux qui souhaitent approfondir leurs connaissances sur la technologie de reconnaissance vocale.
Principes de base et exercices pas à pas de la reconnaissance vocale
La technologie de reconnaissance vocale progresse de jour en jour.
Auparavant, j'utilisais un enregistreur lorsque j'avais besoin de transcrire des notes importantes de réunions ou de cours, mais aujourd'hui, j'utilise une application de prise de notes par reconnaissance vocale.
La reconnaissance vocale est déjà omniprésente dans notre quotidien, qu'il s'agisse d'Apple Siri, de Google Assistant ou de Samsung Bixby installés sur nos téléphones, de la reconnaissance vocale prise en charge par les enceintes intelligentes que nous avons tous à la maison, ou des applications de navigation que nous utilisons dans nos voitures.
La reconnaissance vocale a récemment connu des progrès technologiques rapides grâce à la modélisation par apprentissage profond, ce qui a permis d'améliorer sa qualité. Cependant, davantage de données et de modèles sont encore nécessaires pour parvenir à une reconnaissance vocale parfaite.
Il reste de nombreux problèmes pratiques à résoudre, tels que la reconnaissance vocale dans des environnements bruyants et lorsque plusieurs personnes parlent simultanément.
Ce livre retrace l'histoire du développement de la technologie de reconnaissance vocale, du passé à nos jours.
Il raconte l'histoire de l'influence des techniques de reconnaissance vocale passées sur la technologie de reconnaissance vocale actuelle.
Il fournit également des connaissances théoriques et du code pratique pour chaque technique de reconnaissance vocale, y compris les théories des probabilités et du traitement du signal largement utilisées dans la technologie de reconnaissance vocale, et vous aide à développer le système de reconnaissance vocale le plus récent utilisant l'apprentissage profond avec Python et PyTorch.
L'auteur de ce livre l'a écrit afin que les lecteurs novices en matière de reconnaissance vocale puissent comprendre le fonctionnement général et les caractéristiques de cette technologie, au-delà de sa simple compréhension.
Je recommande ce livre à tous ceux qui s'intéressent à l'évolution future de la technologie de reconnaissance vocale, à tous ceux qui souhaitent appliquer rapidement cette technologie dans leur travail, à tous ceux qui s'intéressent au traitement vocal et à l'apprentissage automatique en général, et à tous ceux qui souhaitent approfondir leurs connaissances sur la technologie de reconnaissance vocale.
SPÉCIFICATIONS DES PRODUITS
- Date de publication : 9 janvier 2023
- Nombre de pages, poids, dimensions : 336 pages | 188 x 245 x 30 mm
- ISBN13 : 9791165921828
- ISBN10 : 1165921820
Vous aimerez peut-être aussi
카테고리
Langue coréenne
Langue coréenne