
Le guide complet de l'apprentissage automatique en Python
Description
Introduction au livre
Vous pouvez maîtriser l'apprentissage automatique grâce à des explications théoriques détaillées et à la pratique du Python !
« Le guide complet de l'apprentissage automatique en Python » rompt avec les ouvrages d'apprentissage automatique axés sur la théorie, vous permettant d'apprendre l'apprentissage automatique par la mise en œuvre pratique de divers exemples concrets.
Nous avons compilé des exemples pratiques basés sur des données d'entraînement complexes provenant de Kaggle et du dépôt d'apprentissage automatique de l'UCI, et nous avons couvert en détail les algorithmes et techniques les plus récents utilisés dans de nombreux domaines de la science des données sur Kaggle, notamment XGBoost, LightGBM et les techniques d'empilement.
Cette deuxième édition révisée met en œuvre un code pratique qui met à jour toutes les bibliothèques utilisées dans le livre à la dernière version, y compris la dernière version de scikit-learn (1.0.2), et fournit une pratique d'application des techniques d'optimisation bayésienne pour le réglage optimal des hyperparamètres des modèles XGBoost et LightGBM avec différents types d'hyperparamètres.
Nous avons également ajouté un nouveau chapitre consacré à l'utilisation de matplotlib et seaborn, des bibliothèques de visualisation largement utilisées dans l'analyse de données liées à l'apprentissage automatique.
« Le guide complet de l'apprentissage automatique en Python » rompt avec les ouvrages d'apprentissage automatique axés sur la théorie, vous permettant d'apprendre l'apprentissage automatique par la mise en œuvre pratique de divers exemples concrets.
Nous avons compilé des exemples pratiques basés sur des données d'entraînement complexes provenant de Kaggle et du dépôt d'apprentissage automatique de l'UCI, et nous avons couvert en détail les algorithmes et techniques les plus récents utilisés dans de nombreux domaines de la science des données sur Kaggle, notamment XGBoost, LightGBM et les techniques d'empilement.
Cette deuxième édition révisée met en œuvre un code pratique qui met à jour toutes les bibliothèques utilisées dans le livre à la dernière version, y compris la dernière version de scikit-learn (1.0.2), et fournit une pratique d'application des techniques d'optimisation bayésienne pour le réglage optimal des hyperparamètres des modèles XGBoost et LightGBM avec différents types d'hyperparamètres.
Nous avons également ajouté un nouveau chapitre consacré à l'utilisation de matplotlib et seaborn, des bibliothèques de visualisation largement utilisées dans l'analyse de données liées à l'apprentissage automatique.
- Vous pouvez consulter un aperçu du contenu du livre.
Aperçu
indice
Chapitre 1 : Comprendre l’apprentissage automatique basé sur Python et son écosystème
01.
Le concept d'apprentissage automatique
Classification de l'apprentissage automatique
Guerres de données
___Comparaison de l'apprentissage automatique basé sur Python et R
02.
Principaux packages qui constituent l'écosystème d'apprentissage automatique Python
Installation de logiciels pour l'apprentissage automatique Python
03.
NumPy
Aperçu des tableaux NumPy
Type de données ___ndarray
Création pratique de ___ndarray - arange, zeros, ones
reshape() permet de modifier les dimensions et la taille de ___ndarray
Sélection d'un jeu de données à partir d'un tableau NumPy (ndarray) - Indexation
Tri d'une matrice - sort() et argsort()
Opérations d'algèbre linéaire - Produit scalaire et transposée de matrices
04.
Gestion des données - Pandas
Premiers pas avec Pandas : chargement de fichiers dans des DataFrames, API de base
Conversion d'un DataFrame en liste, dictionnaire et tableau NumPy
Création et modification d'ensembles de données de colonnes dans un DataFrame
Supprimer les données du DataFrame
Objet ___Index
___Sélection et filtrage des données
___Tri, fonction d'agrégation, application GroupBy
___Gestion des données manquantes
Traiter les données à l'aide de l'expression lambda ___apply
05.
organiser
Chapitre 2 : Apprentissage automatique avec Scikit-Learn
01.
Introduction et fonctionnalités de Scikit-learn
02.
Création de votre premier modèle d'apprentissage automatique - Prédiction des espèces d'iris
03.
Apprenez les bases de scikit-learn
Comprendre les méthodes `Estimator`, `fit()` et `predict()`
___Principaux modules de scikit-learn
___Ensembles de données d'exemple intégrés
04.
Présentation du module de sélection de modèle
___Séparer les ensembles de données d'entraînement et de test - train_test_split()
Validation croisée
___GridSearchCV - Validation croisée et optimisation des hyperparamètres en une seule étape 111
05.
prétraitement des données
encodage des données
___Mise à l'échelle et normalisation des caractéristiques
___StandardScaler
___MinMaxScaler
Éléments à prendre en compte lors de la mise à l'échelle des données d'entraînement et de test
06.
Prédire les survivants du Titanic avec Scikit-learn
07.
organiser
Chapitre 3 : Évaluation
01.
Précision
02.
Matrice d'erreur
03.
Précision et rappel
Compromis précision/rappel
___Points faibles en matière de précision et de rappel
04.
Score F1
05. Courbe ROC et AUC
06.
Prédiction du diabète chez les Indiens Pima
07.
organiser
Chapitre 4 : Classification
01.
Aperçu de la classification
02.
Arbre de décision
___Caractéristiques du modèle d'arbre de décision
Paramètres de l'arbre de décision
Visualisation des modèles d'arbres de décision
Surapprentissage des arbres de décision
Exercices sur les arbres de décision - Jeu de données de reconnaissance du comportement des utilisateurs
03.
apprentissage en ensemble
Aperçu de l'apprentissage en ensemble
Types de vote : vote fort et vote faible
___Classificateur de vote
04.
Forêt aléatoire
___Présentation et pratique des forêts aléatoires
___Hyperparamètres et optimisation des forêts aléatoires
___Présentation et pratique du GBM
05. GBM (Gradient Boosting Machine)
___Présentation des hyperparamètres GBM
Présentation de XGBoost
06. XGBoost (eXtra Gradient Boost)
___Installation de XGBoost
___Wrapper Python pour les hyperparamètres XGBoost
Application du wrapper Python XGBoost - Prédiction du cancer du sein dans le Wisconsin
___Présentation et application de XGBoost, un wrapper pour Scikit-Learn
07.
LightGBM
___Installation de LightGBM
___Hyperparamètres de LightGBM
Méthode de réglage des hyperparamètres
___Wrappers Python pour LightGBM et wrapper scikit-learn pour XGBoost,
___Comparaison des hyperparamètres de LightGBM
Application LightGBM - Prédiction du cancer du sein dans le Wisconsin
08.
Réglage des hyperparamètres à l'aide de HyperOpt basé sur l'optimisation bayésienne
Aperçu de l'optimisation bayésienne
___Utilisation d'HyperOpt
Optimisation des hyperparamètres de XGBoost à l'aide d'HyperOpt
09.
Exercice de classification - Prédiction de la satisfaction client chez Santander (Kaggle)
Prétraitement des données
Entraînement du modèle XGBoost et optimisation des hyperparamètres
Entraînement du modèle LightGBM et optimisation des hyperparamètres
10.
Exercices de classification - Détection de fraude à la carte de crédit sur Kaggle
Comprendre le sous-échantillonnage et le suréchantillonnage
Traitement primaire des données et apprentissage/prédiction/évaluation du modèle
Apprentissage/prédiction/évaluation du modèle après transformation de la distribution des données
Entraînement/prédiction/évaluation du modèle après suppression des données aberrantes
Entraînement/prédiction/évaluation du modèle après application du suréchantillonnage SMOTE
11.
Ensemble d'empilement
Modèle d'empilement de base
Empilement basé sur des ensembles CV
12.
organiser
Chapitre 5 : Régression
01.
Introduction à la régression
02.
Comprendre la régression à travers la régression linéaire simple
03.
Minimisation des coûts - Introduction à la descente de gradient
04.
Prédiction des prix de l'immobilier à Boston à l'aide de la régression linéaire Scikit-Learn
Cours de régression linéaire - Moindres carrés ordinaires
___Indice d'évaluation de la régression
Mise en œuvre d'une régression linéaire des prix de l'immobilier à Boston
05.
Comprendre la régression polynomiale et le surapprentissage/sous-apprentissage
Comprendre la régression polynomiale
Comprendre le sous-apprentissage et le surapprentissage à l'aide de la régression multinomiale
Compromis biais-variance
06.
Modèles linéaires régularisés - Ridge, Lasso, ElasticNet
___Aperçu du modèle linéaire réglementaire
Régression de crête
Régression Lasso
Régression ElasticNet
Transformation des données pour les modèles de régression linéaire
07.
régression logistique
08.
Arbre de régression
09.
Exercice de régression - Prévision de la demande de location de vélos
Nettoyage, traitement et visualisation des données
Transformation logarithmique, encodage des caractéristiques et entraînement/prédiction/évaluation du modèle
10.
Exercices de régression - Prix des maisons sur Kaggle : Techniques de régression avancées
Prétraitement des données
Entraînement, prédiction et évaluation du modèle de régression linéaire
Entraînement, prédiction et évaluation du modèle d'arbre de régression
Prédiction finale obtenue en combinant les résultats de prédiction du modèle de régression ___
Prédiction de régression à l'aide de modèles d'ensemble empilés
11.
organiser
Chapitre 6 : Réduction de dimensionnalité
01.
Aperçu de la réduction de dimension
02. ACP (Analyse en Composantes Principales)
Aperçu de l'APC
03. LDA (Analyse discriminante linéaire)
Aperçu de l'ALD
04. SVD (Décomposition en valeurs singulières)
Aperçu de la SVD
___Transformation utilisant la classe TruncatedSVD de scikit-learn
05. NMF (Factorisation de matrices non négatives)
Aperçu du NMF
06.
organiser
Chapitre 7 : Le clustering
01.
Comprendre l'algorithme K-Means
___Présentation de la classe KMeans de scikit-learn
Regroupement des données Iris à l'aide de l'algorithme K-means
Générer des données pour tester les algorithmes de clustering
02.
Évaluation par grappes
___Aperçu de l'analyse de silhouette
Évaluation du cluster à l'aide de l'ensemble de données ___iris
___Une méthode pour optimiser le nombre de clusters en visualisant le coefficient de silhouette moyen par cluster.
03.
moyenne mobile
Aperçu du décalage moyen
04. GMM (Modèle de mélange gaussien)
Introduction au modèle de mélange gaussien (GMM)
Regroupement des données Iris à l'aide d'un modèle gaussien mixte (GMM)
___Comparaison des méthodes GMM et K-Means
05. DBSCAN
Aperçu de DBSCAN
Application de DBSCAN - Jeu de données Iris
Application de DBSCAN - ensemble de données make_circles()
06.
Pratique du clustering - Segmentation client
Définition et techniques de segmentation client
Chargement et nettoyage des données
Traitement des données basé sur RFM
Segmentation client basée sur RFM
07.
organiser
Analyse de texte du chapitre 8
___NLP ou analyse de texte ?
01.
Comprendre l'analyse de texte
Processus d'analyse de texte
___Package d'analyse de texte et de traitement automatique du langage naturel basé sur Python
02.
Prétraitement du texte - Normalisation du texte
___Nettoyage
Tokenisation de texte
___Supprimer les mots vides
___Remmatisation et lemmatisation
03.
Sac de mots - ARC
Vectorisation des caractéristiques ___BOW
Implémentations de Count et de la vectorisation TF-IDF dans Scikit-learn : CountVectorizer, TfidfVectorizer
Matrices creuses pour la vectorisation BOW
Matrice creuse - Format COO
Matrice creuse - Format CSR
04.
Exercice de classification de textes - Classification de 20 groupes de discussion
Normalisation du texte
Transformation par vectorisation des caractéristiques et entraînement/prédiction/évaluation des modèles d'apprentissage automatique
Utilisation des pipelines scikit-learn et leur combinaison avec GridSearchCV
05.
Analyse des sentiments
Introduction à l'analyse des sentiments
Exercice d'analyse des sentiments par apprentissage supervisé - Critiques de films IMDB
___Présentation de l'analyse des sentiments basée sur l'apprentissage non supervisé
Analyse des sentiments à l'aide de SentiWordNet
Analyse des sentiments à l'aide de ___VADER
06.
Modélisation thématique - 20 groupes de discussion
07.
Introduction et pratique du regroupement de documents (ensemble de données d'avis d'opinion)
Concept de regroupement de documents
___Réalisation d'un regroupement de documents à l'aide de l'ensemble de données Opinion Review
Extraction des mots clés par groupe
08.
Similitude des documents
Méthode de mesure de la similarité des documents - Similarité cosinus
___Angle entre deux vecteurs
___Mesure de la similarité des documents à l'aide de l'ensemble de données d'évaluation des opinions
09.
Traitement de texte coréen - Analyse des sentiments des notes de films Naver
Difficultés liées au traitement automatique du langage naturel en coréen
___Présentation de KoNLPy
Chargement des données
10.
Pratique d'analyse de texte - Défi de suggestion de prix Kaggle Mercari
Prétraitement des données
Encodage et vectorisation des caractéristiques
Construction et évaluation d'un modèle de régression Ridge
___Construction d'un modèle de régression LightGBM et évaluation des prédictions finales à l'aide d'un ensemble
11.
organiser
Chapitre 9 : Systèmes de recommandation
01.
Aperçu et contexte des systèmes de recommandation
___Présentation du système de recommandation
Un élément essentiel des boutiques en ligne : les systèmes de recommandation
___Types de systèmes de recommandation
02.
Système de recommandation basé sur le filtrage du contenu
03.
Filtrage collaboratif du plus proche voisin
04.
Filtrage collaboratif à facteurs latents
Comprendre le filtrage collaboratif à facteurs latents
Comprendre la décomposition matricielle
Décomposition matricielle par descente de gradient stochastique
05.
Pratique du filtrage basé sur le contenu - Ensemble de données de films TMDB 5000
Filtrage des films basé sur le contenu à l'aide des attributs de ___genre
Chargement et traitement des données
Mesure de similarité du contenu du genre
Recommandations de films utilisant le filtrage de contenu par ___genre
06.
pratique de filtrage collaboratif basé sur les plus proches voisins des éléments
___Traitement et conversion des données
Calcul de la similarité entre ___films
Recommandations de films personnalisées utilisant le filtrage collaboratif par plus proches voisins basé sur les articles.
07.
Pratique du filtrage collaboratif à facteurs latents utilisant la factorisation matricielle
___Présentation du colis surprise
08.
Package Python pour système de recommandation - Surprise
Création d'un système de recommandation utilisant ___Surprise
Présentation des principaux modules de Surprise
Classe d'algorithme de recommandation surprise
___Score de référence
Validation croisée et optimisation des hyperparamètres
Création d'un système de recommandation de films personnalisé utilisant ___Surprise
09.
organiser
Chapitre 10 : Visualisation
01.
Premiers pas avec la visualisation - Présentation de Matplotlib et Seaborn
02.
Matplotlib
___Comprendre le module pyplot de Matplotlib
Comprendre deux éléments clés de __pyplot : les figures et les axes
Utilisation de la figure et des axes
___Créer des sous-graphiques avec plusieurs graphiques
Tracez un graphique linéaire à l'aide de la fonction plot() de pyplot.
Définissez le nom de l'axe, faites pivoter les valeurs des graduations de l'axe et définissez la légende.
Visualiser les graphiques individuels par sous-graphique en utilisant plusieurs sous-graphiques
03.
Seaborn
Types de graphiques pour la visualisation
Types de graphiques de visualisation selon le type d'information
___Histogramme
___plot
___barplot
Utilisez l'argument hue de la fonction ___barplot() pour affiner davantage les informations de visualisation.
Diagramme en boîte
___intrigue de violon
Visualisez différents graphiques dans Seaborn en utilisant ___subplots
Diagramme de dispersion
Carte thermique de corrélation
04.
organiser
01.
Le concept d'apprentissage automatique
Classification de l'apprentissage automatique
Guerres de données
___Comparaison de l'apprentissage automatique basé sur Python et R
02.
Principaux packages qui constituent l'écosystème d'apprentissage automatique Python
Installation de logiciels pour l'apprentissage automatique Python
03.
NumPy
Aperçu des tableaux NumPy
Type de données ___ndarray
Création pratique de ___ndarray - arange, zeros, ones
reshape() permet de modifier les dimensions et la taille de ___ndarray
Sélection d'un jeu de données à partir d'un tableau NumPy (ndarray) - Indexation
Tri d'une matrice - sort() et argsort()
Opérations d'algèbre linéaire - Produit scalaire et transposée de matrices
04.
Gestion des données - Pandas
Premiers pas avec Pandas : chargement de fichiers dans des DataFrames, API de base
Conversion d'un DataFrame en liste, dictionnaire et tableau NumPy
Création et modification d'ensembles de données de colonnes dans un DataFrame
Supprimer les données du DataFrame
Objet ___Index
___Sélection et filtrage des données
___Tri, fonction d'agrégation, application GroupBy
___Gestion des données manquantes
Traiter les données à l'aide de l'expression lambda ___apply
05.
organiser
Chapitre 2 : Apprentissage automatique avec Scikit-Learn
01.
Introduction et fonctionnalités de Scikit-learn
02.
Création de votre premier modèle d'apprentissage automatique - Prédiction des espèces d'iris
03.
Apprenez les bases de scikit-learn
Comprendre les méthodes `Estimator`, `fit()` et `predict()`
___Principaux modules de scikit-learn
___Ensembles de données d'exemple intégrés
04.
Présentation du module de sélection de modèle
___Séparer les ensembles de données d'entraînement et de test - train_test_split()
Validation croisée
___GridSearchCV - Validation croisée et optimisation des hyperparamètres en une seule étape 111
05.
prétraitement des données
encodage des données
___Mise à l'échelle et normalisation des caractéristiques
___StandardScaler
___MinMaxScaler
Éléments à prendre en compte lors de la mise à l'échelle des données d'entraînement et de test
06.
Prédire les survivants du Titanic avec Scikit-learn
07.
organiser
Chapitre 3 : Évaluation
01.
Précision
02.
Matrice d'erreur
03.
Précision et rappel
Compromis précision/rappel
___Points faibles en matière de précision et de rappel
04.
Score F1
05. Courbe ROC et AUC
06.
Prédiction du diabète chez les Indiens Pima
07.
organiser
Chapitre 4 : Classification
01.
Aperçu de la classification
02.
Arbre de décision
___Caractéristiques du modèle d'arbre de décision
Paramètres de l'arbre de décision
Visualisation des modèles d'arbres de décision
Surapprentissage des arbres de décision
Exercices sur les arbres de décision - Jeu de données de reconnaissance du comportement des utilisateurs
03.
apprentissage en ensemble
Aperçu de l'apprentissage en ensemble
Types de vote : vote fort et vote faible
___Classificateur de vote
04.
Forêt aléatoire
___Présentation et pratique des forêts aléatoires
___Hyperparamètres et optimisation des forêts aléatoires
___Présentation et pratique du GBM
05. GBM (Gradient Boosting Machine)
___Présentation des hyperparamètres GBM
Présentation de XGBoost
06. XGBoost (eXtra Gradient Boost)
___Installation de XGBoost
___Wrapper Python pour les hyperparamètres XGBoost
Application du wrapper Python XGBoost - Prédiction du cancer du sein dans le Wisconsin
___Présentation et application de XGBoost, un wrapper pour Scikit-Learn
07.
LightGBM
___Installation de LightGBM
___Hyperparamètres de LightGBM
Méthode de réglage des hyperparamètres
___Wrappers Python pour LightGBM et wrapper scikit-learn pour XGBoost,
___Comparaison des hyperparamètres de LightGBM
Application LightGBM - Prédiction du cancer du sein dans le Wisconsin
08.
Réglage des hyperparamètres à l'aide de HyperOpt basé sur l'optimisation bayésienne
Aperçu de l'optimisation bayésienne
___Utilisation d'HyperOpt
Optimisation des hyperparamètres de XGBoost à l'aide d'HyperOpt
09.
Exercice de classification - Prédiction de la satisfaction client chez Santander (Kaggle)
Prétraitement des données
Entraînement du modèle XGBoost et optimisation des hyperparamètres
Entraînement du modèle LightGBM et optimisation des hyperparamètres
10.
Exercices de classification - Détection de fraude à la carte de crédit sur Kaggle
Comprendre le sous-échantillonnage et le suréchantillonnage
Traitement primaire des données et apprentissage/prédiction/évaluation du modèle
Apprentissage/prédiction/évaluation du modèle après transformation de la distribution des données
Entraînement/prédiction/évaluation du modèle après suppression des données aberrantes
Entraînement/prédiction/évaluation du modèle après application du suréchantillonnage SMOTE
11.
Ensemble d'empilement
Modèle d'empilement de base
Empilement basé sur des ensembles CV
12.
organiser
Chapitre 5 : Régression
01.
Introduction à la régression
02.
Comprendre la régression à travers la régression linéaire simple
03.
Minimisation des coûts - Introduction à la descente de gradient
04.
Prédiction des prix de l'immobilier à Boston à l'aide de la régression linéaire Scikit-Learn
Cours de régression linéaire - Moindres carrés ordinaires
___Indice d'évaluation de la régression
Mise en œuvre d'une régression linéaire des prix de l'immobilier à Boston
05.
Comprendre la régression polynomiale et le surapprentissage/sous-apprentissage
Comprendre la régression polynomiale
Comprendre le sous-apprentissage et le surapprentissage à l'aide de la régression multinomiale
Compromis biais-variance
06.
Modèles linéaires régularisés - Ridge, Lasso, ElasticNet
___Aperçu du modèle linéaire réglementaire
Régression de crête
Régression Lasso
Régression ElasticNet
Transformation des données pour les modèles de régression linéaire
07.
régression logistique
08.
Arbre de régression
09.
Exercice de régression - Prévision de la demande de location de vélos
Nettoyage, traitement et visualisation des données
Transformation logarithmique, encodage des caractéristiques et entraînement/prédiction/évaluation du modèle
10.
Exercices de régression - Prix des maisons sur Kaggle : Techniques de régression avancées
Prétraitement des données
Entraînement, prédiction et évaluation du modèle de régression linéaire
Entraînement, prédiction et évaluation du modèle d'arbre de régression
Prédiction finale obtenue en combinant les résultats de prédiction du modèle de régression ___
Prédiction de régression à l'aide de modèles d'ensemble empilés
11.
organiser
Chapitre 6 : Réduction de dimensionnalité
01.
Aperçu de la réduction de dimension
02. ACP (Analyse en Composantes Principales)
Aperçu de l'APC
03. LDA (Analyse discriminante linéaire)
Aperçu de l'ALD
04. SVD (Décomposition en valeurs singulières)
Aperçu de la SVD
___Transformation utilisant la classe TruncatedSVD de scikit-learn
05. NMF (Factorisation de matrices non négatives)
Aperçu du NMF
06.
organiser
Chapitre 7 : Le clustering
01.
Comprendre l'algorithme K-Means
___Présentation de la classe KMeans de scikit-learn
Regroupement des données Iris à l'aide de l'algorithme K-means
Générer des données pour tester les algorithmes de clustering
02.
Évaluation par grappes
___Aperçu de l'analyse de silhouette
Évaluation du cluster à l'aide de l'ensemble de données ___iris
___Une méthode pour optimiser le nombre de clusters en visualisant le coefficient de silhouette moyen par cluster.
03.
moyenne mobile
Aperçu du décalage moyen
04. GMM (Modèle de mélange gaussien)
Introduction au modèle de mélange gaussien (GMM)
Regroupement des données Iris à l'aide d'un modèle gaussien mixte (GMM)
___Comparaison des méthodes GMM et K-Means
05. DBSCAN
Aperçu de DBSCAN
Application de DBSCAN - Jeu de données Iris
Application de DBSCAN - ensemble de données make_circles()
06.
Pratique du clustering - Segmentation client
Définition et techniques de segmentation client
Chargement et nettoyage des données
Traitement des données basé sur RFM
Segmentation client basée sur RFM
07.
organiser
Analyse de texte du chapitre 8
___NLP ou analyse de texte ?
01.
Comprendre l'analyse de texte
Processus d'analyse de texte
___Package d'analyse de texte et de traitement automatique du langage naturel basé sur Python
02.
Prétraitement du texte - Normalisation du texte
___Nettoyage
Tokenisation de texte
___Supprimer les mots vides
___Remmatisation et lemmatisation
03.
Sac de mots - ARC
Vectorisation des caractéristiques ___BOW
Implémentations de Count et de la vectorisation TF-IDF dans Scikit-learn : CountVectorizer, TfidfVectorizer
Matrices creuses pour la vectorisation BOW
Matrice creuse - Format COO
Matrice creuse - Format CSR
04.
Exercice de classification de textes - Classification de 20 groupes de discussion
Normalisation du texte
Transformation par vectorisation des caractéristiques et entraînement/prédiction/évaluation des modèles d'apprentissage automatique
Utilisation des pipelines scikit-learn et leur combinaison avec GridSearchCV
05.
Analyse des sentiments
Introduction à l'analyse des sentiments
Exercice d'analyse des sentiments par apprentissage supervisé - Critiques de films IMDB
___Présentation de l'analyse des sentiments basée sur l'apprentissage non supervisé
Analyse des sentiments à l'aide de SentiWordNet
Analyse des sentiments à l'aide de ___VADER
06.
Modélisation thématique - 20 groupes de discussion
07.
Introduction et pratique du regroupement de documents (ensemble de données d'avis d'opinion)
Concept de regroupement de documents
___Réalisation d'un regroupement de documents à l'aide de l'ensemble de données Opinion Review
Extraction des mots clés par groupe
08.
Similitude des documents
Méthode de mesure de la similarité des documents - Similarité cosinus
___Angle entre deux vecteurs
___Mesure de la similarité des documents à l'aide de l'ensemble de données d'évaluation des opinions
09.
Traitement de texte coréen - Analyse des sentiments des notes de films Naver
Difficultés liées au traitement automatique du langage naturel en coréen
___Présentation de KoNLPy
Chargement des données
10.
Pratique d'analyse de texte - Défi de suggestion de prix Kaggle Mercari
Prétraitement des données
Encodage et vectorisation des caractéristiques
Construction et évaluation d'un modèle de régression Ridge
___Construction d'un modèle de régression LightGBM et évaluation des prédictions finales à l'aide d'un ensemble
11.
organiser
Chapitre 9 : Systèmes de recommandation
01.
Aperçu et contexte des systèmes de recommandation
___Présentation du système de recommandation
Un élément essentiel des boutiques en ligne : les systèmes de recommandation
___Types de systèmes de recommandation
02.
Système de recommandation basé sur le filtrage du contenu
03.
Filtrage collaboratif du plus proche voisin
04.
Filtrage collaboratif à facteurs latents
Comprendre le filtrage collaboratif à facteurs latents
Comprendre la décomposition matricielle
Décomposition matricielle par descente de gradient stochastique
05.
Pratique du filtrage basé sur le contenu - Ensemble de données de films TMDB 5000
Filtrage des films basé sur le contenu à l'aide des attributs de ___genre
Chargement et traitement des données
Mesure de similarité du contenu du genre
Recommandations de films utilisant le filtrage de contenu par ___genre
06.
pratique de filtrage collaboratif basé sur les plus proches voisins des éléments
___Traitement et conversion des données
Calcul de la similarité entre ___films
Recommandations de films personnalisées utilisant le filtrage collaboratif par plus proches voisins basé sur les articles.
07.
Pratique du filtrage collaboratif à facteurs latents utilisant la factorisation matricielle
___Présentation du colis surprise
08.
Package Python pour système de recommandation - Surprise
Création d'un système de recommandation utilisant ___Surprise
Présentation des principaux modules de Surprise
Classe d'algorithme de recommandation surprise
___Score de référence
Validation croisée et optimisation des hyperparamètres
Création d'un système de recommandation de films personnalisé utilisant ___Surprise
09.
organiser
Chapitre 10 : Visualisation
01.
Premiers pas avec la visualisation - Présentation de Matplotlib et Seaborn
02.
Matplotlib
___Comprendre le module pyplot de Matplotlib
Comprendre deux éléments clés de __pyplot : les figures et les axes
Utilisation de la figure et des axes
___Créer des sous-graphiques avec plusieurs graphiques
Tracez un graphique linéaire à l'aide de la fonction plot() de pyplot.
Définissez le nom de l'axe, faites pivoter les valeurs des graduations de l'axe et définissez la légende.
Visualiser les graphiques individuels par sous-graphique en utilisant plusieurs sous-graphiques
03.
Seaborn
Types de graphiques pour la visualisation
Types de graphiques de visualisation selon le type d'information
___Histogramme
___plot
___barplot
Utilisez l'argument hue de la fonction ___barplot() pour affiner davantage les informations de visualisation.
Diagramme en boîte
___intrigue de violon
Visualisez différents graphiques dans Seaborn en utilisant ___subplots
Diagramme de dispersion
Carte thermique de corrélation
04.
organiser
Image détaillée
.jpg)
Avis de l'éditeur
Caractéristiques de ce livre
◎ Explications approfondies des principaux algorithmes d'apprentissage automatique, notamment la classification, la régression, la réduction de dimensionnalité et le clustering.
◎ Présentation des méthodes de configuration optimales des modèles d'apprentissage automatique, y compris le prétraitement des données, l'application de l'algorithme d'apprentissage automatique, le réglage des hyperparamètres et l'évaluation des performances.
◎ Explications détaillées et méthodes d'utilisation des techniques d'apprentissage automatique les plus récentes, telles que XGBoost, LightGBM et l'empilement.
◎ Apprenez des méthodes pratiques de développement d'applications d'apprentissage automatique en résolvant des problèmes Kaggle stimulants (par exemple, prédire la satisfaction client à la banque Santander, détecter la fraude à la carte de crédit, utiliser des techniques de régression avancées pour prédire les prix de l'immobilier et prédire les prix dans les centres commerciaux Mercari).
◎ Fournit des théories de base et divers exemples pratiques pour l'analyse de texte et le NLP (classification de texte, analyse des sentiments, modélisation thématique, similarité de documents, regroupement et similarité de documents, analyse des sentiments des films Naver à l'aide de KoNLPy, etc.)
Fournit des instructions pour construire différents systèmes de recommandation directement avec du code Python.
◎ Explications approfondies des principaux algorithmes d'apprentissage automatique, notamment la classification, la régression, la réduction de dimensionnalité et le clustering.
◎ Présentation des méthodes de configuration optimales des modèles d'apprentissage automatique, y compris le prétraitement des données, l'application de l'algorithme d'apprentissage automatique, le réglage des hyperparamètres et l'évaluation des performances.
◎ Explications détaillées et méthodes d'utilisation des techniques d'apprentissage automatique les plus récentes, telles que XGBoost, LightGBM et l'empilement.
◎ Apprenez des méthodes pratiques de développement d'applications d'apprentissage automatique en résolvant des problèmes Kaggle stimulants (par exemple, prédire la satisfaction client à la banque Santander, détecter la fraude à la carte de crédit, utiliser des techniques de régression avancées pour prédire les prix de l'immobilier et prédire les prix dans les centres commerciaux Mercari).
◎ Fournit des théories de base et divers exemples pratiques pour l'analyse de texte et le NLP (classification de texte, analyse des sentiments, modélisation thématique, similarité de documents, regroupement et similarité de documents, analyse des sentiments des films Naver à l'aide de KoNLPy, etc.)
Fournit des instructions pour construire différents systèmes de recommandation directement avec du code Python.
SPÉCIFICATIONS DES PRODUITS
- Date de publication : 21 avril 2022
Nombre de pages, poids, dimensions : 724 pages | 188 × 240 × 29 mm
- ISBN13 : 9791158393229
- ISBN10 : 1158393229
Vous aimerez peut-être aussi
카테고리
Langue coréenne
Langue coréenne