
Apprentissage automatique statistique avec Python
Description
Introduction au livre
L'apprentissage automatique désigne un modèle de science des données qui effectue des prédictions, des classifications, des réductions de dimensionnalité, des génération et des reproductions en utilisant uniquement des données fournies.
En statistique, les inférences statistiques telles que l'estimation, les tests et la prédiction sont réalisées à l'aide d'un niveau considérable de connaissances statistiques et mathématiques basées sur des hypothèses concernant les données.
Cependant, l'apprentissage automatique satisfait aux conditions de base des statistiques en divisant les données, en pondérant les échantillons, en rééchantillonnant et en randomisant, de sorte que de bonnes inférences statistiques peuvent être dérivées uniquement à partir des données fournies, sans aucune hypothèse sur ces données.
Par conséquent, la compréhension des principes fondamentaux des statistiques est essentielle pour comprendre les bases de l'apprentissage automatique et développer son propre modèle d'apprentissage automatique performant.
L'une des hypothèses fondamentales des statistiques est que les données fournies constituent un échantillon aléatoire issu d'une population inconnue, et qu'un tel échantillon aléatoire peut être extrait de manière répétée.
Un échantillon aléatoire signifie que les données ont été sélectionnées au hasard au sein d'une population inconnue. Autrement dit, les données recueillies sont choisies pour bien représenter la population inconnue.
La seconde hypothèse, l'échantillonnage aléatoire répété, permet un raisonnement théorique en statistique et constitue le fondement des statistiques mathématiques et de la théorie des probabilités.
Cependant, dans les problèmes du monde réel, on n'observe qu'un seul ensemble de données.
En apprentissage automatique, l'échantillonnage aléatoire et l'échantillonnage aléatoire répété en statistiques sont mis en œuvre en pratique par le biais de la division et du rééchantillonnage basés sur le brassage des données, et diverses inférences statistiques sont effectuées.
Aucune connaissance mathématique ou statistique supplémentaire n'est requise.
Contrairement aux statistiques, cette méthode ne repose pas sur l'hypothèse déraisonnable que le modèle est correct mais que ses paramètres sont inconnus. Au contraire, il est facile de vérifier la validité du modèle et des estimations des paramètres en divisant simplement les données.
Le rééchantillonnage permet une inférence statistique plus précise et, en particulier, permet un apprentissage d'ensemble appelé bagging.
L'attribution de pondérations en fonction de l'importance de chaque échantillon est appelée pondération des échantillons.
Les pondérations des échantillons sont utilisées dans toutes les techniques statistiques basées sur le voisinage des K plus proches et dans le boosting, un modèle de pointe, et sont utilisées dans la fonction de perte, qui est la fonction objectif pour l'estimation des paramètres dans l'apprentissage automatique.
La randomisation est un moyen important de vérifier si le modèle a appris même du bruit inutile.
Par conséquent, si vous lisez et comprenez ce livre en gardant à l'esprit les mots clés suivants : division, pondération des échantillons, rééchantillonnage et randomisation, vous pouvez considérer que vous avez acquis une compréhension de la manière dont les principes fondamentaux des statistiques et la méthodologie de l'apprentissage automatique sont intégrés.
Vous pourrez alors poursuivre sans grande difficulté votre exploration des modèles d'analyse d'IA, depuis l'apprentissage automatique statistique, qui est le sujet de ce livre, jusqu'à l'apprentissage profond, l'apprentissage par renforcement, l'IA explicable et même l'analyse des séries temporelles si nécessaire.
Dans cette optique, la lecture attentive du chapitre 1 et l'exécution du code fourni vous permettront de comprendre par l'expérience les quatre mots-clés mentionnés ci-dessus.
J'ai fait de mon mieux pour faire un bon livre, mais il peut y avoir quelques imperfections.
Nous vous remercions de votre compréhension à ce sujet, et toute modification qui pourrait survenir après la publication sera disponible dans la salle de données du site web de Free Academy (www.freeaca.com), veuillez donc vous y référer.
Enfin, je tiens à exprimer ma gratitude à Jinse Park, qui m'a aidé à élaborer le schéma conceptuel de ce livre, ainsi qu'à ma femme et à ma fille adorées, qui m'ont apporté un soutien et un amour sans faille.
En statistique, les inférences statistiques telles que l'estimation, les tests et la prédiction sont réalisées à l'aide d'un niveau considérable de connaissances statistiques et mathématiques basées sur des hypothèses concernant les données.
Cependant, l'apprentissage automatique satisfait aux conditions de base des statistiques en divisant les données, en pondérant les échantillons, en rééchantillonnant et en randomisant, de sorte que de bonnes inférences statistiques peuvent être dérivées uniquement à partir des données fournies, sans aucune hypothèse sur ces données.
Par conséquent, la compréhension des principes fondamentaux des statistiques est essentielle pour comprendre les bases de l'apprentissage automatique et développer son propre modèle d'apprentissage automatique performant.
L'une des hypothèses fondamentales des statistiques est que les données fournies constituent un échantillon aléatoire issu d'une population inconnue, et qu'un tel échantillon aléatoire peut être extrait de manière répétée.
Un échantillon aléatoire signifie que les données ont été sélectionnées au hasard au sein d'une population inconnue. Autrement dit, les données recueillies sont choisies pour bien représenter la population inconnue.
La seconde hypothèse, l'échantillonnage aléatoire répété, permet un raisonnement théorique en statistique et constitue le fondement des statistiques mathématiques et de la théorie des probabilités.
Cependant, dans les problèmes du monde réel, on n'observe qu'un seul ensemble de données.
En apprentissage automatique, l'échantillonnage aléatoire et l'échantillonnage aléatoire répété en statistiques sont mis en œuvre en pratique par le biais de la division et du rééchantillonnage basés sur le brassage des données, et diverses inférences statistiques sont effectuées.
Aucune connaissance mathématique ou statistique supplémentaire n'est requise.
Contrairement aux statistiques, cette méthode ne repose pas sur l'hypothèse déraisonnable que le modèle est correct mais que ses paramètres sont inconnus. Au contraire, il est facile de vérifier la validité du modèle et des estimations des paramètres en divisant simplement les données.
Le rééchantillonnage permet une inférence statistique plus précise et, en particulier, permet un apprentissage d'ensemble appelé bagging.
L'attribution de pondérations en fonction de l'importance de chaque échantillon est appelée pondération des échantillons.
Les pondérations des échantillons sont utilisées dans toutes les techniques statistiques basées sur le voisinage des K plus proches et dans le boosting, un modèle de pointe, et sont utilisées dans la fonction de perte, qui est la fonction objectif pour l'estimation des paramètres dans l'apprentissage automatique.
La randomisation est un moyen important de vérifier si le modèle a appris même du bruit inutile.
Par conséquent, si vous lisez et comprenez ce livre en gardant à l'esprit les mots clés suivants : division, pondération des échantillons, rééchantillonnage et randomisation, vous pouvez considérer que vous avez acquis une compréhension de la manière dont les principes fondamentaux des statistiques et la méthodologie de l'apprentissage automatique sont intégrés.
Vous pourrez alors poursuivre sans grande difficulté votre exploration des modèles d'analyse d'IA, depuis l'apprentissage automatique statistique, qui est le sujet de ce livre, jusqu'à l'apprentissage profond, l'apprentissage par renforcement, l'IA explicable et même l'analyse des séries temporelles si nécessaire.
Dans cette optique, la lecture attentive du chapitre 1 et l'exécution du code fourni vous permettront de comprendre par l'expérience les quatre mots-clés mentionnés ci-dessus.
J'ai fait de mon mieux pour faire un bon livre, mais il peut y avoir quelques imperfections.
Nous vous remercions de votre compréhension à ce sujet, et toute modification qui pourrait survenir après la publication sera disponible dans la salle de données du site web de Free Academy (www.freeaca.com), veuillez donc vous y référer.
Enfin, je tiens à exprimer ma gratitude à Jinse Park, qui m'a aidé à élaborer le schéma conceptuel de ce livre, ainsi qu'à ma femme et à ma fille adorées, qui m'ont apporté un soutien et un amour sans faille.
- Vous pouvez consulter un aperçu du contenu du livre.
Aperçu
indice
Chapitre 1 : Principes des statistiques et de l'apprentissage automatique
1.1 Que sont de bonnes données ?
1.2 Le rôle du modèle et du terme d'erreur
1.3 Division, pondération et rééchantillonnage des données
1.4 Apprentissage automatique statistique, apprentissage profond et apprentissage par renforcement
1.5 Modèles d'IA et fonctions de perte
1.6 Procédure d'analyse des données, résumé du modèle
1.7 Connaissances en IA requises pour les data scientists
Chapitre 2 Prétraitement et optimisation
2.1 Conversion en données réelles
2.2 Caractéristiques des données
2.3 Analyse de cas
2.4 Gestion des données déséquilibrées
2.5 Sélection des variables caractéristiques
2.6 Fonction de perte et optimisation
Chapitre 3 Visualisation des données
3.1 AutoViz
3.2 Bamboolib
3.3 Plotly
Chapitre 4 - Les K plus proches voisins
4.1 Application de KNN
4.2 Estimation de la fonction de distribution du noyau
Chapitre 5 Classification par régression logistique
5.1 Neurones linéaires adaptatifs
5.2 Régression logistique
5.3 Régularisation contre le surapprentissage
5.4 Régression logistique avec Scikit
Chapitre 6 Analyse discriminante et modèles bayésiens simples
6.1 Analyse discriminante
6.2 Modèle bayésien simple
6.3 Modèles LDA et Bayes simples utilisant Scikit-learn
Chapitre 7 Arbres de classification et de régression
7.1 Arbre de régression
7.2 Arbre de classification
7.3 Arbres de décision utilisant Scikit-learn
Chapitre 8 Machines à vecteurs de support
8.1 Machine à vecteurs de support
8.2 SVM du noyau
8.3 SVM utilisant Scikit-learn
Chapitre 9 Réduction de dimensionnalité
9.1 Décomposition en valeurs singulières
9.2 ACP probabiliste
9.3 ACP du noyau
9.4 Analyse factorielle
9.5 Réduction de dimensionnalité par analyse discriminante linéaire
9.6 Réduction de dimensionnalité pour la visualisation
9.7 Réduction de dimensionnalité avec Scikit-learn
Chapitre 10 Analyse des erreurs, partitionnement des données et ajustement des hyperparamètres
10.1 Analyse des erreurs
10.2 Partitionnement des données
10.3 Optimisation des hyperparamètres
10.4 Validation croisée
Chapitre 11 Analyse de régression
11.1 Modèle de régression linéaire
11.2 Régression quantile
11.3 Régression robuste
11.4 Régression SVM et régression SVM à noyau
11.5 Modèle de régression linéaire régularisée
11.6 Analyse de régression à l'aide de Scikit-learn
Chapitre 12 Groupes
12.1 Clustering K-means
12.2 Classification hiérarchique
12.3 DBSCAN et HDBSCAN
12.4 Clustering à l'aide de Scikit-learn
Chapitre 13 Apprentissage d'ensemble
13.1 Bagging, Pasting et Random Forest
13.2 Caractéristiques de l'apprentissage automatique statistique pour l'apprentissage d'ensemble
13.3 Adaboost
13.4 Boost de gradient
13.5 XGBoost
13,6 LightGBM
13.7 CatBoost
13.8 Cas d'application
Chapitre 14 : Comparaison et caractéristiques de XGBoost, LightGBM et CatBoost
14.1 Comparaison avec les modèles statistiques traditionnels : régression
14.2 Importance et efficacité des variables de caractéristiques dans XGBoost, LightGBM et CatBoost
14.3 Comparaison avec les modèles statistiques traditionnels : Classification
Chapitre 15 : Ensachage et boost
15.1 Arbre de décision
15.2 Forêt aléatoire
15.3 Boost de gradient
15.4 Classification
Chapitre 16 : Caractéristiques et optimisation des hyperparamètres dans XGBoost, LightGBM et CatBoost
16.1 Comparaison de la vitesse de convergence
16.2 Comparaison et optimisation des hyperparamètres
16.3 Gestion des données déséquilibrées
Chapitre 17 Métamodèles et automatisation des modèles
17.1 Métamodèle
17.2 Automatisation du modèle
Chapitre 18 Analyse des sentiments
18.1 Analyse des sentiments
18.2 Étude de cas utilisant Python
Références
Explication du problème pratique
Recherche
1.1 Que sont de bonnes données ?
1.2 Le rôle du modèle et du terme d'erreur
1.3 Division, pondération et rééchantillonnage des données
1.4 Apprentissage automatique statistique, apprentissage profond et apprentissage par renforcement
1.5 Modèles d'IA et fonctions de perte
1.6 Procédure d'analyse des données, résumé du modèle
1.7 Connaissances en IA requises pour les data scientists
Chapitre 2 Prétraitement et optimisation
2.1 Conversion en données réelles
2.2 Caractéristiques des données
2.3 Analyse de cas
2.4 Gestion des données déséquilibrées
2.5 Sélection des variables caractéristiques
2.6 Fonction de perte et optimisation
Chapitre 3 Visualisation des données
3.1 AutoViz
3.2 Bamboolib
3.3 Plotly
Chapitre 4 - Les K plus proches voisins
4.1 Application de KNN
4.2 Estimation de la fonction de distribution du noyau
Chapitre 5 Classification par régression logistique
5.1 Neurones linéaires adaptatifs
5.2 Régression logistique
5.3 Régularisation contre le surapprentissage
5.4 Régression logistique avec Scikit
Chapitre 6 Analyse discriminante et modèles bayésiens simples
6.1 Analyse discriminante
6.2 Modèle bayésien simple
6.3 Modèles LDA et Bayes simples utilisant Scikit-learn
Chapitre 7 Arbres de classification et de régression
7.1 Arbre de régression
7.2 Arbre de classification
7.3 Arbres de décision utilisant Scikit-learn
Chapitre 8 Machines à vecteurs de support
8.1 Machine à vecteurs de support
8.2 SVM du noyau
8.3 SVM utilisant Scikit-learn
Chapitre 9 Réduction de dimensionnalité
9.1 Décomposition en valeurs singulières
9.2 ACP probabiliste
9.3 ACP du noyau
9.4 Analyse factorielle
9.5 Réduction de dimensionnalité par analyse discriminante linéaire
9.6 Réduction de dimensionnalité pour la visualisation
9.7 Réduction de dimensionnalité avec Scikit-learn
Chapitre 10 Analyse des erreurs, partitionnement des données et ajustement des hyperparamètres
10.1 Analyse des erreurs
10.2 Partitionnement des données
10.3 Optimisation des hyperparamètres
10.4 Validation croisée
Chapitre 11 Analyse de régression
11.1 Modèle de régression linéaire
11.2 Régression quantile
11.3 Régression robuste
11.4 Régression SVM et régression SVM à noyau
11.5 Modèle de régression linéaire régularisée
11.6 Analyse de régression à l'aide de Scikit-learn
Chapitre 12 Groupes
12.1 Clustering K-means
12.2 Classification hiérarchique
12.3 DBSCAN et HDBSCAN
12.4 Clustering à l'aide de Scikit-learn
Chapitre 13 Apprentissage d'ensemble
13.1 Bagging, Pasting et Random Forest
13.2 Caractéristiques de l'apprentissage automatique statistique pour l'apprentissage d'ensemble
13.3 Adaboost
13.4 Boost de gradient
13.5 XGBoost
13,6 LightGBM
13.7 CatBoost
13.8 Cas d'application
Chapitre 14 : Comparaison et caractéristiques de XGBoost, LightGBM et CatBoost
14.1 Comparaison avec les modèles statistiques traditionnels : régression
14.2 Importance et efficacité des variables de caractéristiques dans XGBoost, LightGBM et CatBoost
14.3 Comparaison avec les modèles statistiques traditionnels : Classification
Chapitre 15 : Ensachage et boost
15.1 Arbre de décision
15.2 Forêt aléatoire
15.3 Boost de gradient
15.4 Classification
Chapitre 16 : Caractéristiques et optimisation des hyperparamètres dans XGBoost, LightGBM et CatBoost
16.1 Comparaison de la vitesse de convergence
16.2 Comparaison et optimisation des hyperparamètres
16.3 Gestion des données déséquilibrées
Chapitre 17 Métamodèles et automatisation des modèles
17.1 Métamodèle
17.2 Automatisation du modèle
Chapitre 18 Analyse des sentiments
18.1 Analyse des sentiments
18.2 Étude de cas utilisant Python
Références
Explication du problème pratique
Recherche
Image détaillée

SPÉCIFICATIONS DES PRODUITS
- Date de publication : 25 octobre 2023
- Nombre de pages, poids, dimensions : 532 pages | 188 × 257 × 35 mm
- ISBN13 : 9791158085346
- ISBN10 : 1158085346
Vous aimerez peut-être aussi
카테고리
Langue coréenne
Langue coréenne