Passer aux informations sur le produit
Apprentissage automatique statistique avec Python
Apprentissage automatique statistique avec Python
Description
Introduction au livre
L'apprentissage automatique désigne un modèle de science des données qui effectue des prédictions, des classifications, des réductions de dimensionnalité, des génération et des reproductions en utilisant uniquement des données fournies.
En statistique, les inférences statistiques telles que l'estimation, les tests et la prédiction sont réalisées à l'aide d'un niveau considérable de connaissances statistiques et mathématiques basées sur des hypothèses concernant les données.
Cependant, l'apprentissage automatique satisfait aux conditions de base des statistiques en divisant les données, en pondérant les échantillons, en rééchantillonnant et en randomisant, de sorte que de bonnes inférences statistiques peuvent être dérivées uniquement à partir des données fournies, sans aucune hypothèse sur ces données.
Par conséquent, la compréhension des principes fondamentaux des statistiques est essentielle pour comprendre les bases de l'apprentissage automatique et développer son propre modèle d'apprentissage automatique performant.

L'une des hypothèses fondamentales des statistiques est que les données fournies constituent un échantillon aléatoire issu d'une population inconnue, et qu'un tel échantillon aléatoire peut être extrait de manière répétée.
Un échantillon aléatoire signifie que les données ont été sélectionnées au hasard au sein d'une population inconnue. Autrement dit, les données recueillies sont choisies pour bien représenter la population inconnue.
La seconde hypothèse, l'échantillonnage aléatoire répété, permet un raisonnement théorique en statistique et constitue le fondement des statistiques mathématiques et de la théorie des probabilités.

Cependant, dans les problèmes du monde réel, on n'observe qu'un seul ensemble de données.
En apprentissage automatique, l'échantillonnage aléatoire et l'échantillonnage aléatoire répété en statistiques sont mis en œuvre en pratique par le biais de la division et du rééchantillonnage basés sur le brassage des données, et diverses inférences statistiques sont effectuées.
Aucune connaissance mathématique ou statistique supplémentaire n'est requise.
Contrairement aux statistiques, cette méthode ne repose pas sur l'hypothèse déraisonnable que le modèle est correct mais que ses paramètres sont inconnus. Au contraire, il est facile de vérifier la validité du modèle et des estimations des paramètres en divisant simplement les données.
Le rééchantillonnage permet une inférence statistique plus précise et, en particulier, permet un apprentissage d'ensemble appelé bagging.
L'attribution de pondérations en fonction de l'importance de chaque échantillon est appelée pondération des échantillons.
Les pondérations des échantillons sont utilisées dans toutes les techniques statistiques basées sur le voisinage des K plus proches et dans le boosting, un modèle de pointe, et sont utilisées dans la fonction de perte, qui est la fonction objectif pour l'estimation des paramètres dans l'apprentissage automatique.
La randomisation est un moyen important de vérifier si le modèle a appris même du bruit inutile.

Par conséquent, si vous lisez et comprenez ce livre en gardant à l'esprit les mots clés suivants : division, pondération des échantillons, rééchantillonnage et randomisation, vous pouvez considérer que vous avez acquis une compréhension de la manière dont les principes fondamentaux des statistiques et la méthodologie de l'apprentissage automatique sont intégrés.
Vous pourrez alors poursuivre sans grande difficulté votre exploration des modèles d'analyse d'IA, depuis l'apprentissage automatique statistique, qui est le sujet de ce livre, jusqu'à l'apprentissage profond, l'apprentissage par renforcement, l'IA explicable et même l'analyse des séries temporelles si nécessaire.
Dans cette optique, la lecture attentive du chapitre 1 et l'exécution du code fourni vous permettront de comprendre par l'expérience les quatre mots-clés mentionnés ci-dessus.

J'ai fait de mon mieux pour faire un bon livre, mais il peut y avoir quelques imperfections.
Nous vous remercions de votre compréhension à ce sujet, et toute modification qui pourrait survenir après la publication sera disponible dans la salle de données du site web de Free Academy (www.freeaca.com), veuillez donc vous y référer.
Enfin, je tiens à exprimer ma gratitude à Jinse Park, qui m'a aidé à élaborer le schéma conceptuel de ce livre, ainsi qu'à ma femme et à ma fille adorées, qui m'ont apporté un soutien et un amour sans faille.
  • Vous pouvez consulter un aperçu du contenu du livre.
    Aperçu

indice
Chapitre 1 : Principes des statistiques et de l'apprentissage automatique

1.1 Que sont de bonnes données ?
1.2 Le rôle du modèle et du terme d'erreur
1.3 Division, pondération et rééchantillonnage des données
1.4 Apprentissage automatique statistique, apprentissage profond et apprentissage par renforcement
1.5 Modèles d'IA et fonctions de perte
1.6 Procédure d'analyse des données, résumé du modèle
1.7 Connaissances en IA requises pour les data scientists

Chapitre 2 Prétraitement et optimisation

2.1 Conversion en données réelles
2.2 Caractéristiques des données
2.3 Analyse de cas
2.4 Gestion des données déséquilibrées
2.5 Sélection des variables caractéristiques
2.6 Fonction de perte et optimisation

Chapitre 3 Visualisation des données

3.1 AutoViz
3.2 Bamboolib
3.3 Plotly

Chapitre 4 - Les K plus proches voisins

4.1 Application de KNN
4.2 Estimation de la fonction de distribution du noyau

Chapitre 5 Classification par régression logistique

5.1 Neurones linéaires adaptatifs
5.2 Régression logistique
5.3 Régularisation contre le surapprentissage
5.4 Régression logistique avec Scikit

Chapitre 6 Analyse discriminante et modèles bayésiens simples

6.1 Analyse discriminante
6.2 Modèle bayésien simple
6.3 Modèles LDA et Bayes simples utilisant Scikit-learn

Chapitre 7 Arbres de classification et de régression

7.1 Arbre de régression
7.2 Arbre de classification
7.3 Arbres de décision utilisant Scikit-learn

Chapitre 8 Machines à vecteurs de support

8.1 Machine à vecteurs de support
8.2 SVM du noyau
8.3 SVM utilisant Scikit-learn

Chapitre 9 Réduction de dimensionnalité

9.1 Décomposition en valeurs singulières
9.2 ACP probabiliste
9.3 ACP du noyau
9.4 Analyse factorielle
9.5 Réduction de dimensionnalité par analyse discriminante linéaire
9.6 Réduction de dimensionnalité pour la visualisation
9.7 Réduction de dimensionnalité avec Scikit-learn

Chapitre 10 Analyse des erreurs, partitionnement des données et ajustement des hyperparamètres

10.1 Analyse des erreurs
10.2 Partitionnement des données
10.3 Optimisation des hyperparamètres
10.4 Validation croisée

Chapitre 11 Analyse de régression

11.1 Modèle de régression linéaire
11.2 Régression quantile
11.3 Régression robuste
11.4 Régression SVM et régression SVM à noyau
11.5 Modèle de régression linéaire régularisée
11.6 Analyse de régression à l'aide de Scikit-learn

Chapitre 12 Groupes

12.1 Clustering K-means
12.2 Classification hiérarchique
12.3 DBSCAN et HDBSCAN
12.4 Clustering à l'aide de Scikit-learn

Chapitre 13 Apprentissage d'ensemble

13.1 Bagging, Pasting et Random Forest
13.2 Caractéristiques de l'apprentissage automatique statistique pour l'apprentissage d'ensemble
13.3 Adaboost
13.4 Boost de gradient
13.5 XGBoost
13,6 LightGBM
13.7 CatBoost
13.8 Cas d'application

Chapitre 14 : Comparaison et caractéristiques de XGBoost, LightGBM et CatBoost

14.1 Comparaison avec les modèles statistiques traditionnels : régression
14.2 Importance et efficacité des variables de caractéristiques dans XGBoost, LightGBM et CatBoost
14.3 Comparaison avec les modèles statistiques traditionnels : Classification

Chapitre 15 : Ensachage et boost

15.1 Arbre de décision
15.2 Forêt aléatoire
15.3 Boost de gradient
15.4 Classification

Chapitre 16 : Caractéristiques et optimisation des hyperparamètres dans XGBoost, LightGBM et CatBoost

16.1 Comparaison de la vitesse de convergence
16.2 Comparaison et optimisation des hyperparamètres
16.3 Gestion des données déséquilibrées

Chapitre 17 Métamodèles et automatisation des modèles

17.1 Métamodèle
17.2 Automatisation du modèle

Chapitre 18 Analyse des sentiments

18.1 Analyse des sentiments
18.2 Étude de cas utilisant Python

Références
Explication du problème pratique
Recherche

Image détaillée
Image détaillée 1
SPÉCIFICATIONS DES PRODUITS
- Date de publication : 25 octobre 2023
- Nombre de pages, poids, dimensions : 532 pages | 188 × 257 × 35 mm
- ISBN13 : 9791158085346
- ISBN10 : 1158085346

Vous aimerez peut-être aussi

카테고리