Passer aux informations sur le produit
Exploration de données massives 3e édition
Exploration de données massives 3e édition
Description
Introduction au livre
Le développement du web, des médias sociaux, des activités mobiles, des capteurs, du commerce électronique et de nombreuses autres applications génère des quantités massives de données, et l'exploration de données permet d'en extraire des informations utiles.
Cet ouvrage aborde les principaux défis de l'exploration de données et se concentre sur des algorithmes pratiques applicables aux données à grande échelle.
  • Vous pouvez consulter un aperçu du contenu du livre.
    Aperçu

indice
Chapitre 1.
exploration de données


1.1 Qu'est-ce que l'exploration de données ?
1.1.1 Modélisation
1.1.2 Modélisation statistique
1.1.3 Apprentissage automatique
1.1.4 Approche informatique de la modélisation
1.1.5 Résumé
1.1.6 Extraction de caractéristiques
1.2 Limites statistiques de l'exploration de données
1.2.1 Reconnaissance intégrée de l'information
1.2.2 Théorie de Bonferroni
1.2.3 Exemple de la théorie de Bonferroni
1.2.4 Section 1.2 Exercices pratiques
1.3 Informations utiles à connaître
1.3.1 Importance des mots dans les documents
1.3.2 Fonction de hachage
1.3.3 Index
1.3.4 Dispositifs de stockage auxiliaires
1.3.5 Base des logarithmes naturels
1.3.6 Loi de puissance
1.3.7 Section 1.3 Problèmes pratiques
1.4 Aperçu de ce livre
1.5 Résumé
1.6 Références

Chapitre 2.
MapReduce et une nouvelle pile logicielle


2.1 Système de fichiers distribué
2.1.1 Structure physique des nœuds
2.1.2 Structure du système de fichiers volumineux
2.2 MapReduce
2.2.1 Tâche de cartographie
2.2.2 Regroupement par clé
2.2.3 Réduire la tâche
2.2.4 Combineur
2.2.5 Explication plus détaillée de l'exécution de MapReduce
2.2.6 Gestion des défaillances de nœuds
2.2.7 Section 2.2 Exercices pratiques
2.3 Algorithmes utilisant MapReduce
2.3.1 Multiplication matrice-vecteur à l'aide de MapReduce
2.3.2 Si le vecteur v n'est pas chargé dans la mémoire principale
2.3.3 Opérations d'algèbre relationnelle
2.3.4 Opérations de sélection à l'aide de MapReduce
2.3.5 Opérations d'extraction à l'aide de MapReduce
2.3.6 Opérations d'union, d'intersection et de différence avec MapReduce
2.3.7 Opérations de jointure naturelle avec MapReduce
2.3.8 Opérations de regroupement et d'agrégation à l'aide de MapReduce
2.3.9 Multiplication matricielle
2.3.10 Multiplication matricielle à l'aide de MapReduce en une étape
2.3.11 Section 2.3 Exercices pratiques
2.4 Extension de MapReduce
2.4.1 Système de flux de travail
2.4.2 Spark
2.4.3 Implémentation de Spark
2.4.4 TensorFlow
2.4.5 Extension récursive de MapReduce
2.4.6 Système synchrone en vrac
2.4.7 Section 2.4 Exercices pratiques
2.5 Modèle de coût de communication
2.5.1 Coûts de communication dans les réseaux de tâches
2.5.2 Heure de l'horloge murale
2.5.3 Jointures multiples
2.5.4 Section 2.5 Exercices pratiques
2.6 Théorie de la complexité pour MapReduce
2.6.1 Taille du réducteur et taux de réplication
2.6.2 Exemple : Jointure par similarité
2.6.3 Modèles graphiques pour les problèmes MapReduce
2.6.4 Schéma de mappage
2.6.5 Si toutes les entrées ne sont pas fournies
2.6.6 Limite inférieure du taux de réplication
2.6.7 Étude de cas : Multiplication matricielle
2.6.8 Section 2.6 Exercices pratiques
2.7 Résumé
2.8 Références

Chapitre 3.
Trouver des articles similaires


3.1 Applications de la similarité ensembliste
3.1.1 Similitude de Jaccard des ensembles
3.1.2 Similarité des documents
3.1.3 Filtrage collaboratif dans les problèmes d'ensembles similaires
3.1.4 Section 3.1 Problèmes pratiques
3.2 Regroupement des documents
3.2.1 k-shingle
3.2.2 Choix de la taille du bardeau
3.2.3 Hachage des zonas
3.2.4 Zona à base de mots
3.2.5 Section 3.2 Exercices pratiques
3.3 Résumé de la préservation de la similarité des ensembles
3.3.1 Représentation matricielle des ensembles
3.3.2 Min Haesing
3.3.3 Similitude de Min Haesing et Jacquard
3.3.4 Signature de la ville de Minhae
3.3.5 Réalité de l'opération de signature de Minhaesi
3.3.6 Amélioration de la vitesse de minhashing
3.3.7 Amélioration de la vitesse grâce aux fonctions de hachage
3.3.8 Section 3.3 Problèmes pratiques
3.4 Hachage basé sur la localité des documents
3.4.1 Signature LSH de la ville de Minhae
3.4.2 Analyse des techniques de segmentation de bandes
3.4.3 Techniques de combinaison
3.4.4 Section 3.4 Exercices pratiques
3.5 Mesure de distance
3.5.1 Définition de la méthode de mesure de distance
3.5.2 Distance euclidienne
3.5.3 Distance Jacquard
3.5.4 Distance cosinus
3.5.5 Distance d'édition
3.5.6 Distance de Hamming
3.5.7 Section 3.5 Problèmes pratiques
3.6 Théorie des fonctions basées sur la localité
3.6.1 Fonctions basées sur la localité
3.6.2 Fonctions basées sur la localité pour la distance de Jaccard
3.6.3 Extension des fonctions basées sur la localité
3.6.4 Section 3.6 Problèmes pratiques
3.7 Familles de fonctions LSH pour d'autres mesures de distance
3.7.1 Famille de fonctions LSH pour la distance de Hamming
3.7.2 Hyperplans aléatoires et distance cosinus
3.7.3 Esquisse
3.7.4 Famille LSH de fonctions de distance euclidienne
3.7.5 Une description plus détaillée de la famille des fonctions LSH dans l'espace euclidien
3.7.6 Section 3.7 Exercices pratiques
3.8 Applications de hachage basées sur la localité
3.8.1 Identification des objets
3.8.2 Exemple d'identification d'objet
3.8.3 Détermination de la correspondance des enregistrements
3.8.4 Lecture des empreintes digitales
3.8.5 Famille de fonctions LSH pour la lecture d'empreintes digitales
3.8.6 Articles de journaux similaires
3.8.7 Section 3.8 Problèmes pratiques
3.9 Méthode de traitement à haute similarité
3.9.1 Recherche d'articles identiques
3.9.2 Représentation sous forme de chaîne de caractères des ensembles
3.9.3 Filtrage basé sur la longueur
3.9.4 Indexation par préfixe
3.9.5 Utilisation des informations de localisation
3.9.6 Utilisation de la position et de la longueur de l'index
3.9.7 Section 3.9 Exercices pratiques
3.10 Résumé
3.11 Références

Chapitre 4.
Exploration de données en flux continu


4.1 Modèle de données de flux
4.1.1 Système de gestion des flux de données
4.1.2 Exemple de source de flux
4.1.3 Requêtes de flux
4.1.4 Problèmes liés au traitement de flux
4.2 Échantillonnage des données du flux
4.2.1 Exemples de motivation
4.2.2 Échantillonnage représentatif
4.2.3 Problèmes généraux d'échantillonnage
4.2.4 Vérification de la taille de l'échantillon
4.2.5 Section 4.2 Exercices pratiques
4.3 Filtrage des flux
4.3.1 Exemples de motivation
4.3.2 Filtre de Bloom
4.3.3 Analyse par filtrage de Bloom
4.3.4 Section 4.3 Exercices pratiques
4.4 Comptage du nombre d'éléments dans un flux après suppression des doublons
4.4.1 Nombre d'éléments dont les doublons ont été supprimés
4.4.2 Algorithme de Flazzolet-Martin
4.4.3 Combinaison d'approximations
4.4.4 Exigences d'espace
4.4.5 Section 4.4 Exercices pratiques
4.5 Approximation des moments
4.5.1 Définition du moment
4.5.2 Algorithme d'Alon-Mathias-Szegedy pour les seconds instants
4.5.3 Fonctionnement de l'algorithme d'Alon-Mathias-Szegedy
4.5.4 Moment élevé
4.5.5 Gestion des flux infinis
4.5.6 Section 4.5 Exercices pratiques
4,6 Compte dans Windows
4.6.1 Coût d'un comptage précis
4.6.2 Algorithme Datar-Gionis-Indique-Motwani
4.6.3 Besoins en espace pour l'algorithme DGIM
4.6.4 Réponse aux requêtes avec l'algorithme DGIM
4.6.5 Maintien des conditions DGIM
4.6.6 Réduction des erreurs
4.6.7 Extension au dénombrement général
4.6.8 Section 4.6 Exercices pratiques
4.7 Fenêtre d'atténuation
4.7.1 Problème de la recherche d'éléments fréquents
4.7.2 Définition de la fenêtre d'atténuation
4.7.3 Trouver les éléments les plus populaires
4.8 Résumé
4.9 Références

Chapitre 5.
Analyse des liens


5.1 PageRank
5.1.1 Premiers moteurs de recherche et spam de termes
5.1.2 Définition de PageRank
5.1.3 Structure du Web
5.1.4 Éviter les impasses
5.1.5 Pièges à araignées et taxation
5.1.6 Utilisation du PageRank dans les moteurs de recherche
5.1.7 Section 5.1 Problèmes pratiques
5.2 Fonctionnement efficace de PageRank
5.2.1 Représentation de la matrice de transition
5.2.2 Itération PageRank utilisant MapReduce
5.2.3 Utilisation d'un combinateur pour sommer les vecteurs de résultat
5.2.4 Représentation par blocs de la matrice de transition
5.2.5 Autres approches efficaces pour le calcul itératif du PageRank
5.2.6 Section 5.2 Exercices pratiques
5.3 PageRank basé sur les sujets
5.3.1 La nécessité d'un PageRank basé sur les sujets
5.3.2 Marche aléatoire biaisée
5.3.3 Utilisation du PageRank basé sur les sujets
5.3.4 Déduire des thèmes à partir des mots
5.3.5 Section 5.3 Problèmes pratiques
5.4 Spam de liens
5.4.1 Structure d'une ferme de spam
5.4.2 Analyse des fermes à spam
5.4.3 Lutte contre le spam de liens
5.4.4 TrustRank
5.4.5 Envoi massif de spams
5.4.6 Section 5.4 Exercices pratiques
5.5 Centres et autorités
5.5.1 Compréhension intuitive des HITS
5.5.2 Formulation de l'indice de hub et de l'indice d'autorité
5.5.3 Exercices pratiques de la section 5.5
5.6 Résumé
5.7 Références

Chapitre 6.
ensemble d'éléments fréquents


6.1 Modèle de panier d'achat
6.1.1 Définition des ensembles d'éléments fréquents
6.1.2 Applications des ensembles d'éléments fréquents
6.1.3 Règles de l'association
6.1.4 Recherche de règles d'association à haute confiance
6.1.5 Section 6.1 Problèmes pratiques
6.2 Paniers de marché et algorithmes a priori
6.2.1 Représentation des données du panier d'achat
6.2.2 Utilisation de la mémoire principale pour compter les ensembles d'éléments
6.2.3 Monotonie des ensembles d'éléments
6.2.4 Conclusion sur le nombre de paires
6.2.5 Algorithmes a priori
6.2.6 Algorithmes a priori pour tous les ensembles d'éléments fréquents
6.2.7 Exercices pratiques de la section 6.2
6.3 Traitement de grands ensembles de données en mémoire principale
6.3.1 Algorithme PCY
6.3.2 Algorithme multi-étapes
6.3.3 Algorithmes de hachage multiples
6.3.4 Section 6.3 Problèmes pratiques
6.4 Algorithme de limitation par étapes
6.4.1 Algorithme aléatoire simple
6.4.2 Prévention des erreurs dans les algorithmes d'échantillonnage
6.4.3 Algorithme SON
6.4.4 Algorithme SON et MapReduce
6.4.5 Algorithme de Toivonen
6.4.6 Pourquoi l'algorithme de Toivonen fonctionne
6.4.7 Exercices pratiques de la section 6.4
6.5 Comptage des éléments fréquents dans un flux
6.5.1 Méthodes d'échantillonnage des cours d'eau
6.5.2 Ensembles d'éléments fréquents dans les fenêtres délabrées
6.5.3 Combinaison de techniques
6.5.4 Exercices pratiques de la section 6.5
6.6 Résumé
6.7 Références

Chapitre 7.
Clustering


7.1 Aperçu des techniques de clustering
7.1.1 Points, espaces et distances
7.1.2 Stratégie de regroupement
7.1.3 La malédiction des dimensions
7.1.4 Exercices pratiques de la section 7.1
7.2 Classification hiérarchique
7.2.1 Classification hiérarchique dans l'espace euclidien
7.2.2 Efficacité du clustering hiérarchique
7.2.3 Autres règles de traitement de regroupement hiérarchique
7.2.4 Classification hiérarchique dans les espaces non euclidiens
7.2.5 Exercices pratiques de la section 7.2
7.3 Algorithme des k-moyennes
7.3.1 Principes de base du k-means
7.3.2 Initialisation des clusters pour k-Means
7.3.3 Choix d'une valeur de k appropriée
7.3.4 Algorithme BFR
7.3.5 Traitement des données de l'algorithme BFR
7.3.6 Exercices pratiques de la section 7.3
7.4 Algorithme CURE
7.4.1 Initialisation dans CURE
7.4.2 Arrêt de l'algorithme CURE
7.4.3 Exercices pratiques de la section 7.4
7.5 Classification dans des espaces non euclidiens
7.5.1 Méthode de représentation des clusters de l'algorithme GRGPF
7.5.2 Initialisation de l'arbre de cluster
7.5.3 Ajout de points dans l'algorithme GRGPF
7.5.4 Division et fusion de clusters
7.5.5 Section 7.5 Exercices pratiques
7.6 Clustering et traitement parallèle des flux de données
7.6.1 Modèle d'exploitation des flux
7.6.2 Algorithme de regroupement de flux
7.6.3 Initialisation du compartiment
7.6.4 Fusion de compartiments
7.6.5 Réponses aux questions
7.6.6 Clustering dans les environnements distribués
7.6.7 Section 7.6 Exercices pratiques
7.7 Résumé
7.8 Références

Chapitre 8.
La publicité sur le web

8.1 Sujets liés à la publicité en ligne
8.1.1 Opportunités publicitaires
8.1.2 Placement direct des annonces
8.1.3 Problèmes liés à la publicité display
8.2 Algorithme en ligne
8.2.1 Algorithmes en ligne et hors ligne
8.2.2 Algorithme glouton
8.2.3 Taux de concurrence
8.2.4 Exercices pratiques de la section 8.2
8.3 Problèmes de combinaison
8.3.1 Combinaisons et combinaisons parfaites
8.3.2 Algorithme glouton pour trouver la meilleure combinaison
8.3.3 Taux de concurrence des combinaisons gourmandes
8.3.4 Section 8.3 Problèmes pratiques
8.4 Problèmes liés à AdWords
8.4.1 Historique de la publicité sur les moteurs de recherche
8.4.2 Définition des problèmes AdWords
8.4.3 Une approche gourmande du problème AdWords
8.4.4 Algorithme d'équilibrage
8.4.5 Limite inférieure du taux de concurrence de l'algorithme d'équilibrage
8.4.6 Algorithme d'équilibrage pour plusieurs enchérisseurs
8.4.7 Généralisation de l'algorithme d'équilibrage
8.4.8 Informations finales concernant les problèmes liés à AdWords
8.4.9 Section 8.4 Problèmes pratiques
8.5 Mise en œuvre d'AdWords
8.5.1 Combinaison des enchères et des requêtes de recherche
8.5.2 Problèmes de combinaison plus complexes
8.5.3 Algorithme de combinaison des documents et des annonces d'enchères
8.6 Résumé
8.7 Références

Chapitre 9.
Système de recommandation


9.1 Modèle de système de recommandation
9.1.1 Matrices multi-objectifs
9.1.2 Longue queue
9.1.3 Applications des systèmes de recommandation
9.1.4 Génération de matrices polyvalentes
9.2 Recommandations basées sur le contenu
9.2.1 Profil de l'article
9.2.2 Extraction de caractéristiques à partir de documents
9.2.3 Caractéristiques de l'article obtenues à partir des étiquettes
9.2.4 Représentation du profil de l'élément
9.2.5 Profils des utilisateurs
9.2.6 Recommandations d'articles basées sur le contenu
9.2.7 Algorithme de classification
9.2.8 Section 9.2 Exercices pratiques
9.3 Filtrage collaboratif
9.3.1 Mesure de similarité
9.3.2 Dualité de la similitude
9.3.3 Regroupement des utilisateurs et des éléments
9.3.4 Section 9.3 Problèmes pratiques
9.4 Réduction dimensionnelle
9.4.1 Décomposition UV
9.4.2 Erreur quadratique moyenne
9.4.3 Calcul par étapes de la décomposition UV
9.4.4 Optimisation par éléments aléatoires
9.4.5 Implémentation de l'algorithme de décomposition UV complet
9.4.6 Section 9.4 Exercices pratiques
Défi Netflix 9.5
9.6 Résumé
9.7 Références

Chapitre 10.
Exploration de graphes de réseaux sociaux


10.1 Graphique de réseau social
10.1.1 Qu'est-ce qu'un réseau social ?
10.1.2 Les réseaux sociaux comme graphes
10.1.3 Divers réseaux sociaux
10.1.4 Réseaux avec différents types de nœuds
10.1.5 Section 10.1 Problèmes pratiques
10.2 Clustering de graphes de réseaux sociaux
10.2.1 Métriques de distance dans les graphes de réseaux sociaux
10.2.2 Application des méthodes de clustering standard
10.2.3 Fiabilité
10.2.4 Algorithme de Govern-Newman
10.2.5 Trouver des communautés grâce à la relayabilité
10.2.6 Section 10.2 Exercices pratiques
10.3 Découverte directe de la communauté
10.3.1 Trouver un groupe
10.3.2 Graphe complètement biparti
10.3.3 Recherche de sous-graphes complètement bipartis
10.3.4 Pourquoi les graphes bipartis complets doivent exister
10.3.5 Section 10.3 Problèmes pratiques
10.4 Partitionnement de graphes
10.4.1 Quelle est une bonne façon de partitionner ?
10.4.2 Normalisation de la ligne de séparation
10.4.3 Matrices décrivant des graphes
10.4.4 Valeurs propres de la matrice de Laplace
10.4.5 Une autre méthode de partitionnement
10.4.6 Section 10.4 Exercices pratiques
10.5 Trouver des communautés qui se chevauchent
10.5.1 La nature de la communauté
10.5.2 Estimation du maximum de vraisemblance
10.5.3 Modèle de graphe d'affiliation
10.5.4 Optimisation discrète de l'allocation communautaire
10.5.5 Comment éviter les changements d'appartenance discrets
10.5.6 Section 10.5 Exercices pratiques
10,6 Classement de similarité
10.6.1 Marcheur aléatoire dans les graphes sociaux
10.6.2 Marcheur aléatoire avec redémarrage
10.6.3 Classement de similarité approximatif
10.6.4 Pourquoi le classement par similarité approximative fonctionne
10.6.5 Application du classement par similarité pour la recherche de communautés
10.6.6 Section 10.6 Exercices pratiques
10.7 Compter le nombre de triangles
10.7.1 Pourquoi compter les triangles ?
10.7.2 Algorithme de recherche de triangles
10.7.3 Efficacité de l'algorithme de recherche de triangles
10.7.4 Recherche de triangles à l'aide de MapReduce
10.7.5 Utiliser moins de tâches
10.7.6 Section 10.7 Exercices pratiques
10.8 Caractéristiques de voisinage des graphiques
10.8.1 Graphes orientés et voisins
10.8.2 Diamètre du graphique
10.8.3 Clôture transitive et accessibilité
10.8.4 Accessibilité via MapReduce
10.8.5 Évaluation semi-naïve
10.8.6 Fermeture transitive linéaire
10.8.7 Clôture transitive par doublement récursif
10.8.8 Fermeture transitive intelligente
10.8.9 Comparaison des méthodes
10.8.10 Fermeture transitive par réduction de graphes
10.8.11 Estimation de la taille des voisins
10.8.12 Section 10.8 Exercices pratiques
10.9 Résumé
10.10 Références

Chapitre 11.
Réduction de dimension


11.1 Valeurs propres et vecteurs propres des matrices symétriques
11.1.1 Définition
11.1.2 Calcul des valeurs propres et des vecteurs propres
11.1.3 Recherche des paires propres à l'aide de la méthode des carrés répétés
11.1.4 Matrice des vecteurs propres
11.1.5 Exercices pratiques de la section 11.1
11.2 Analyse en composantes principales
11.2.1 Exemples pour aider à expliquer
11.2.2 Utilisation des vecteurs propres pour la réduction de dimensionnalité
11.2.3 Matrice de distance
11.2.4 Exercices pratiques de la section 11.2
11.3 Décomposition en valeurs singulières
11.3.1 Définition de la SVD
11.3.2 Interprétation de la SVD
11.3.3 Réduction de dimensionnalité par SVD
11.3.4 Pourquoi la suppression des petites valeurs aberrantes fonctionne
11.3.5 Requêtes utilisant des concepts
11.3.6 Calcul de la SVD d'une matrice
11.3.7 Section 11.3 Problèmes pratiques
11.4 Décomposition du CUR
11.4.1 Définition de CUR
11.4.2 Sélection appropriée des lignes et des colonnes
11.4.3 Configuration de la matrice intermédiaire
11.4.4 Démontage de CUR terminé
11.4.5 Suppression des lignes et colonnes en double
11.4.6 Section 11.4 Exercices pratiques
11.5 Résumé
11.6 Références

Chapitre 12.
apprentissage automatique à grande échelle


12.1 Modèles d'apprentissage automatique
12.1.1 Ensemble d'entraînement
12.1.2 Exemples pour aider à expliquer
12.1.3 Techniques d'apprentissage automatique
12.1.4 Structure de l'apprentissage automatique
12.1.5 Exercices pratiques de la section 12.1
12.2 Perceptron
12.2.1 Entraînement d'un perceptron avec un seuil de 0
12.2.2 Convergence du perceptron
12.2.3 Algorithme de sélection
12.2.4 Autoriser les modifications du seuil
12.2.5 Perceptron multiclasse
12.2.6 Transformation de l'ensemble d'entraînement
12.2.7 Problèmes liés au perceptron
12.2.8 Implémentation parallèle du perceptron
12.2.9 Section 12.2 Exercices pratiques
12.3 Machines à vecteurs de support
12.3.1 Fonctionnement des SVM
12.3.2 Régularisation par hyperplan
12.3.3 Recherche du meilleur séparateur d'approximation
12.3.4 Solution SVM par descente de gradient
12.3.5 Descente de gradient stochastique
12.3.6 Implémentation parallèle des SVM
12.3.7 Exercices pratiques de la section 12.3
12.4 Apprentissage par le plus proche voisin
12.4.1 Cadre de calcul des plus proches voisins
12.4.2 Apprentissage par le plus proche voisin
12.4.3 Apprentissage des fonctions unidimensionnelles
12.4.4 Analyse de régression à noyau
12.4.5 Traitement des données euclidiennes de grande dimension
12.4.6 Traitement des distances non euclidiennes
12.4.7 Exercices pratiques de la section 12.4
12.5 Arbre de décision
12.5.1 Utilisation des arbres de décision
12.5.2 Mesure des impuretés
12.5.3 Conception des nœuds de l'arbre de décision
12.5.4 Sélection des tests à l'aide de caractéristiques numériques
12.5.5 Sélection des tests à l'aide de variables catégorielles
12.5.6 Conception parallèle d'arbres de décision
12.5.7 Élagage des nœuds
12.5.8 Forêt de décision
12.5.9 Exercices pratiques de la section 12.5
12.6 Comparaison des méthodes d'apprentissage
12.7 Résumé
12.8 Références

Chapitre 13.
Réseaux neuronaux et apprentissage profond


13.1 Introduction aux réseaux neuronaux
13.1.1 Réseaux neuronaux
13.1.2 Interconnexion entre les nœuds
13.1.3 Réseaux neuronaux convolutifs
13.1.4 Problèmes de conception des réseaux neuronaux
13.1.5 Exercices pratiques de la section 13.1
13.2 Réseaux à propagation directe haute densité
13.2.1 Notation de l'algèbre linéaire
13.2.2 Fonction d'activation
13.2.3 Sigmoïde
13.2.4 Tangente hyperbolique
13.2.5 Softmax
13.2.6 Unité linéaire de redressement
13.2.7 Fonction de perte
13.2.8 Perte de régression
13.2.9 Perte de classification
13.2.10 Section 13.2 Exercices pratiques
13.3 Rétropropagation et descente de gradient
13.3.1 Graphe de calcul
13.3.2 Pente, jacobien et règle de la chaîne
13.3.3 Algorithme de rétropropagation
13.3.4 Descente en pente répétée
13.3.5 Tenseurs
13.3.6 Exercices pratiques de la section 13.3
13.4 Réseaux neuronaux convolutifs
13.4.1 Couche de convolution
13.4.2 Convolution et corrélation croisée
13.4.3 Couche de mise en commun
13.4.4 Architecture CNN
13.4.5 Mise en œuvre et apprentissage
13.4.6 Section 13.4 Exercices pratiques
13.5 Réseaux neuronaux récurrents
13.5.1 Entraînement du RNN
13.5.2 Perte de pente et explosion
13.5.3 Mémoire à court et à long terme
13.5.4 Exercices pratiques de la section 13.5
13.6 Régularisation
13.6.1 pénalité de norme
13.6.2 Abandon
13.6.3 Résiliation anticipée
13.6.4 Augmentation des données
13.7 Résumé
13.8 Références

Avis de l'éditeur
Ce que ce livre couvre

- Système de fichiers distribué et MapReduce, un outil permettant de créer des algorithmes parallèles capables de traiter de grandes quantités de données.
- Technologies fondamentales des algorithmes de hachage basés sur la localité et de la recherche de similarités
- Traitement des flux de données et algorithmes spécialisés pour la gestion des données saisies très rapidement et qui seraient autrement perdues si elles n'étaient pas traitées immédiatement.
- Les technologies des moteurs de recherche, notamment le PageRank de Google, la détection du spam de liens et les techniques de hub et d'autorité.
- Règles d'association, modèles de panier d'achat, algorithmes a priori et leurs améliorations, et extraction d'ensembles d'éléments fréquents
- Un algorithme de clustering pour les grands ensembles de données multidimensionnels.
- Deux problèmes liés aux applications web : la publicité et les systèmes de recommandation.
- Algorithmes d'analyse et d'exploration de très grandes structures, telles que les graphes de réseaux sociaux.
- Techniques d'extraction d'attributs importants à partir de données à grande échelle par décomposition en valeurs singulières, indexation sémantique latente et réduction de dimensionnalité.
- Algorithmes d'apprentissage automatique applicables aux données à grande échelle, tels que le perceptron, la machine à vecteurs de support et la descente de gradient.
Réseaux neuronaux et apprentissage profond, y compris des cas particuliers tels que les réseaux neuronaux convolutifs, les réseaux neuronaux récurrents et les réseaux de mémoire à long terme.

Public cible de ce livre

Rédigé par d'éminents spécialistes des bases de données et des technologies web, cet ouvrage est une lecture incontournable pour les étudiants comme pour les professionnels.
Ce livre convient aux lecteurs qui maîtrisent le processus suivant.

- Introduction aux systèmes de bases de données, couvrant SQL et les systèmes de programmation associés.
- Structures de données, algorithmes et mathématiques discrètes de niveau universitaire de deuxième année
- Systèmes logiciels, génie logiciel et programmation (niveau universitaire de deuxième année)
langue

Note de l'auteur

Ce livre a débuté comme une série de conférences données sur plusieurs années à l'université de Stanford par les professeurs Anand Rajaraman et Jeff Ullman.
Bien que le cours CS345A, intitulé « Exploration du Web », ait été proposé comme un cours de niveau supérieur, il a également attiré d'excellents étudiants de premier cycle.
Après la prise de fonction du professeur Jure Leskovec à Stanford, le contenu a été considérablement remanié.
Il a créé un nouveau cours d'analyse de réseaux, CS224W, et a complété le contenu du cours CS345A, qui a été renommé CS246.
De plus, les trois professeurs ont ouvert un cours sur les projets d'exploration de données à grande échelle, CS341.
Ce livre s'appuie sur les éléments des trois conférences mentionnées ci-dessus.

Note du traducteur

Aujourd'hui, même évoquer la monotonie du terme « big data » semble aussi fastidieux que le terme lui-même.
Cependant, ce livre explique comment appliquer les techniques d'exploration de données aux mégadonnées selon une approche réaliste et sans prétention.
Elle propose des solutions utiles en classant chaque technique selon les cas où elle peut être stockée en mémoire et ceux où elle ne peut pas l'être.

Progressivement, la science des données devient une évidence, et non plus une connaissance optionnelle, pour les statisticiens et les ingénieurs des secteurs connexes.
Peut-être avons-nous ouvert ce livre pour étudier le bon sens de l'avenir.
Cet ouvrage aborde simultanément les statistiques, l'exploration de données et l'informatique, tout en présentant ces trois domaines en détail et de manière harmonieuse.
Grâce à cela, il a l'avantage d'être suffisamment approfondi pour être utile dans le travail pratique, même s'il s'agit d'un manuel universitaire (http://www.mmds.org/).
En même temps, il présente l'inconvénient d'être un ouvrage difficile à appréhender aussi bien pour les statisticiens que pour les ingénieurs.
Permettez-moi donc de commencer par partager quelques conseils qui vous aideront à étudier ce livre.

1.
Le texte original peut être téléchargé gratuitement à l'adresse URL ci-dessous.
Si un passage vous semble difficile à comprendre avec la seule traduction, veuillez le retrouver dans le texte original et le lire calmement trois fois.
http://infolab.stanford.edu/~ullman/mmds/book0n.pdf

2.
Comme il s'agit d'un manuel universitaire, la méthode de développement est déductive et rigide, ce qui peut la rendre difficile à comprendre.
Même si vous ne comprenez pas la première partie de chaque section, veuillez la lire rapidement puis consulter les exemples.
Après avoir lu l'exemple, il sera plus facile de comprendre en reprenant la théorie du début.

Les statisticiens et les ingénieurs abordent le domaine de la science des données sous des angles différents.
Alors que les statisticiens s'intéressent davantage aux intervalles de confiance et aux mesures d'incertitude, les programmeurs s'intéressent davantage à la rapidité de mise en œuvre et aux résultats obtenus grâce à l'apprentissage automatique.
En résumé, Josh Wills (https://twitter.com/josh_wills/) a déclaré :

« Un data scientist est un ingénieur logiciel qui comprend les statistiques mieux que la plupart, et un statisticien qui comprend le génie logiciel mieux que la plupart. »

Mais cela ne suffit pas à lui seul pour discuter des qualités d'un analyste.
Lorsqu'on analyse des données sur le terrain, on se rend compte que la connaissance du domaine des données et le savoir-faire en matière d'analyse sont primordiaux.
Et parfois, pour bien comprendre le domaine, il arrive un moment où une formation en sciences humaines est nécessaire.
La qualité et la quantité des données elles-mêmes sont plus importantes que les théories ou les techniques, et en fin de compte, la création de valeur à partir des données dépend des compétences de l'analyste.
-Parc Hyo-gyun

Face à l'explosion du volume de données, les besoins en matière de traitement et d'analyse s'accroissent. Aucune technologie ne peut à elle seule répondre à cette demande, rendant l'intégration interdisciplinaire indispensable.
Les tentatives d'intégration interdisciplinaire existent depuis longtemps, mais jamais auparavant un tel effort n'avait été aussi efficace.
Étant donné que les disciplines des statistiques, de l'informatique et de l'exploration de données reposent sur les mathématiques, le phénomène actuel de résolution de problèmes complexes par leur intégration pourrait être une conséquence inévitable.
La technologie qui a rendu cela possible ne peut être que mentionnée : Hadoop.


Nul ne peut nier l'importance d'Hadoop, technologie essentielle au traitement des mégadonnées et qui exerce encore une influence considérable aujourd'hui.
C’est pourquoi ce livre explique les méthodes de traitement des données basées sur MapReduce.

Si vous n'avez pas de formation académique en statistiques, en informatique et en techniques d'exploration de données, vous vous retrouverez souvent déconcerté par des termes inconnus qui apparaissent soudainement.
Dans de tels cas, il est bon de rechercher le terme pertinent, d'en comprendre le contenu, puis de passer à autre chose, ou bien il est bon de comprendre d'abord le contexte général, puis d'organiser les termes détaillés.
Quoi qu'il en soit, j'encourage tous les lecteurs qui ont ouvert ce livre à se renseigner sur l'exploration de données massives, et j'espère que grâce à cela, ils deviendront étudiants, ingénieurs et praticiens.
En tant que traductrice, j'ai eu du mal à choisir la terminologie.


Même si les statistiques sont un facteur déterminant, la plupart des termes utilisés en informatique et en exploration de données perdent souvent leur sens ou deviennent plus difficiles à comprendre lorsqu'ils sont traduits en coréen.
Par conséquent, la priorité est donnée au coréen, mais si le terme est plus couramment utilisé en anglais dans la pratique, il est translittéré plutôt que traduit en coréen.
Un exemple représentatif est la traduction de « clustering » par « clustering ».
En pratique, personne n'appelle le « clustering » « clustering ».
Je tiens à exprimer ma plus profonde gratitude à mon co-traducteur, Park Hyo-gyun, ami et collègue de longue date dans le même secteur, pour son soutien et ses conseils indéfectibles.
-Lee Mi-jeong
SPÉCIFICATIONS DES PRODUITS
- Date de publication : 29 avril 2021
- Format : Guide de reliure de livres à couverture rigide
Nombre de pages, poids, dimensions : 786 pages | 180 × 254 × 37 mm
- ISBN13 : 9791161755137
- ISBN10 : 1161755136

Vous aimerez peut-être aussi

카테고리