
Le guide complet de Google BigQuery
Description
Introduction au livre
Tout ce que vous devez savoir sur le big data, l'ingénierie des données et l'apprentissage automatique pour l'analyse et le traitement des données à grande échelle.
Créez un espace de travail collaboratif et agile tout en traitant des ensembles de données à l'échelle du pétaoctet.
Ce livre est un guide de référence sur Google BigQuery, un moteur de requêtes qui intègre les données extraites de toute l'entreprise et permet l'analyse interactive des données et l'apprentissage automatique sur de grands ensembles de données.
BigQuery permet aux entreprises de stocker, d'interroger, de collecter et d'exploiter efficacement leurs données dans un cadre unique et pratique.
Dans cet ouvrage, les auteurs Baliappa Lakshmanan et Jordan Tigani présentent les meilleures pratiques pour l'entreposage de données moderne basé sur une architecture sans serveur qui s'adapte automatiquement sur le cloud public.
Ce guide conviendra parfaitement aux lecteurs qui débutent avec BigQuery et souhaitent obtenir une vue d'ensemble de ses fonctionnalités, ainsi qu'à ceux qui veulent utiliser BigQuery pour résoudre des tâches spécifiques.
Créez un espace de travail collaboratif et agile tout en traitant des ensembles de données à l'échelle du pétaoctet.
Ce livre est un guide de référence sur Google BigQuery, un moteur de requêtes qui intègre les données extraites de toute l'entreprise et permet l'analyse interactive des données et l'apprentissage automatique sur de grands ensembles de données.
BigQuery permet aux entreprises de stocker, d'interroger, de collecter et d'exploiter efficacement leurs données dans un cadre unique et pratique.
Dans cet ouvrage, les auteurs Baliappa Lakshmanan et Jordan Tigani présentent les meilleures pratiques pour l'entreposage de données moderne basé sur une architecture sans serveur qui s'adapte automatiquement sur le cloud public.
Ce guide conviendra parfaitement aux lecteurs qui débutent avec BigQuery et souhaitent obtenir une vue d'ensemble de ses fonctionnalités, ainsi qu'à ceux qui veulent utiliser BigQuery pour résoudre des tâches spécifiques.
- Vous pouvez consulter un aperçu du contenu du livre.
Aperçu
indice
[Chapitre 1] Google BigQuery
Architecture de traitement des données
Système de gestion de bases de données relationnelles
Cadre MapReduce
BigQuery : un moteur SQL sans serveur et distribué
Utilisation de BigQuery
Tirer des enseignements de plusieurs ensembles de données
__ETL, EL, ELT
__Une analyse puissante
__Simplicité de la gestion
Comment BigQuery a été créé
Comment BigQuery pourrait être implémenté
Séparation du calcul et du stockage
Infrastructure de stockage et de réseau
Stockage géré
__Intégration avec Google Cloud Platform
__Sécurité et conformité
organiser
[Chapitre 2] Principes fondamentaux des requêtes
Requête simple
Recherche de lignes avec __SELECT
Attribuer un alias à un nom de colonne avec __AS
Filtrer par __OÙ
__SELECT *, SAUF, REMPLACER
Sous-requêtes utilisant __WITH
Trier avec __ORDER BY
Agrégation
Agréguer avec __GROUP BY
Comptage des enregistrements avec __COUNT
Filtrer les éléments regroupés par __HAVING
Trouver des valeurs uniques avec __DISTINCT
Notions de base sur les tableaux et les structures
Création d'un tableau avec __ARRAY_AGG
Tableau de __structures
__tuple
__Utilisation des tableaux
Déballage du tableau
Jointure de table
__Comment fonctionne Join
__inner join
__Jointure croisée
__Jointure externe
Enregistrer et partager
Journalisation et mise en cache des requêtes
__Requêtes enregistrées
Comparaison des vues et des requêtes partagées
organiser
[Chapitre 3] Types de données, fonctions et opérateurs
Types et fonctions numériques
fonction mathématique
__Spécification standard Division en virgule flottante
Fonction __SAFE
__comparaison
Calculs décimaux précis utilisant __NUMERIC
Gestion des booléens
Opérations logiques
__expression conditionnelle
Gestion propre des valeurs NULL avec __COALESCE
__Conversion de type et coercition de type
Utiliser COUNTIF pour éviter la conversion booléenne
Fonctions de chaînes de caractères
__Internationalisation
Sortie et analyse
Fonctions de manipulation de chaînes de caractères
Fonction de conversion
__Expression régulière
__Résumé des fonctions de chaînes de caractères
Gestion des horodatages
Analyse et mise en forme des valeurs d'horodatage
__Extraire les informations du calendrier
__Calcul des horodatages
Date, heure et date/heure
Utilisation des fonctions SIG
organiser
[Chapitre 4] Chargement des données avec BigQuery
La méthode la plus élémentaire
Chargement des données locales
__Spécifiez le schéma
__Copier dans une nouvelle table
Gestion des données (DDL et DML)
Chargement efficace des données
Requêtes intégrées et sources de données externes
__Utilisation d'une requête unifiée
__Cas d'utilisation des requêtes unifiées et des sources de données externes
Exploration et interrogation interactives des données Google Sheets
Requêtes SQL sur les données dans Cloud Bigtable
Transmission et exportation
Service de transfert de données
__Exporter les journaux Stackdriver
Lecture et écriture de données BigQuery avec Cloud Dataflow
Migration des données sur site
__Comment migrer des données
organiser
[Chapitre 5] Développement avec BigQuery
Développement utilisant des méthodes de programmation
__Utilisation de l'API REST
Bibliothèque cliente Google Cloud
Utilisation de BigQuery dans les outils de science des données
__Carnet de notes sur Google Cloud Platform
Une combinaison de BigQuery, Pandas et Jupyter
Gérer BigQuery avec R
Flux de données dans le cloud
Pilote JDBC/ODBC
Intégrer des données BigQuery dans Google Slides au sein de G Suite
BigQuery et les scripts Bash
Création d'ensembles de données et de tables
__Exécution de la requête
Objet __BigQuery
organiser
[Chapitre 6] Architecture de BigQuery
Jetez un coup d'œil à l'architecture
Durée de vie d'une requête
Mise à niveau de BigQuery
Moteur de requêtes (Dremel)
__Architecture Dremel
__Exécuter la requête
Stockage
__Données de stockage
__métadonnées
organiser
[Chapitre 7] Optimisation des performances et des coûts
Principes fondamentaux de l'optimisation des performances
Éléments clés de la performance
__Maîtriser les coûts
Mesure et dépannage
Mesure de la vitesse des requêtes avec l'API REST
Mesurer la vitesse des requêtes avec BigQuery Workload Tester
Résolution des problèmes de charge de travail avec Stackdriver
__Lire les informations du plan d'exécution de la requête
__Obtenir les informations du plan de requête à partir des détails de la tâche
Visualisation des informations du plan de requête
Accélérez vos requêtes
__minimisation des E/S
__Mettre en cache les résultats de la requête précédente
Rejoignez-nous efficacement
Éviter de surcharger le travailleur
Utilisation de fonctions agrégées approximatives
Optimisation des méthodes de stockage et d'accès aux données
__Minimiser la surcharge du réseau
__Choisir un format de stockage efficace
Partitionnement des tables pour réduire la taille de l'analyse
__Regroupement des tables basé sur des clés de cardinalité élevée
__Cas d'utilisation indépendants du temps
organiser
__Liste de contrôle
[Chapitre 8] Requêtes avancées
Requêtes réutilisables
__Requêtes paramétrées
Fonctions SQL définies par l'utilisateur
Réutilisation de parties d'une requête
SQL avancé
__Gestion des tableaux
fonction __window
Métadonnées du tableau
Langage de définition de données et langage de manipulation de données
Au-delà du SQL
Fonctions JavaScript définies par l'utilisateur
__Scripting
Fonctions avancées
Système d'information géographique BigQuery
Fonctions statistiques utiles
algorithme de hachage
organiser
[Chapitre 9] Apprentissage automatique avec BigQuery
Qu'est-ce que l'apprentissage automatique ?
__Formulation du problème d'apprentissage automatique
__Types de problèmes d'apprentissage automatique
Création d'un modèle de régression
__Sélectionnez une étiquette
__Exploration de l'ensemble de données pour trouver des caractéristiques
__Créer un ensemble de données d'apprentissage
__Formation et évaluation des modèles
Prédire avec un modèle __
__Vérification du poids du modèle
__Modèles de régression plus complexes
Création d'un modèle de classification
__apprentissage
__évaluation
__prédiction
__Choisissez une valeur seuil
Personnalisation de BigQuery ML
__Contrôle du partitionnement des données
__Équilibrage des classes
__Normalisation
clustering k-means
__Que regrouper
Regroupement des stations de location de vélos
__Effectuer un clustering
__Comprendre les clusters
__Prise de décision fondée sur les données
Système de recommandation
Ensemble de données __MovieLens
__Décomposition matricielle
__Créer une recommandation
__Intégration des informations sur les utilisateurs et les films
Modèles d'apprentissage automatique personnalisés sur GCP
Réglage des hyperparamètres
__AutoML
Prise en charge de TensorFlow
organiser
[Chapitre 10] Gestion et sécurité de BigQuery
Sécurité des infrastructures
Gestion des comptes et des accès
__compte
__rôle
__Ressource
Gestion BigQuery
Gestion des tâches
__Accorder l'autorisation à l'utilisateur
__Récupérer les enregistrements et les tables supprimés
Intégration continue / Livraison continue
Tableaux de bord, surveillance et journalisation des audits
Disponibilité, reprise après sinistre et chiffrement
Zone, région et multirégion
__BigQuery et la gestion des erreurs
Durabilité, sauvegarde et reprise après sinistre
Confidentialité et chiffrement
Respect des réglementations
__Localité des données
__Restreindre l'accès aux services de données
__Supprimer toutes les transactions liées à une personne
Prévention des pertes de données
__CMEK
Protection contre les fuites de données
organiser
[Annexe spéciale de l'édition coréenne] Création d'un pipeline ELT avec Cloud Composer et BigQuery
Vue d'ensemble du pipeline ELT
Qu'est-ce que Cloud Composer ?
Création et configuration de Cloud Composer
Interface utilisateur du serveur Web Cloud Composer
Création d'un DAG
Création d'un pipeline ELT
Architecture de traitement des données
Système de gestion de bases de données relationnelles
Cadre MapReduce
BigQuery : un moteur SQL sans serveur et distribué
Utilisation de BigQuery
Tirer des enseignements de plusieurs ensembles de données
__ETL, EL, ELT
__Une analyse puissante
__Simplicité de la gestion
Comment BigQuery a été créé
Comment BigQuery pourrait être implémenté
Séparation du calcul et du stockage
Infrastructure de stockage et de réseau
Stockage géré
__Intégration avec Google Cloud Platform
__Sécurité et conformité
organiser
[Chapitre 2] Principes fondamentaux des requêtes
Requête simple
Recherche de lignes avec __SELECT
Attribuer un alias à un nom de colonne avec __AS
Filtrer par __OÙ
__SELECT *, SAUF, REMPLACER
Sous-requêtes utilisant __WITH
Trier avec __ORDER BY
Agrégation
Agréguer avec __GROUP BY
Comptage des enregistrements avec __COUNT
Filtrer les éléments regroupés par __HAVING
Trouver des valeurs uniques avec __DISTINCT
Notions de base sur les tableaux et les structures
Création d'un tableau avec __ARRAY_AGG
Tableau de __structures
__tuple
__Utilisation des tableaux
Déballage du tableau
Jointure de table
__Comment fonctionne Join
__inner join
__Jointure croisée
__Jointure externe
Enregistrer et partager
Journalisation et mise en cache des requêtes
__Requêtes enregistrées
Comparaison des vues et des requêtes partagées
organiser
[Chapitre 3] Types de données, fonctions et opérateurs
Types et fonctions numériques
fonction mathématique
__Spécification standard Division en virgule flottante
Fonction __SAFE
__comparaison
Calculs décimaux précis utilisant __NUMERIC
Gestion des booléens
Opérations logiques
__expression conditionnelle
Gestion propre des valeurs NULL avec __COALESCE
__Conversion de type et coercition de type
Utiliser COUNTIF pour éviter la conversion booléenne
Fonctions de chaînes de caractères
__Internationalisation
Sortie et analyse
Fonctions de manipulation de chaînes de caractères
Fonction de conversion
__Expression régulière
__Résumé des fonctions de chaînes de caractères
Gestion des horodatages
Analyse et mise en forme des valeurs d'horodatage
__Extraire les informations du calendrier
__Calcul des horodatages
Date, heure et date/heure
Utilisation des fonctions SIG
organiser
[Chapitre 4] Chargement des données avec BigQuery
La méthode la plus élémentaire
Chargement des données locales
__Spécifiez le schéma
__Copier dans une nouvelle table
Gestion des données (DDL et DML)
Chargement efficace des données
Requêtes intégrées et sources de données externes
__Utilisation d'une requête unifiée
__Cas d'utilisation des requêtes unifiées et des sources de données externes
Exploration et interrogation interactives des données Google Sheets
Requêtes SQL sur les données dans Cloud Bigtable
Transmission et exportation
Service de transfert de données
__Exporter les journaux Stackdriver
Lecture et écriture de données BigQuery avec Cloud Dataflow
Migration des données sur site
__Comment migrer des données
organiser
[Chapitre 5] Développement avec BigQuery
Développement utilisant des méthodes de programmation
__Utilisation de l'API REST
Bibliothèque cliente Google Cloud
Utilisation de BigQuery dans les outils de science des données
__Carnet de notes sur Google Cloud Platform
Une combinaison de BigQuery, Pandas et Jupyter
Gérer BigQuery avec R
Flux de données dans le cloud
Pilote JDBC/ODBC
Intégrer des données BigQuery dans Google Slides au sein de G Suite
BigQuery et les scripts Bash
Création d'ensembles de données et de tables
__Exécution de la requête
Objet __BigQuery
organiser
[Chapitre 6] Architecture de BigQuery
Jetez un coup d'œil à l'architecture
Durée de vie d'une requête
Mise à niveau de BigQuery
Moteur de requêtes (Dremel)
__Architecture Dremel
__Exécuter la requête
Stockage
__Données de stockage
__métadonnées
organiser
[Chapitre 7] Optimisation des performances et des coûts
Principes fondamentaux de l'optimisation des performances
Éléments clés de la performance
__Maîtriser les coûts
Mesure et dépannage
Mesure de la vitesse des requêtes avec l'API REST
Mesurer la vitesse des requêtes avec BigQuery Workload Tester
Résolution des problèmes de charge de travail avec Stackdriver
__Lire les informations du plan d'exécution de la requête
__Obtenir les informations du plan de requête à partir des détails de la tâche
Visualisation des informations du plan de requête
Accélérez vos requêtes
__minimisation des E/S
__Mettre en cache les résultats de la requête précédente
Rejoignez-nous efficacement
Éviter de surcharger le travailleur
Utilisation de fonctions agrégées approximatives
Optimisation des méthodes de stockage et d'accès aux données
__Minimiser la surcharge du réseau
__Choisir un format de stockage efficace
Partitionnement des tables pour réduire la taille de l'analyse
__Regroupement des tables basé sur des clés de cardinalité élevée
__Cas d'utilisation indépendants du temps
organiser
__Liste de contrôle
[Chapitre 8] Requêtes avancées
Requêtes réutilisables
__Requêtes paramétrées
Fonctions SQL définies par l'utilisateur
Réutilisation de parties d'une requête
SQL avancé
__Gestion des tableaux
fonction __window
Métadonnées du tableau
Langage de définition de données et langage de manipulation de données
Au-delà du SQL
Fonctions JavaScript définies par l'utilisateur
__Scripting
Fonctions avancées
Système d'information géographique BigQuery
Fonctions statistiques utiles
algorithme de hachage
organiser
[Chapitre 9] Apprentissage automatique avec BigQuery
Qu'est-ce que l'apprentissage automatique ?
__Formulation du problème d'apprentissage automatique
__Types de problèmes d'apprentissage automatique
Création d'un modèle de régression
__Sélectionnez une étiquette
__Exploration de l'ensemble de données pour trouver des caractéristiques
__Créer un ensemble de données d'apprentissage
__Formation et évaluation des modèles
Prédire avec un modèle __
__Vérification du poids du modèle
__Modèles de régression plus complexes
Création d'un modèle de classification
__apprentissage
__évaluation
__prédiction
__Choisissez une valeur seuil
Personnalisation de BigQuery ML
__Contrôle du partitionnement des données
__Équilibrage des classes
__Normalisation
clustering k-means
__Que regrouper
Regroupement des stations de location de vélos
__Effectuer un clustering
__Comprendre les clusters
__Prise de décision fondée sur les données
Système de recommandation
Ensemble de données __MovieLens
__Décomposition matricielle
__Créer une recommandation
__Intégration des informations sur les utilisateurs et les films
Modèles d'apprentissage automatique personnalisés sur GCP
Réglage des hyperparamètres
__AutoML
Prise en charge de TensorFlow
organiser
[Chapitre 10] Gestion et sécurité de BigQuery
Sécurité des infrastructures
Gestion des comptes et des accès
__compte
__rôle
__Ressource
Gestion BigQuery
Gestion des tâches
__Accorder l'autorisation à l'utilisateur
__Récupérer les enregistrements et les tables supprimés
Intégration continue / Livraison continue
Tableaux de bord, surveillance et journalisation des audits
Disponibilité, reprise après sinistre et chiffrement
Zone, région et multirégion
__BigQuery et la gestion des erreurs
Durabilité, sauvegarde et reprise après sinistre
Confidentialité et chiffrement
Respect des réglementations
__Localité des données
__Restreindre l'accès aux services de données
__Supprimer toutes les transactions liées à une personne
Prévention des pertes de données
__CMEK
Protection contre les fuites de données
organiser
[Annexe spéciale de l'édition coréenne] Création d'un pipeline ELT avec Cloud Composer et BigQuery
Vue d'ensemble du pipeline ELT
Qu'est-ce que Cloud Composer ?
Création et configuration de Cloud Composer
Interface utilisateur du serveur Web Cloud Composer
Création d'un DAG
Création d'un pipeline ELT
Image détaillée

Avis de l'éditeur
Ce que ce livre couvre
• Un guide détaillé de l'architecture de haut niveau et du fonctionnement interne de BigQuery.
• Description des types de données, des fonctions et des opérateurs pris en charge par BigQuery
• Secrets pour améliorer les performances ou réduire les coûts grâce à l'optimisation des requêtes et des schémas
ㆍApprenez des technologies avancées telles que les SIG, le voyage dans le temps, le DDL/DML, les fonctions définies par l'utilisateur et la programmation de scripts au sein du SQL standard.
Comment résoudre divers problèmes d'apprentissage automatique avec BigQuery ML
Comment protéger les données, surveiller l'activité et authentifier les utilisateurs
ㆍMise à jour avec les dernières technologies, notamment le scripting, la planification, les vues matérialisées, la sécurité au niveau des colonnes, le SQL dynamique, l'apprentissage automatique, le contrôle d'accès au niveau des tables et les requêtes unifiées.
Télécharger un exemple de code
https://github.com/onlybooks/bigquery
Contenu et public cible de ce livre
À mesure que les entreprises s'appuient de plus en plus sur les données, les entrepôts de données, systèmes de stockage centralisés pour toutes les données d'une entreprise, deviennent un élément clé de leur stratégie de données.
Traditionnellement, les entrepôts de données sont utilisés par les analystes de données pour créer des rapports analytiques.
Cependant, il est aujourd'hui largement utilisé pour créer des tableaux de bord en temps réel, rédiger des requêtes ad hoc et fournir des conseils en matière de prise de décision grâce à l'analyse prédictive.
Les principales raisons pour lesquelles de nombreuses organisations migrent aujourd'hui vers des entrepôts de données basés sur le cloud comme Google BigQuery sont les exigences commerciales en matière d'analyse avancée, ainsi que la gestion des coûts, l'agilité et l'accès aux données au sein de leurs propres services.
Ce livre explore en détail BigQuery de Google Cloud, un entrepôt de données d'entreprise sans serveur, hautement évolutif et à faible coût.
Sans avoir à gérer d'infrastructure, les entreprises peuvent se concentrer sur l'analyse des données pour en extraire des informations pertinentes grâce au langage SQL qu'elles connaissent bien.
Notre objectif avec BigQuery était de construire une plateforme de données offrant des fonctionnalités de pointe, tirant parti des meilleures technologies disponibles dans le cloud et prenant en charge des technologies de données éprouvées, fiables et utilisables dès aujourd'hui.
Par exemple, en matière de technologies de pointe, Google BigQuery est une architecture informatique sans serveur qui sépare le calcul et le stockage.
Cela permet aux différentes couches de l'architecture de fonctionner et de s'adapter indépendamment, offrant ainsi aux data scientists une plus grande flexibilité en matière de conception et de déploiement.
Bien qu'un peu unique, BigQuery prend également en charge nativement l'apprentissage automatique et l'analyse géospatiale.
BigQuery s'intègre également à divers outils tiers, notamment Cloud Pub/Sub, Cloud Dataflow, Cloud Bigtable et les plateformes d'IA cloud.
Cela permet l'interopérabilité avec les systèmes anciens et modernes tout en répondant à un large éventail d'exigences en matière de débit et de latence.
En matière de technologies de données éprouvées, BigQuery prend en charge le SQL standard ANSI, l'optimisation basée sur les colonnes et les requêtes intégrées, qui sont des fonctionnalités clés pour l'exploration ad hoc des données que de nombreux utilisateurs réclamaient.
Ce livre s'adresse aux analystes de données, aux ingénieurs de données et aux scientifiques des données qui utilisent BigQuery pour extraire des informations pertinentes à partir de grands ensembles de données.
◆ Analyste de données
Vous pouvez utiliser BigQuery avec des outils de tableaux de bord comme Looker, Data Studio et Tableau, ou avec SQL.
◆ Ingénieur de données
Vous pouvez intégrer des pipelines de données écrits en Python ou en Java avec BigQuery en utilisant des frameworks tels qu'Apache Spark et Apache Beam.
Data Scientist
Les data scientists peuvent créer des modèles d'apprentissage automatique dans BigQuery, exécuter des modèles TensorFlow sur des données stockées dans BigQuery et exécuter des tâches distribuées à grande échelle dans BigQuery à l'aide de Jupyter Notebooks.
• Un guide détaillé de l'architecture de haut niveau et du fonctionnement interne de BigQuery.
• Description des types de données, des fonctions et des opérateurs pris en charge par BigQuery
• Secrets pour améliorer les performances ou réduire les coûts grâce à l'optimisation des requêtes et des schémas
ㆍApprenez des technologies avancées telles que les SIG, le voyage dans le temps, le DDL/DML, les fonctions définies par l'utilisateur et la programmation de scripts au sein du SQL standard.
Comment résoudre divers problèmes d'apprentissage automatique avec BigQuery ML
Comment protéger les données, surveiller l'activité et authentifier les utilisateurs
ㆍMise à jour avec les dernières technologies, notamment le scripting, la planification, les vues matérialisées, la sécurité au niveau des colonnes, le SQL dynamique, l'apprentissage automatique, le contrôle d'accès au niveau des tables et les requêtes unifiées.
Télécharger un exemple de code
https://github.com/onlybooks/bigquery
Contenu et public cible de ce livre
À mesure que les entreprises s'appuient de plus en plus sur les données, les entrepôts de données, systèmes de stockage centralisés pour toutes les données d'une entreprise, deviennent un élément clé de leur stratégie de données.
Traditionnellement, les entrepôts de données sont utilisés par les analystes de données pour créer des rapports analytiques.
Cependant, il est aujourd'hui largement utilisé pour créer des tableaux de bord en temps réel, rédiger des requêtes ad hoc et fournir des conseils en matière de prise de décision grâce à l'analyse prédictive.
Les principales raisons pour lesquelles de nombreuses organisations migrent aujourd'hui vers des entrepôts de données basés sur le cloud comme Google BigQuery sont les exigences commerciales en matière d'analyse avancée, ainsi que la gestion des coûts, l'agilité et l'accès aux données au sein de leurs propres services.
Ce livre explore en détail BigQuery de Google Cloud, un entrepôt de données d'entreprise sans serveur, hautement évolutif et à faible coût.
Sans avoir à gérer d'infrastructure, les entreprises peuvent se concentrer sur l'analyse des données pour en extraire des informations pertinentes grâce au langage SQL qu'elles connaissent bien.
Notre objectif avec BigQuery était de construire une plateforme de données offrant des fonctionnalités de pointe, tirant parti des meilleures technologies disponibles dans le cloud et prenant en charge des technologies de données éprouvées, fiables et utilisables dès aujourd'hui.
Par exemple, en matière de technologies de pointe, Google BigQuery est une architecture informatique sans serveur qui sépare le calcul et le stockage.
Cela permet aux différentes couches de l'architecture de fonctionner et de s'adapter indépendamment, offrant ainsi aux data scientists une plus grande flexibilité en matière de conception et de déploiement.
Bien qu'un peu unique, BigQuery prend également en charge nativement l'apprentissage automatique et l'analyse géospatiale.
BigQuery s'intègre également à divers outils tiers, notamment Cloud Pub/Sub, Cloud Dataflow, Cloud Bigtable et les plateformes d'IA cloud.
Cela permet l'interopérabilité avec les systèmes anciens et modernes tout en répondant à un large éventail d'exigences en matière de débit et de latence.
En matière de technologies de données éprouvées, BigQuery prend en charge le SQL standard ANSI, l'optimisation basée sur les colonnes et les requêtes intégrées, qui sont des fonctionnalités clés pour l'exploration ad hoc des données que de nombreux utilisateurs réclamaient.
Ce livre s'adresse aux analystes de données, aux ingénieurs de données et aux scientifiques des données qui utilisent BigQuery pour extraire des informations pertinentes à partir de grands ensembles de données.
◆ Analyste de données
Vous pouvez utiliser BigQuery avec des outils de tableaux de bord comme Looker, Data Studio et Tableau, ou avec SQL.
◆ Ingénieur de données
Vous pouvez intégrer des pipelines de données écrits en Python ou en Java avec BigQuery en utilisant des frameworks tels qu'Apache Spark et Apache Beam.
Data Scientist
Les data scientists peuvent créer des modèles d'apprentissage automatique dans BigQuery, exécuter des modèles TensorFlow sur des données stockées dans BigQuery et exécuter des tâches distribuées à grande échelle dans BigQuery à l'aide de Jupyter Notebooks.
Préface spéciale à l'édition coréenne
La Corée utilise BigQuery depuis ses débuts.
En 2015, un développeur de Lezhin Entertainment en Corée a même organisé un séminaire sur l'utilisation de BigQuery (https://www.slideshare.net/modestjude/big-query-43974844).
Avec le développement continu du cloud computing, de nombreuses entreprises en Corée utilisent de plus en plus BigQuery pour leurs entrepôts de données, l'analyse de données et l'apprentissage automatique.
Cependant, il n'a pas été facile pour les développeurs coréens de se familiariser avec BigQuery et de trouver les meilleures pratiques.
Vous avez peut-être dû éplucher des documents de référence et divers articles de blog pour trouver ce que vous cherchiez.
C’est pourquoi je ne peux m’empêcher de féliciter la publication de la version coréenne de « Google BigQuery : Le guide définitif » !
Je suis vraiment fier qu'une édition coréenne d'un livre publié par une maison d'édition qui a toujours produit des ouvrages de grande qualité soit désormais publiée.
J'ai entendu dire que Jang Hyun-hee, qui possède une vaste expérience en traduction, et Byun Seong-yoon, qui possède une vaste expérience en apprentissage automatique et en science des données, ont travaillé ensemble pour traduire le livre en un ouvrage facile à lire et fidèle au texte original.
Je ne parle pas coréen, mais j'ai demandé à un collègue de confiance chez Google Corée et il m'a dit qu'il n'y avait pas lieu de s'inquiéter de la qualité de la traduction.
À l'instar des autres technologies cloud, BigQuery continue d'évoluer rapidement.
L'année dernière, nous avons ajouté des scripts, des fonctions persistantes définies par l'utilisateur, de nouveaux modèles d'apprentissage automatique, et bien plus encore.
Cependant, BigQuery existe depuis plus d'une décennie et son architecture de base est très stable, les pratiques recommandées présentées dans ce livre restent donc valables.
J'ai notamment entendu dire que cette édition coréenne contient également le contenu du livre original, que j'ai mis à jour pour la dernière fois en juin 2020.
Nous continuerons à mettre à jour le livre original sur notre site web GitHub (https://github.com/GoogleCloudPlatform/bigquery-oreilly-book).
Bienvenue dans la communauté des utilisateurs de BigQuery !
- Novembre 2020, Bellevue, Washington, USA / Baliappa Lakshmanan
Note du traducteur
Les secteurs liés aux données, tels que la science des données et l'IA, connaissent une croissance rapide.
En particulier, le domaine de l'apprentissage automatique/de l'apprentissage profond a réalisé des progrès incroyables ces dernières années.
Par ailleurs, le domaine du traitement des données se développe lui aussi rapidement.
Apache Hadoop et Apache Spark en sont des exemples représentatifs, et nous étudions des moyens de traiter rapidement de grandes quantités de données.
Au milieu de ces évolutions, Google révolutionne le traitement des données en lançant BigQuery, utilisant le moteur Dremel, en 2011.
BigQuery présente de nombreux avantages.
Voici quelques-uns des avantages les plus représentatifs :
« Étant donné que Google gère l'infrastructure, les utilisateurs n'ont pas besoin de la gérer. »
Les données peuvent être rapidement extraites et traitées grâce au traitement distribué interne.
Vous pouvez utiliser les fonctions SIG pour l'analyse des données géographiques, BigQuery ML pour l'apprentissage automatique, etc.
ㆍ Si vous utilisez Firebase, vous pouvez facilement obtenir les données de journalisation de l'application.
Ce livre, « Google BigQuery : Le guide complet », couvre tout ce qu'il faut savoir sur BigQuery, l'entrepôt de données de Google Cloud Platform.
BigQuery est conçu pour traiter rapidement de grandes quantités de données et, comme il permet l'extraction de données à l'aide de SQL, il est plus facile à apprendre que des outils comme Apache Spark, qui utilisent des langages de programmation spécifiques (par exemple, Scala, Python, etc.).
De plus, comme il n'est pas nécessaire de gérer une infrastructure de données distincte, les utilisateurs peuvent se concentrer sur l'extraction de données de BigQuery sans se soucier de la gestion de l'infrastructure.
Bien que de nombreux outils de traitement de données soient déjà disponibles, BigQuery a récemment attiré le plus l'attention pour les raisons suivantes.
Aujourd'hui, même ceux qui ne sont pas forcément analystes de données étudient le SQL dans le cadre de diverses fonctions, notamment les planificateurs et les spécialistes du marketing. Le SQL est un langage utilisé pour extraire des données, et sa maîtrise permet d'extraire rapidement et facilement les données stockées au sein de votre entreprise.
Quel que soit votre domaine professionnel, maîtriser SQL peut constituer un atout considérable ; il est donc judicieux de l'étudier progressivement et régulièrement.
J'utilise également BigQuery depuis plus de 4 ans.
Au cours des quatre dernières années d'utilisation de BigQuery, nous avons créé un certain nombre de ressources pour aider les utilisateurs à l'utiliser plus facilement.
Je n'oublierai jamais ce que j'ai ressenti lorsque j'ai découvert la version originale de ce livre, « Google BigQuery : Le guide définitif », alors que je créais différents documents.
Ce livre est le plus détaillé de tous les ouvrages consacrés à BigQuery et constitue une lecture incontournable pour les analystes de données et les ingénieurs de données.
Pour nos lecteurs coréens, nous avons ajouté du contenu au texte original ; voici ce que vous pouvez voir dans la version coréenne :
1.
Annexe spéciale à l'édition coréenne
Après avoir traduit l'intégralité du livre, j'ai pensé qu'il serait utile d'inclure des informations sur la manière de construire concrètement des pipelines. J'ai donc contribué un article intitulé « Building ELT Pipelines with Cloud Composer and BigQuery » en tant qu'annexe spéciale à l'édition coréenne.
Cette annexe vous guide dans l'utilisation de Cloud Composer, un service géré pour Apache Airflow, afin de créer un pipeline ELT utilisant BigQuery.
2.
Code source de ce livre
Après avoir consulté le GitHub du livre original, j'ai constaté que toutes les requêtes pour chaque chapitre étaient enregistrées dans un seul fichier.
J'ai pensé que cette partie pourrait rendre la lecture moins pratique pour ceux qui étudient le livre, j'ai donc organisé et sauvegardé toutes les requêtes par exemple.
Le code source de chaque exemple de la version coréenne peut être consulté et téléchargé depuis le GitHub de l'éditeur (https://github.com/onlybooks/bigquery).
Si vous avez des questions ou des inquiétudes concernant l'achat et l'étude du livre, veuillez les signaler directement sur le système de suivi des problèmes officiel du livre sur GitHub (https://github.com/onlybooks/bigquery/issues) ou mentionnez mon compte GitHub (zzsza) et posez votre question. Je vous répondrai dans les plus brefs délais.
- Byun Seong-yoon
Google BigQuery est un service cloud qui excelle dans le stockage et l'analyse de grandes quantités de données.
Des termes comme « données à grande échelle » et « big data » existent depuis longtemps, mais la mise en place de l'infrastructure et des applications nécessaires pour les stocker et les utiliser correctement a constitué un défi.
Le traitement de grandes quantités de données sur site exige une expertise considérable, des investissements financiers importants, des développeurs expérimentés pour une mise en œuvre optimale et une infrastructure adaptée. Ce défi était d'autant plus complexe que toutes les entreprises ne pouvaient pas réunir ces conditions.
Cependant, avec les progrès des technologies et services cloud, des solutions ont émergé que chacun peut utiliser facilement et rapidement à très faible coût, sans se soucier de l'infrastructure sous-jacente, de l'évolutivité ou des performances. Google BigQuery est l'un de ces services.
On peut notamment affirmer que le fait qu'il prenne en charge un langage de requête compatible avec la norme ANSI SQL existante constitue un avantage considérable.
Les avantages de Google BigQuery par rapport aux autres plateformes de big data peuvent se résumer en deux points principaux.
1.
Facilité d'utilisation
Contrairement aux plateformes de big data existantes telles qu'Apache Spark ou Hadoop, BigQuery prend en charge un langage de requête compatible avec ANSI SQL, ce qui permet aux développeurs novices en matière de traitement de données à grande échelle de l'utiliser rapidement s'ils ont de l'expérience avec les SGBDR.
Bien sûr, il faut acquérir de l'expérience dans l'écriture de requêtes distribuées pour utiliser efficacement les données distribuées, mais c'est une énorme amélioration par rapport à l'obligation d'apprendre un langage totalement inconnu ou d'implémenter une logique.
2.
Infrastructure cloud
Comme d'autres services cloud, BigQuery est basé sur le cloud, les utilisateurs n'ont donc pas besoin de gérer leur propre infrastructure.
Par conséquent, le poids des coûts d'exploitation élevés s'en trouve également réduit.
La politique tarifaire de BigQuery est très avantageuse ; ainsi, si les utilisateurs comprennent parfaitement les fonctionnalités de BigQuery et y prêtent attention, ils peuvent obtenir les résultats souhaités beaucoup plus rapidement et à moindre coût.
Ce livre explique les connaissances nécessaires aux développeurs, de la naissance de BigQuery à son architecture et son utilisation, à l'aide d'exemples ludiques et pratiques.
La vaste expérience et l'expertise des auteurs en matière de BigQuery, développé chez Google pour l'analyse de données dans le cloud et les produits d'apprentissage automatique, seront d'une grande aide aux lecteurs de cet ouvrage.
Ce livre traitant des services cloud, où de nouvelles fonctionnalités sont régulièrement ajoutées, a été mis à jour seulement sept mois après sa publication. Heureusement, grâce à la collaboration de l'auteur, nous avons pu le republier en intégrant l'intégralité des modifications.
Cette traduction inclut les dernières mises à jour et des annexes supplémentaires rédigées par le co-traducteur Seongyoon Byun, vous assurant ainsi une expérience d'apprentissage optimale de la dernière version de BigQuery.
Nous tenons à exprimer notre gratitude aux auteurs, Baliappa Lakshmanan et Jordan Tigani, pour nous avoir envoyé un magnifique ouvrage et une préface spéciale pour l'édition coréenne.
Enfin, j’encourage tous nos lecteurs qui, même en ces temps difficiles, continuent de s’efforcer de renforcer leurs compétences individuelles et de contribuer au développement de l’industrie coréenne du logiciel.
Merci.
- Préface spéciale à l'édition coréenne par Jang Hyun-hee
La Corée utilise BigQuery depuis ses débuts.
En 2015, un développeur de Lezhin Entertainment en Corée a même organisé un séminaire sur l'utilisation de BigQuery (https://www.slideshare.net/modestjude/big-query-43974844).
Avec le développement continu du cloud computing, les entreprises de divers secteurs en Corée utilisent de plus en plus BigQuery pour les entrepôts de données, l'analyse de données et l'apprentissage automatique.
Cependant, il n'a pas été facile pour les développeurs coréens de se familiariser avec BigQuery et de trouver les meilleures pratiques.
Vous avez peut-être dû éplucher des documents de référence et divers articles de blog pour trouver ce que vous cherchiez.
C’est pourquoi je ne peux m’empêcher de féliciter la publication de la version coréenne de « Google BigQuery : Le guide définitif » !
Je suis vraiment fier qu'une édition coréenne d'un livre publié par une maison d'édition qui a toujours produit des ouvrages de grande qualité soit désormais publiée.
J'ai entendu dire que Jang Hyun-hee, qui possède une vaste expérience en traduction, et Byun Seong-yoon, qui possède une vaste expérience en apprentissage automatique et en science des données, ont travaillé ensemble pour traduire le livre en un ouvrage facile à lire et fidèle au texte original.
Je ne parle pas coréen, mais j'ai demandé à un collègue de confiance chez Google Corée et il m'a dit qu'il n'y avait pas lieu de s'inquiéter de la qualité de la traduction.
À l'instar des autres technologies cloud, BigQuery continue d'évoluer rapidement.
L'année dernière, nous avons ajouté des scripts, des fonctions persistantes définies par l'utilisateur, de nouveaux modèles d'apprentissage automatique, et bien plus encore.
Cependant, BigQuery existe depuis plus d'une décennie et son architecture de base est très stable, les pratiques recommandées présentées dans ce livre restent donc valables.
J'ai notamment entendu dire que cette édition coréenne contient également le contenu du livre original, que j'ai mis à jour pour la dernière fois en juin 2020.
Nous continuerons à mettre à jour le livre original sur notre site web GitHub (https://github.com/GoogleCloudPlatform/bigquery-oreilly-book).
Bienvenue dans la communauté des utilisateurs de BigQuery !
- Novembre 2020, Bellevue, Washington, USA / Baliappa Lakshmanan
Note du traducteur
Les secteurs liés aux données, tels que la science des données et l'IA, connaissent une croissance rapide.
En particulier, le domaine de l'apprentissage automatique/de l'apprentissage profond a réalisé des progrès incroyables ces dernières années.
Par ailleurs, le domaine du traitement des données se développe lui aussi rapidement.
Apache Hadoop et Apache Spark en sont des exemples représentatifs, et nous étudions des moyens de traiter rapidement de grandes quantités de données.
Au milieu de ces évolutions, Google révolutionne le traitement des données en lançant BigQuery, utilisant le moteur Dremel, en 2011.
BigQuery présente de nombreux avantages.
Voici quelques-uns des avantages les plus représentatifs :
« Étant donné que Google gère l'infrastructure, les utilisateurs n'ont pas besoin de la gérer. »
Les données peuvent être rapidement extraites et traitées grâce au traitement distribué interne.
Vous pouvez utiliser les fonctions SIG pour l'analyse des données géographiques, BigQuery ML pour l'apprentissage automatique, etc.
ㆍ Si vous utilisez Firebase, vous pouvez facilement obtenir les données de journalisation de l'application.
Ce livre, « Google BigQuery : Le guide complet », couvre tout ce qu'il faut savoir sur BigQuery, l'entrepôt de données de Google Cloud Platform.
BigQuery est conçu pour traiter rapidement de grandes quantités de données et, comme il permet l'extraction de données à l'aide de SQL, il est plus facile à apprendre que des outils comme Apache Spark, qui utilisent des langages de programmation spécifiques (par exemple, Scala, Python, etc.).
De plus, comme il n'est pas nécessaire de gérer une infrastructure de données distincte, les utilisateurs peuvent se concentrer sur l'extraction de données de BigQuery sans se soucier de la gestion de l'infrastructure.
Bien que de nombreux outils de traitement de données soient déjà disponibles, BigQuery a récemment attiré le plus l'attention pour les raisons suivantes.
Aujourd'hui, même ceux qui ne sont pas forcément analystes de données étudient le SQL dans le cadre de diverses fonctions, notamment les planificateurs et les spécialistes du marketing. Le SQL est un langage utilisé pour extraire des données, et sa maîtrise permet d'extraire rapidement et facilement les données stockées au sein de votre entreprise.
Quel que soit votre domaine professionnel, maîtriser SQL peut constituer un atout considérable ; il est donc judicieux de l'étudier progressivement et régulièrement.
J'utilise également BigQuery depuis plus de 4 ans.
Au cours des quatre dernières années d'utilisation de BigQuery, nous avons créé un certain nombre de ressources pour aider les utilisateurs à l'utiliser plus facilement.
Je n'oublierai jamais ce que j'ai ressenti lorsque j'ai découvert la version originale de ce livre, « Google BigQuery : Le guide définitif », alors que je créais différents documents.
Ce livre est le plus détaillé de tous les ouvrages consacrés à BigQuery et constitue une lecture incontournable pour les analystes de données et les ingénieurs de données.
Pour nos lecteurs coréens, nous avons ajouté du contenu au texte original ; voici ce que vous pouvez voir dans la version coréenne :
1.
Annexe spéciale à l'édition coréenne
Après avoir traduit l'intégralité du livre, j'ai pensé qu'il serait utile d'inclure des informations sur la manière de construire concrètement des pipelines. J'ai donc contribué un article intitulé « Building ELT Pipelines with Cloud Composer and BigQuery » en tant qu'annexe spéciale à l'édition coréenne.
Cette annexe vous guide dans l'utilisation de Cloud Composer, un service géré pour Apache Airflow, afin de créer un pipeline ELT utilisant BigQuery.
2.
Code source de ce livre
Après avoir consulté le GitHub du livre original, j'ai constaté que toutes les requêtes pour chaque chapitre étaient enregistrées dans un seul fichier.
J'ai pensé que cette partie pourrait rendre la lecture moins pratique pour ceux qui étudient le livre, j'ai donc organisé et sauvegardé toutes les requêtes par exemple.
Le code source de chaque exemple de la version coréenne peut être consulté et téléchargé depuis le GitHub de l'éditeur (https://github.com/onlybooks/bigquery).
Si vous avez des questions ou des inquiétudes concernant l'achat et l'étude du livre, veuillez les signaler directement sur le système de suivi des problèmes officiel du livre sur GitHub (https://github.com/onlybooks/bigquery/issues) ou mentionnez mon compte GitHub (zzsza) et posez votre question. Je vous répondrai dans les plus brefs délais.
- Byun Seong-yoon
Google BigQuery est un service cloud qui excelle dans le stockage et l'analyse de grandes quantités de données.
Des termes comme « données à grande échelle » et « big data » existent depuis longtemps, mais la mise en place de l'infrastructure et des applications nécessaires pour les stocker et les utiliser correctement a constitué un défi.
Le traitement de grandes quantités de données en interne exige une expertise considérable, des ressources financières importantes, des développeurs expérimentés pour une mise en œuvre optimale et une infrastructure adaptée. Cette tâche s'avérait d'autant plus ardue que toutes les entreprises ne pouvaient pas réunir ces conditions.
Cependant, avec les progrès des technologies et services cloud, des technologies que chacun peut utiliser facilement et rapidement à très faible coût, sans se soucier de l'infrastructure sous-jacente, de l'évolutivité ou des performances, ont commencé à émerger, et Google BigQuery est l'un des services qui offrent cette valeur ajoutée.
On peut notamment affirmer que le fait qu'il prenne en charge un langage de requête compatible avec la norme ANSI SQL existante constitue un avantage considérable.
Les avantages de Google BigQuery par rapport aux autres plateformes de big data peuvent se résumer en deux points principaux.
1.
Facilité d'utilisation
Contrairement aux plateformes de big data existantes telles qu'Apache Spark ou Hadoop, BigQuery prend en charge un langage de requête compatible avec ANSI SQL, ce qui permet aux développeurs novices en matière de traitement de données à grande échelle de l'utiliser rapidement s'ils ont de l'expérience avec les SGBDR.
Bien sûr, il faut acquérir de l'expérience dans l'écriture de requêtes distribuées pour utiliser efficacement les données distribuées, mais c'est une énorme amélioration par rapport à l'obligation d'apprendre un langage totalement inconnu ou d'implémenter une logique.
2.
Infrastructure cloud
Comme d'autres services cloud, BigQuery est basé sur le cloud, les utilisateurs n'ont donc pas besoin de gérer leur propre infrastructure.
Par conséquent, le poids des coûts d'exploitation élevés s'en trouve également réduit.
La politique tarifaire de BigQuery est très avantageuse ; ainsi, si les utilisateurs comprennent parfaitement les fonctionnalités de BigQuery et y prêtent attention, ils peuvent obtenir les résultats souhaités beaucoup plus rapidement et à moindre coût.
Ce livre explique les connaissances nécessaires aux développeurs, de la naissance de BigQuery à son architecture et son utilisation, à l'aide d'exemples ludiques et pratiques.
La vaste expérience et l'expertise des auteurs en matière de BigQuery, développé chez Google pour l'analyse de données dans le cloud et les produits d'apprentissage automatique, seront d'une grande utilité aux lecteurs de cet ouvrage.
Ce livre traitant des services cloud, où de nouvelles fonctionnalités sont régulièrement ajoutées, a été mis à jour seulement sept mois après sa publication. Heureusement, grâce à la collaboration de l'auteur, nous avons pu le republier en intégrant l'intégralité des modifications.
Cette traduction inclut les dernières mises à jour et des annexes supplémentaires rédigées par le co-traducteur Seongyoon Byun, vous assurant ainsi une expérience d'apprentissage optimale de la dernière version de BigQuery.
Nous tenons à exprimer notre gratitude aux auteurs, Baliappa Lakshmanan et Jordan Tigani, pour nous avoir offert un ouvrage magnifique et une préface spéciale pour l'édition coréenne.
Enfin, j’encourage tous nos lecteurs qui, même en ces temps difficiles, continuent de s’efforcer de renforcer leurs compétences individuelles et de contribuer au développement de l’industrie coréenne du logiciel.
Merci.
- Jang Hyun-hee
La Corée utilise BigQuery depuis ses débuts.
En 2015, un développeur de Lezhin Entertainment en Corée a même organisé un séminaire sur l'utilisation de BigQuery (https://www.slideshare.net/modestjude/big-query-43974844).
Avec le développement continu du cloud computing, de nombreuses entreprises en Corée utilisent de plus en plus BigQuery pour leurs entrepôts de données, l'analyse de données et l'apprentissage automatique.
Cependant, il n'a pas été facile pour les développeurs coréens de se familiariser avec BigQuery et de trouver les meilleures pratiques.
Vous avez peut-être dû éplucher des documents de référence et divers articles de blog pour trouver ce que vous cherchiez.
C’est pourquoi je ne peux m’empêcher de féliciter la publication de la version coréenne de « Google BigQuery : Le guide définitif » !
Je suis vraiment fier qu'une édition coréenne d'un livre publié par une maison d'édition qui a toujours produit des ouvrages de grande qualité soit désormais publiée.
J'ai entendu dire que Jang Hyun-hee, qui possède une vaste expérience en traduction, et Byun Seong-yoon, qui possède une vaste expérience en apprentissage automatique et en science des données, ont travaillé ensemble pour traduire le livre en un ouvrage facile à lire et fidèle au texte original.
Je ne parle pas coréen, mais j'ai demandé à un collègue de confiance chez Google Corée et il m'a dit qu'il n'y avait pas lieu de s'inquiéter de la qualité de la traduction.
À l'instar des autres technologies cloud, BigQuery continue d'évoluer rapidement.
L'année dernière, nous avons ajouté des scripts, des fonctions persistantes définies par l'utilisateur, de nouveaux modèles d'apprentissage automatique, et bien plus encore.
Cependant, BigQuery existe depuis plus d'une décennie et son architecture de base est très stable, les pratiques recommandées présentées dans ce livre restent donc valables.
J'ai notamment entendu dire que cette édition coréenne contient également le contenu du livre original, que j'ai mis à jour pour la dernière fois en juin 2020.
Nous continuerons à mettre à jour le livre original sur notre site web GitHub (https://github.com/GoogleCloudPlatform/bigquery-oreilly-book).
Bienvenue dans la communauté des utilisateurs de BigQuery !
- Novembre 2020, Bellevue, Washington, USA / Baliappa Lakshmanan
Note du traducteur
Les secteurs liés aux données, tels que la science des données et l'IA, connaissent une croissance rapide.
En particulier, le domaine de l'apprentissage automatique/de l'apprentissage profond a réalisé des progrès incroyables ces dernières années.
Par ailleurs, le domaine du traitement des données se développe lui aussi rapidement.
Apache Hadoop et Apache Spark en sont des exemples représentatifs, et nous étudions des moyens de traiter rapidement de grandes quantités de données.
Au milieu de ces évolutions, Google révolutionne le traitement des données en lançant BigQuery, utilisant le moteur Dremel, en 2011.
BigQuery présente de nombreux avantages.
Voici quelques-uns des avantages les plus représentatifs :
« Étant donné que Google gère l'infrastructure, les utilisateurs n'ont pas besoin de la gérer. »
Les données peuvent être rapidement extraites et traitées grâce au traitement distribué interne.
Vous pouvez utiliser les fonctions SIG pour l'analyse des données géographiques, BigQuery ML pour l'apprentissage automatique, etc.
ㆍ Si vous utilisez Firebase, vous pouvez facilement obtenir les données de journalisation de l'application.
Ce livre, « Google BigQuery : Le guide complet », couvre tout ce qu'il faut savoir sur BigQuery, l'entrepôt de données de Google Cloud Platform.
BigQuery est conçu pour traiter rapidement de grandes quantités de données et, comme il permet l'extraction de données à l'aide de SQL, il est plus facile à apprendre que des outils comme Apache Spark, qui utilisent des langages de programmation spécifiques (par exemple, Scala, Python, etc.).
De plus, comme il n'est pas nécessaire de gérer une infrastructure de données distincte, les utilisateurs peuvent se concentrer sur l'extraction de données de BigQuery sans se soucier de la gestion de l'infrastructure.
Bien que de nombreux outils de traitement de données soient déjà disponibles, BigQuery a récemment attiré le plus l'attention pour les raisons suivantes.
Aujourd'hui, même ceux qui ne sont pas forcément analystes de données étudient le SQL dans le cadre de diverses fonctions, notamment les planificateurs et les spécialistes du marketing. Le SQL est un langage utilisé pour extraire des données, et sa maîtrise permet d'extraire rapidement et facilement les données stockées au sein de votre entreprise.
Quel que soit votre domaine professionnel, maîtriser SQL peut constituer un atout considérable ; il est donc judicieux de l'étudier progressivement et régulièrement.
J'utilise également BigQuery depuis plus de 4 ans.
Au cours des quatre dernières années d'utilisation de BigQuery, nous avons créé un certain nombre de ressources pour aider les utilisateurs à l'utiliser plus facilement.
Je n'oublierai jamais ce que j'ai ressenti lorsque j'ai découvert la version originale de ce livre, « Google BigQuery : Le guide définitif », alors que je créais différents documents.
Ce livre est le plus détaillé de tous les ouvrages consacrés à BigQuery et constitue une lecture incontournable pour les analystes de données et les ingénieurs de données.
Pour nos lecteurs coréens, nous avons ajouté du contenu au texte original ; voici ce que vous pouvez voir dans la version coréenne :
1.
Annexe spéciale à l'édition coréenne
Après avoir traduit l'intégralité du livre, j'ai pensé qu'il serait utile d'inclure des informations sur la manière de construire concrètement des pipelines. J'ai donc contribué un article intitulé « Building ELT Pipelines with Cloud Composer and BigQuery » en tant qu'annexe spéciale à l'édition coréenne.
Cette annexe vous guide dans l'utilisation de Cloud Composer, un service géré pour Apache Airflow, afin de créer un pipeline ELT utilisant BigQuery.
2.
Code source de ce livre
Après avoir consulté le GitHub du livre original, j'ai constaté que toutes les requêtes pour chaque chapitre étaient enregistrées dans un seul fichier.
J'ai pensé que cette partie pourrait rendre la lecture moins pratique pour ceux qui étudient le livre, j'ai donc organisé et sauvegardé toutes les requêtes par exemple.
Le code source de chaque exemple de la version coréenne peut être consulté et téléchargé depuis le GitHub de l'éditeur (https://github.com/onlybooks/bigquery).
Si vous avez des questions ou des inquiétudes concernant l'achat et l'étude du livre, veuillez les signaler directement sur le système de suivi des problèmes officiel du livre sur GitHub (https://github.com/onlybooks/bigquery/issues) ou mentionnez mon compte GitHub (zzsza) et posez votre question. Je vous répondrai dans les plus brefs délais.
- Byun Seong-yoon
Google BigQuery est un service cloud qui excelle dans le stockage et l'analyse de grandes quantités de données.
Des termes comme « données à grande échelle » et « big data » existent depuis longtemps, mais la mise en place de l'infrastructure et des applications nécessaires pour les stocker et les utiliser correctement a constitué un défi.
Le traitement de grandes quantités de données sur site exige une expertise considérable, des investissements financiers importants, des développeurs expérimentés pour une mise en œuvre optimale et une infrastructure adaptée. Ce défi était d'autant plus complexe que toutes les entreprises ne pouvaient pas réunir ces conditions.
Cependant, avec les progrès des technologies et services cloud, des solutions ont émergé que chacun peut utiliser facilement et rapidement à très faible coût, sans se soucier de l'infrastructure sous-jacente, de l'évolutivité ou des performances. Google BigQuery est l'un de ces services.
On peut notamment affirmer que le fait qu'il prenne en charge un langage de requête compatible avec la norme ANSI SQL existante constitue un avantage considérable.
Les avantages de Google BigQuery par rapport aux autres plateformes de big data peuvent se résumer en deux points principaux.
1.
Facilité d'utilisation
Contrairement aux plateformes de big data existantes telles qu'Apache Spark ou Hadoop, BigQuery prend en charge un langage de requête compatible avec ANSI SQL, ce qui permet aux développeurs novices en matière de traitement de données à grande échelle de l'utiliser rapidement s'ils ont de l'expérience avec les SGBDR.
Bien sûr, il faut acquérir de l'expérience dans l'écriture de requêtes distribuées pour utiliser efficacement les données distribuées, mais c'est une énorme amélioration par rapport à l'obligation d'apprendre un langage totalement inconnu ou d'implémenter une logique.
2.
Infrastructure cloud
Comme d'autres services cloud, BigQuery est basé sur le cloud, les utilisateurs n'ont donc pas besoin de gérer leur propre infrastructure.
Par conséquent, le poids des coûts d'exploitation élevés s'en trouve également réduit.
La politique tarifaire de BigQuery est très avantageuse ; ainsi, si les utilisateurs comprennent parfaitement les fonctionnalités de BigQuery et y prêtent attention, ils peuvent obtenir les résultats souhaités beaucoup plus rapidement et à moindre coût.
Ce livre explique les connaissances nécessaires aux développeurs, de la naissance de BigQuery à son architecture et son utilisation, à l'aide d'exemples ludiques et pratiques.
La vaste expérience et l'expertise des auteurs en matière de BigQuery, développé chez Google pour l'analyse de données dans le cloud et les produits d'apprentissage automatique, seront d'une grande aide aux lecteurs de cet ouvrage.
Ce livre traitant des services cloud, où de nouvelles fonctionnalités sont régulièrement ajoutées, a été mis à jour seulement sept mois après sa publication. Heureusement, grâce à la collaboration de l'auteur, nous avons pu le republier en intégrant l'intégralité des modifications.
Cette traduction inclut les dernières mises à jour et des annexes supplémentaires rédigées par le co-traducteur Seongyoon Byun, vous assurant ainsi une expérience d'apprentissage optimale de la dernière version de BigQuery.
Nous tenons à exprimer notre gratitude aux auteurs, Baliappa Lakshmanan et Jordan Tigani, pour nous avoir envoyé un magnifique ouvrage et une préface spéciale pour l'édition coréenne.
Enfin, j’encourage tous nos lecteurs qui, même en ces temps difficiles, continuent de s’efforcer de renforcer leurs compétences individuelles et de contribuer au développement de l’industrie coréenne du logiciel.
Merci.
- Préface spéciale à l'édition coréenne par Jang Hyun-hee
La Corée utilise BigQuery depuis ses débuts.
En 2015, un développeur de Lezhin Entertainment en Corée a même organisé un séminaire sur l'utilisation de BigQuery (https://www.slideshare.net/modestjude/big-query-43974844).
Avec le développement continu du cloud computing, les entreprises de divers secteurs en Corée utilisent de plus en plus BigQuery pour les entrepôts de données, l'analyse de données et l'apprentissage automatique.
Cependant, il n'a pas été facile pour les développeurs coréens de se familiariser avec BigQuery et de trouver les meilleures pratiques.
Vous avez peut-être dû éplucher des documents de référence et divers articles de blog pour trouver ce que vous cherchiez.
C’est pourquoi je ne peux m’empêcher de féliciter la publication de la version coréenne de « Google BigQuery : Le guide définitif » !
Je suis vraiment fier qu'une édition coréenne d'un livre publié par une maison d'édition qui a toujours produit des ouvrages de grande qualité soit désormais publiée.
J'ai entendu dire que Jang Hyun-hee, qui possède une vaste expérience en traduction, et Byun Seong-yoon, qui possède une vaste expérience en apprentissage automatique et en science des données, ont travaillé ensemble pour traduire le livre en un ouvrage facile à lire et fidèle au texte original.
Je ne parle pas coréen, mais j'ai demandé à un collègue de confiance chez Google Corée et il m'a dit qu'il n'y avait pas lieu de s'inquiéter de la qualité de la traduction.
À l'instar des autres technologies cloud, BigQuery continue d'évoluer rapidement.
L'année dernière, nous avons ajouté des scripts, des fonctions persistantes définies par l'utilisateur, de nouveaux modèles d'apprentissage automatique, et bien plus encore.
Cependant, BigQuery existe depuis plus d'une décennie et son architecture de base est très stable, les pratiques recommandées présentées dans ce livre restent donc valables.
J'ai notamment entendu dire que cette édition coréenne contient également le contenu du livre original, que j'ai mis à jour pour la dernière fois en juin 2020.
Nous continuerons à mettre à jour le livre original sur notre site web GitHub (https://github.com/GoogleCloudPlatform/bigquery-oreilly-book).
Bienvenue dans la communauté des utilisateurs de BigQuery !
- Novembre 2020, Bellevue, Washington, USA / Baliappa Lakshmanan
Note du traducteur
Les secteurs liés aux données, tels que la science des données et l'IA, connaissent une croissance rapide.
En particulier, le domaine de l'apprentissage automatique/de l'apprentissage profond a réalisé des progrès incroyables ces dernières années.
Par ailleurs, le domaine du traitement des données se développe lui aussi rapidement.
Apache Hadoop et Apache Spark en sont des exemples représentatifs, et nous étudions des moyens de traiter rapidement de grandes quantités de données.
Au milieu de ces évolutions, Google révolutionne le traitement des données en lançant BigQuery, utilisant le moteur Dremel, en 2011.
BigQuery présente de nombreux avantages.
Voici quelques-uns des avantages les plus représentatifs :
« Étant donné que Google gère l'infrastructure, les utilisateurs n'ont pas besoin de la gérer. »
Les données peuvent être rapidement extraites et traitées grâce au traitement distribué interne.
Vous pouvez utiliser les fonctions SIG pour l'analyse des données géographiques, BigQuery ML pour l'apprentissage automatique, etc.
ㆍ Si vous utilisez Firebase, vous pouvez facilement obtenir les données de journalisation de l'application.
Ce livre, « Google BigQuery : Le guide complet », couvre tout ce qu'il faut savoir sur BigQuery, l'entrepôt de données de Google Cloud Platform.
BigQuery est conçu pour traiter rapidement de grandes quantités de données et, comme il permet l'extraction de données à l'aide de SQL, il est plus facile à apprendre que des outils comme Apache Spark, qui utilisent des langages de programmation spécifiques (par exemple, Scala, Python, etc.).
De plus, comme il n'est pas nécessaire de gérer une infrastructure de données distincte, les utilisateurs peuvent se concentrer sur l'extraction de données de BigQuery sans se soucier de la gestion de l'infrastructure.
Bien que de nombreux outils de traitement de données soient déjà disponibles, BigQuery a récemment attiré le plus l'attention pour les raisons suivantes.
Aujourd'hui, même ceux qui ne sont pas forcément analystes de données étudient le SQL dans le cadre de diverses fonctions, notamment les planificateurs et les spécialistes du marketing. Le SQL est un langage utilisé pour extraire des données, et sa maîtrise permet d'extraire rapidement et facilement les données stockées au sein de votre entreprise.
Quel que soit votre domaine professionnel, maîtriser SQL peut constituer un atout considérable ; il est donc judicieux de l'étudier progressivement et régulièrement.
J'utilise également BigQuery depuis plus de 4 ans.
Au cours des quatre dernières années d'utilisation de BigQuery, nous avons créé un certain nombre de ressources pour aider les utilisateurs à l'utiliser plus facilement.
Je n'oublierai jamais ce que j'ai ressenti lorsque j'ai découvert la version originale de ce livre, « Google BigQuery : Le guide définitif », alors que je créais différents documents.
Ce livre est le plus détaillé de tous les ouvrages consacrés à BigQuery et constitue une lecture incontournable pour les analystes de données et les ingénieurs de données.
Pour nos lecteurs coréens, nous avons ajouté du contenu au texte original ; voici ce que vous pouvez voir dans la version coréenne :
1.
Annexe spéciale à l'édition coréenne
Après avoir traduit l'intégralité du livre, j'ai pensé qu'il serait utile d'inclure des informations sur la manière de construire concrètement des pipelines. J'ai donc contribué un article intitulé « Building ELT Pipelines with Cloud Composer and BigQuery » en tant qu'annexe spéciale à l'édition coréenne.
Cette annexe vous guide dans l'utilisation de Cloud Composer, un service géré pour Apache Airflow, afin de créer un pipeline ELT utilisant BigQuery.
2.
Code source de ce livre
Après avoir consulté le GitHub du livre original, j'ai constaté que toutes les requêtes pour chaque chapitre étaient enregistrées dans un seul fichier.
J'ai pensé que cette partie pourrait rendre la lecture moins pratique pour ceux qui étudient le livre, j'ai donc organisé et sauvegardé toutes les requêtes par exemple.
Le code source de chaque exemple de la version coréenne peut être consulté et téléchargé depuis le GitHub de l'éditeur (https://github.com/onlybooks/bigquery).
Si vous avez des questions ou des inquiétudes concernant l'achat et l'étude du livre, veuillez les signaler directement sur le système de suivi des problèmes officiel du livre sur GitHub (https://github.com/onlybooks/bigquery/issues) ou mentionnez mon compte GitHub (zzsza) et posez votre question. Je vous répondrai dans les plus brefs délais.
- Byun Seong-yoon
Google BigQuery est un service cloud qui excelle dans le stockage et l'analyse de grandes quantités de données.
Des termes comme « données à grande échelle » et « big data » existent depuis longtemps, mais la mise en place de l'infrastructure et des applications nécessaires pour les stocker et les utiliser correctement a constitué un défi.
Le traitement de grandes quantités de données en interne exige une expertise considérable, des ressources financières importantes, des développeurs expérimentés pour une mise en œuvre optimale et une infrastructure adaptée. Cette tâche s'avérait d'autant plus ardue que toutes les entreprises ne pouvaient pas réunir ces conditions.
Cependant, avec les progrès des technologies et services cloud, des technologies que chacun peut utiliser facilement et rapidement à très faible coût, sans se soucier de l'infrastructure sous-jacente, de l'évolutivité ou des performances, ont commencé à émerger, et Google BigQuery est l'un des services qui offrent cette valeur ajoutée.
On peut notamment affirmer que le fait qu'il prenne en charge un langage de requête compatible avec la norme ANSI SQL existante constitue un avantage considérable.
Les avantages de Google BigQuery par rapport aux autres plateformes de big data peuvent se résumer en deux points principaux.
1.
Facilité d'utilisation
Contrairement aux plateformes de big data existantes telles qu'Apache Spark ou Hadoop, BigQuery prend en charge un langage de requête compatible avec ANSI SQL, ce qui permet aux développeurs novices en matière de traitement de données à grande échelle de l'utiliser rapidement s'ils ont de l'expérience avec les SGBDR.
Bien sûr, il faut acquérir de l'expérience dans l'écriture de requêtes distribuées pour utiliser efficacement les données distribuées, mais c'est une énorme amélioration par rapport à l'obligation d'apprendre un langage totalement inconnu ou d'implémenter une logique.
2.
Infrastructure cloud
Comme d'autres services cloud, BigQuery est basé sur le cloud, les utilisateurs n'ont donc pas besoin de gérer leur propre infrastructure.
Par conséquent, le poids des coûts d'exploitation élevés s'en trouve également réduit.
La politique tarifaire de BigQuery est très avantageuse ; ainsi, si les utilisateurs comprennent parfaitement les fonctionnalités de BigQuery et y prêtent attention, ils peuvent obtenir les résultats souhaités beaucoup plus rapidement et à moindre coût.
Ce livre explique les connaissances nécessaires aux développeurs, de la naissance de BigQuery à son architecture et son utilisation, à l'aide d'exemples ludiques et pratiques.
La vaste expérience et l'expertise des auteurs en matière de BigQuery, développé chez Google pour l'analyse de données dans le cloud et les produits d'apprentissage automatique, seront d'une grande utilité aux lecteurs de cet ouvrage.
Ce livre traitant des services cloud, où de nouvelles fonctionnalités sont régulièrement ajoutées, a été mis à jour seulement sept mois après sa publication. Heureusement, grâce à la collaboration de l'auteur, nous avons pu le republier en intégrant l'intégralité des modifications.
Cette traduction inclut les dernières mises à jour et des annexes supplémentaires rédigées par le co-traducteur Seongyoon Byun, vous assurant ainsi une expérience d'apprentissage optimale de la dernière version de BigQuery.
Nous tenons à exprimer notre gratitude aux auteurs, Baliappa Lakshmanan et Jordan Tigani, pour nous avoir offert un ouvrage magnifique et une préface spéciale pour l'édition coréenne.
Enfin, j’encourage tous nos lecteurs qui, même en ces temps difficiles, continuent de s’efforcer de renforcer leurs compétences individuelles et de contribuer au développement de l’industrie coréenne du logiciel.
Merci.
- Jang Hyun-hee
SPÉCIFICATIONS DES PRODUITS
- Date de publication : 26 novembre 2020
- Nombre de pages, poids, dimensions : 616 pages | 185 × 240 × 30 mm
- ISBN13 : 9791189909239
- ISBN10 : 1189909235
Vous aimerez peut-être aussi
카테고리
Langue coréenne
Langue coréenne