- BigQuery, Google Cloud Platform
- Big Query, Google Cloud
- 4 min de lecture
Tobias Vogler
BigQuery Data Canvas (BQDC) est un service de Google Cloud Platform (GCP) soutenu par Gemini AI, qui vise à rendre plus intuitives la recherche, l'exploration et l'analyse de données au sein de Google BigQuery, le service analytique central de GCP. Vous découvrirez dans cet article ce qui se cache exactement derrière BQDC et pour quels cas d'utilisation il peut générer une valeur ajoutée.
Table des matières
- Qu'est-ce que le BigQuery Data Canvas exactement ?
- Quelles sont les autres caractéristiques du BQDC ?
- Quelles sont les ressources que l'on peut trouver grâce à la fonction de recherche ?
- Quelle est la valeur ajoutée lorsque SQL est déjà très bien maîtrisé ?
- Combien coûte l'utilisation du BQDC ?
- Quelles sont les limites du BQDC ?
- Qu'est-ce que le BQDC N'EST PAS ?
- En savoir plus ?
Qu'est-ce que le BigQuery Data Canvas exactement ?
Le BQDC est un outil pour les développeurs et les analystes de données qui est directement intégré dans l'interface web habituelle de BigQuery Studio (BQS). En règle générale, une requête SQL est écrite et exécutée dans BQS dans un onglet à la fois.
Comme vous pouvez l'imaginer, lors de l'exploration de sources de données (surtout des tableaux et des vues), cela conduit rapidement à l'ouverture de nombreux onglets parallèles entre lesquels vous devez passer non seulement visuellement, mais aussi mentalement, c'est-à-dire que vous devez pratiquer une commutation de contexte qui nuit à l'efficacité. Bien entendu, cela s'aggrave avec le nombre de sources de données à examiner et l'étendue ou la profondeur de votre analyse.
BigQuery Data Canvas a pour objectif de simplifier et d'optimiser ce processus. Avec BQDC, toutes les analyses peuvent être effectuées sur un seul "canevas infini" (en anglais Canvas), ce qui élimine la nécessité de passer d'un onglet à l'autre. Cela permet d'avoir une meilleure vue d'ensemble et un meilleur contrôle sur les analyses effectuées et facilite l'identification des corrélations et des modèles dans les données.
Quelles sont les autres caractéristiques du BQDC ?
Outre une présentation plus claire des analyses, le BQDC facilite la recherche de données grâce à une fonction de recherche étendue. Comme nous l'avons déjà mentionné au début, le travail dans le BQDC est soutenu par Gemini AI, de sorte que certaines activités de développement peuvent être entièrement exécutées ou du moins soutenues par la rédaction d'invites en langage naturel.
Ainsi, une source de données trouvée peut être interrogée en langage naturel via une invite. Dans ce cas, l'invite est traduite en une requête SQL qui peut ensuite être adaptée et exécutée si nécessaire.
Les résultats de ces requêtes ne sont toutefois pas isolés dans le BQDC, mais peuvent être utilisés comme entrée pour de nouvelles requêtes. Il en résulte un graphe acyclique dirigé, en anglais Directed Acyclic Graph ou DAG. Celui-ci définit l'ordre d'exécution des différentes requêtes et peut également être exécuté comme un flux de données/pipeline global. Ainsi, la définition technique et l'exécution du traitement des données coïncident mieux avec le modèle mental des données en tant que flux continu.
En outre, il est également possible de générer des visualisations pertinentes des données par le biais d'invites. Les analyses et les visualisations sont ainsi intégrées dans une seule interface, ce qui permet d'acquérir beaucoup plus rapidement l'intuition des données. Les graphiques qui peuvent être générés peuvent être consultés ici.
En outre, le canvas peut être enregistré et partagé avec d'autres personnes. Il est également possible de convertir le canevas ou le DAG qui y est défini en un notebook Python ou Jupyter et de l'utiliser comme point de départ pour d'autres travaux. Ces deux aspects permettent une collaboration plus facile entre plusieurs personnes ayant des rôles différents.
Quelles sont les ressources que l'on peut trouver grâce à la fonction de recherche ?
Tout d'abord, une brève explication sur le fonctionnement de la recherche du point de vue de l'utilisateur : Il est possible de trouver des sources de données accessibles en langage naturel dans le stock de données du projet ou, si vous avez déjà une idée plus précise de vos sources de données, vous pouvez également utiliser une recherche par mots-clés complète avec une syntaxe de recherche expressive propre. Dans ce cas, non seulement les noms des sources de données sont pris en compte, mais aussi leurs attributs et autres descriptions disponibles.
Pour en venir à la question proprement dite, il est évident que la fonction de recherche ne parcourt pas l'ensemble du BPC à la recherche de sources de données appropriées, mais utilise pour cela les métadonnées gérées sous Google Dataplex. Dataplex collecte en partie les métadonnées de votre projet de manière autonome, mais il est également possible d'y ajouter explicitement des sources de données. Ainsi, si vous gérez par exemple les ressources de votre maillage de données, de vos lacs de données ou de votre coffre-fort de données via Dataplex, ces actifs pourront également être trouvés par la recherche dans le BQDC. En outre, il est également possible d'effectuer des recherches dans les BigQuery Public Datasets mis à disposition par Google.
Quelle est la valeur ajoutée lorsque SQL est déjà très bien maîtrisé ?
Une grande partie de chaque requête SQL est toujours la même, c'est pourquoi la génération d'une requête peut réduire considérablement le temps de développement jusqu'à un résultat significatif, même si la requête générée passe à côté du résultat initialement envisagé. Dans le langage courant, on pourrait dire qu'il est possible de générer une grande partie du "code boilerplate".
En outre, de nombreuses procédures en SQL sont faciles à définir, mais elles sont extrêmement verboses et répétitives. Pensons par exemple à une requête qui calcule le nombre total d'enregistrements et le nombre de valeurs nulles de chaque attribut. Cela peut être un bon indicateur de la qualité de la source de données. Une telle requête n'est pas compliquée en soi, mais elle représente un investissement en temps disproportionné, qui disparaîtrait si la requête était générée.
En outre, la fonctionnalité de visualisation intégrée facilite considérablement le développement d'une vue d'ensemble ou d'une intuition globale concernant les données et leur qualité.
Combien coûte l'utilisation du BQDC ?
L'utilisation du service lui-même n'entraîne aucun coût. Cependant, d'autres services BPC sont utilisés en arrière-plan pour l'exécution des DAG ou des pipelines de données définis. Les frais correspondants s'appliquent alors à ces services. En règle générale, le principal poste de coûts est constitué par les frais de calcul et de stockage dans BigQuery. Toutefois, ces frais s'appliqueraient également si les demandes n'étaient pas envoyées via BQDC, mais directement à partir de BQS.
Quelles sont les limites du BQDC ?
Les limites générales du BQDC sont présentées ici. Il s'agit principalement de ressources qui peuvent être utilisées par BigQuery, mais qui ne sont pas natives pour la technologie. En outre, la génération de requêtes sur les métadonnées, c'est-à-dire le dictionnaire de données ou le schéma d'information, s'avère difficile. De même, les structures de données imbriquées peuvent poser des problèmes pour les requêtes générées par des invites. Il s'agit surtout des structures BigQuery ARRAY et STRUCT, mais aussi des attributs du type de données JSON.
Qu'est-ce que le BQDC N'EST PAS ?
Souvent, il est également utile de savoir à quoi une technologie donnée ne convient pas ou quels cas d'application peuvent être mieux résolus avec d'autres technologies, afin de ne pas susciter de faux espoirs.
Le BQDC ne remplace pas les développeurs tels que les ingénieurs de données ou les analystes de données, qui possèdent une grande expertise en SQL et en modélisation de données en général, ainsi qu'en conception de bases de données physiques pour optimiser les performances. Cependant, le BQDC peut aider ces personnes à rendre leur travail plus simple et plus efficace.
Le BQDC n'est pas non plus un outil "low" ou "no code" qui aide les utilisateurs peu expérimentés à construire des logiques complexes, car il faut continuer à vérifier l'exactitude et la cohérence des résultats générés.
En outre, il ne remplace pas les pipelines de données développés par des experts en la matière, qui ont été développés à l'aide de technologies matures et testés avec soin. Une technologie possible qui peut définir et exécuter un pipeline de bout en bout via SQL serait dbt (data building tool). Nous avons déjà organisé un webinaire à ce sujet, dont l'enregistrement peut être consulté ici.
En savoir plus ?
Vous souhaitez approfondir ce sujet ? Dans ce cas, nous nous ferons un plaisir de discuter personnellement avec vous des possibilités offertes par Google Cloud Platform (GCP).
Publié par :
Tobias Vogler
Tobias Vogler
Cet article vous a-t-il plu ?
Cet article vous a-t-il été utile ?
Cliquez sur une étoile pour évaluer !
Note moyenne 5 / 5.
Nombre d'évaluations : 1
Aucun vote pour l'instant ! Soyez la première personne à noter ce post !