- BigQuery, Google Cloud Platform
- Big Query, Google Cloud
- 4 min de lecture
Tobias Vogler
BigQuery Data Canvas (BQDC) est un service de Google Cloud Platform (GCP) soutenu par Gemini AI, qui vise à rendre la recherche, l'exploration et l'analyse des données au sein de Google BigQuery, le service d'analyse central de GCP, plus intuitives. Cet article vous explique ce qui se cache derrière BQDC et pour quels cas d'utilisation une valeur ajoutée peut être générée.
Table des matières
- Qu'est-ce que BigQuery Data Canvas exactement ?
- Quelles sont les autres fonctionnalités offertes par BQDC ?
- Quelles ressources peuvent être trouvées grâce à la fonction de recherche ?
- Quelle est la valeur ajoutée si SQL est déjà très bien maîtrisé ?
- Combien coûte l'utilisation de BQDC ?
- Quelles sont les limitations de BQDC ?
- Qu'est-ce que BQDC n'est PAS ?
- En savoir plus ?
Qu'est-ce que BigQuery Data Canvas exactement ?
BQDC est un outil pour les développeurs et les analystes de données, qui est directement intégré dans l'interface web habituelle de BigQuery Studio (BQS). En général, dans BQS, une requête SQL est écrite et exécutée dans un onglet.
Comme vous pouvez l'imaginer, lors de l'exploration des sources de données (en particulier les tableaux et les vues), cela entraîne rapidement l'ouverture parallèle de nombreux onglets entre lesquels vous devez faire des allers-retours non seulement visuellement, mais aussi mentalement, ce qui entraîne un changement de contexte qui gaspille l'efficacité. Cela s'aggrave bien sûr avec le nombre de sources de données à examiner et l'ampleur ou la profondeur de votre analyse.
BigQuery Data Canvas vise à simplifier et à optimiser ce processus. Avec BQDC, toutes les analyses peuvent être effectuées sur un seul « canevas infini », ce qui élimine la nécessité de passer d'un onglet à l'autre. Cela permet une meilleure vue d'ensemble et un meilleur contrôle des analyses effectuées, et facilite l'identification des liens et des modèles dans les données.
Quelles sont les autres fonctionnalités offertes par BQDC ?
Outre une présentation plus claire des analyses, BQDC simplifie la recherche de données grâce à une fonction de recherche complète. Comme mentionné précédemment, le travail dans BQDC est pris en charge par Gemini AI, de sorte que certaines activités de développement peuvent être entièrement exécutées ou au moins prises en charge par la rédaction d'invites en langage naturel.
Une source de données trouvée peut également être interrogée par invite en langage naturel. L'invite est alors traduite en une requête SQL, qui peut ensuite être adaptée et exécutée si nécessaire.
Les résultats de ces requêtes ne sont toutefois pas autonomes dans BQDC, mais peuvent à leur tour être utilisés comme input pour de nouvelles requêtes. Il en résulte alors un graphe acyclique dirigé, en anglais Directed Acyclic Graph ou en abrégé DAG. Celui-ci définit l'ordre d'exécution des différentes requêtes et peut également être exécuté comme un flux/pipeline de données global. Ainsi, la définition technique et l'exécution du traitement des données correspondent mieux au modèle mental des données en tant que flux continu.
De plus, il est également possible de générer des visualisations significatives à partir des données via des invites. Cela permet d'intégrer les analyses et les visualisations sur une seule interface, ce qui peut conduire à une intuition beaucoup plus rapide des données. Les graphiques qui peuvent être créés sont visibles ici.
De plus, le Canvas peut également être enregistré et partagé avec d'autres personnes. Il est également possible de convertir le Canvas ou le DAG qui y est défini en un notebook Python ou Jupyter et de l'utiliser comme point de départ pour d'autres travaux. Ces deux aspects facilitent la collaboration entre plusieurs personnes ayant des rôles différents.
Quelles ressources peuvent être trouvées grâce à la fonction de recherche ?
Tout d'abord, une brève explication du fonctionnement de la recherche du point de vue de l'utilisateur : il est possible de trouver des sources de données accessibles en langage naturel dans le stock de données du projet ou, si vous avez déjà une idée plus claire de vos sources de données, une recherche complète par mots-clés avec une syntaxe de recherche expressive est également à votre disposition. Dans ce cas, non seulement les noms des sources de données sont pris en compte, mais aussi leurs attributs et autres descriptions disponibles.
Venons-en à la question principale : la fonction de recherche ne traverse évidemment pas l'ensemble de GCP à la recherche de sources de données appropriées, mais utilise à cet effet les métadonnées gérées sous Google Dataplex. Dataplex collecte en partie les métadonnées de votre projet de manière autonome, mais il est également possible d'y ajouter explicitement des sources de données. Ainsi, si vous gérez par exemple les ressources de votre Data Mesh, Data Lakes ou Data Vaults via Dataplex, ces actifs seront également trouvables grâce à la recherche dans BQDC. De plus, les BigQuery Public Datasets mis à disposition par Google peuvent également être consultés.
Quelle est la valeur ajoutée si SQL est déjà très bien maîtrisé ?
Une grande partie de chaque requête SQL est toujours la même, c'est pourquoi la génération d'une requête peut réduire considérablement le temps de développement jusqu'à un résultat significatif, même si la requête générée passe à côté du résultat initialement envisagé. En termes courants, on pourrait dire que l'on peut faire générer une grande partie du « boilerplate code ».
De plus, de nombreux traitements en SQL sont faciles à définir en soi, mais sont extrêmement verbeux et répétitifs. Prenons l'exemple d'une requête qui calcule le nombre total d'enregistrements et le nombre de valeurs null pour chaque attribut. Cela peut être un bon indicateur de la qualité de la source de données. Une telle requête n'est pas compliquée en soi, mais représente une perte de temps disproportionnée, qui serait évitée grâce à une génération de la requête.
De plus, la fonctionnalité de visualisation intégrée facilite grandement le développement d'une vue d'ensemble ou d'une intuition complète concernant les données et leur qualité.
Combien coûte l'utilisation de BQDC ?
L'utilisation du service lui-même n'entraîne aucun frais. Toutefois, l'exécution des DAG ou des pipelines de données définis utilise en arrière-plan d'autres services GCP. Des frais correspondants sont alors facturés pour ces derniers. Le principal poste de dépenses sera généralement constitué des frais de calcul et de stockage dans BigQuery. Toutefois, ces frais seraient également facturés si les requêtes n'étaient pas envoyées via BQDC, mais directement depuis BQS.
Quelles sont les limitations de BQDC ?
Vous trouverez ici les limitations générales de BQDC. Il s'agit principalement des ressources qui peuvent être utilisées par BigQuery, mais qui ne sont pas natives de cette technologie. En outre, la génération de requêtes sur les métadonnées, c'est-à-dire le dictionnaire de données ou le schéma d'information, s'avère difficile. De même, les structures de données imbriquées peuvent poser des problèmes pour les requêtes créées par des invites. Il s'agit principalement des structures ARRAY et STRUCT de BigQuery, mais aussi des attributs du type de données JSON.
Qu'est-ce que BQDC n'est PAS ?
Il est souvent utile de savoir à quoi une technologie particulière n'est pas adaptée ou quels cas d'application peuvent être mieux résolus avec d'autres technologies, afin de ne pas susciter de faux espoirs.
BQDC ne remplace pas les développeurs tels que les ingénieurs de données ou les analystes de données, qui possèdent une expertise approfondie en SQL et en modélisation de données en général, ainsi qu'en conception de bases de données physiques pour l'optimisation des performances. Cependant, BQDC peut également aider ces personnes à rendre leur travail plus simple et plus efficace.
BQDC n'est pas non plus un outil Low-Code ou No-Code qui aide les utilisateurs ayant peu d'expérience à construire des logiques complexes, car les résultats produits doivent toujours être vérifiés quant à leur exactitude et leur cohérence.
De plus, il ne remplace pas les pipelines de données développées par des experts et testées avec soin à l'aide de technologies sophistiquées. Une technologie possible, qui peut définir et exécuter un pipeline de bout en bout via SQL, serait dbt (data building tool). À ce sujet, nous avons déjà organisé un webinaire dont l'enregistrement est disponible ici.
En savoir plus ?
Vous souhaitez approfondir ce sujet ? Nous serions ravis de discuter personnellement avec vous des possibilités offertes par Google Cloud Platform (GCP).
Publié par :
Tobias Vogler
Tobias Vogler
Cet article vous a-t-il plu ?
Cet article vous a-t-il été utile ?
Cliquez sur une étoile pour évaluer !
Note moyenne 3 / 5.
Nombre d'évaluations : 2
Aucun vote pour l'instant ! Soyez la première personne à noter ce post !







