Accueil BigQuery Analyses de données ad hoc et exploratoires avec BigQuery Data Canvas

Analyses de données ad hoc et exploratoires avec BigQuery Data Canvas

Wiki BigQuery Data Canvas

BigQuery Data Canvas (BQDC) est un service de Google Cloud Platform (GCP) soutenu par Gemini AI, qui vise à rendre la recherche, l'exploration et l'analyse des données au sein de Google BigQuery, le service d'analyse central de GCP, plus intuitives. Cet article vous explique ce qui se cache derrière BQDC et pour quels cas d'utilisation une valeur ajoutée peut être générée.

Table des matières

Qu'est-ce que BigQuery Data Canvas exactement ?

BQDC est un outil pour les développeurs et les analystes de données, qui est directement intégré dans l'interface web habituelle de BigQuery Studio (BQS). En général, dans BQS, une requête SQL est écrite et exécutée dans un onglet.

Comme vous pouvez l'imaginer, lors de l'exploration des sources de données (en particulier les tableaux et les vues), cela entraîne rapidement l'ouverture parallèle de nombreux onglets entre lesquels vous devez faire des allers-retours non seulement visuellement, mais aussi mentalement, ce qui entraîne un changement de contexte qui gaspille l'efficacité. Cela s'aggrave bien sûr avec le nombre de sources de données à examiner et l'ampleur ou la profondeur de votre analyse.

BigQuery Data Canvas vise à simplifier et à optimiser ce processus. Avec BQDC, toutes les analyses peuvent être effectuées sur un seul « canevas infini », ce qui élimine la nécessité de passer d'un onglet à l'autre. Cela permet une meilleure vue d'ensemble et un meilleur contrôle des analyses effectuées, et facilite l'identification des liens et des modèles dans les données.

Quelles sont les autres fonctionnalités offertes par BQDC ?

Outre une présentation plus claire des analyses, BQDC simplifie la recherche de données grâce à une fonction de recherche complète. Comme mentionné précédemment, le travail dans BQDC est pris en charge par Gemini AI, de sorte que certaines activités de développement peuvent être entièrement exécutées ou au moins prises en charge par la rédaction d'invites en langage naturel.

Une source de données trouvée peut également être interrogée par invite en langage naturel. L'invite est alors traduite en une requête SQL, qui peut ensuite être adaptée et exécutée si nécessaire.

Les résultats de ces requêtes ne sont toutefois pas autonomes dans BQDC, mais peuvent à leur tour être utilisés comme input pour de nouvelles requêtes. Il en résulte alors un graphe acyclique dirigé, en anglais Directed Acyclic Graph ou en abrégé DAG. Celui-ci définit l'ordre d'exécution des différentes requêtes et peut également être exécuté comme un flux/pipeline de données global. Ainsi, la définition technique et l'exécution du traitement des données correspondent mieux au modèle mental des données en tant que flux continu.

De plus, il est également possible de générer des visualisations significatives à partir des données via des invites. Cela permet d'intégrer les analyses et les visualisations sur une seule interface, ce qui peut conduire à une intuition beaucoup plus rapide des données. Les graphiques qui peuvent être créés sont visibles ici.

De plus, le Canvas peut également être enregistré et partagé avec d'autres personnes. Il est également possible de convertir le Canvas ou le DAG qui y est défini en un notebook Python ou Jupyter et de l'utiliser comme point de départ pour d'autres travaux. Ces deux aspects facilitent la collaboration entre plusieurs personnes ayant des rôles différents.

Quelles ressources peuvent être trouvées grâce à la fonction de recherche ?

Tout d'abord, une brève explication du fonctionnement de la recherche du point de vue de l'utilisateur : il est possible de trouver des sources de données accessibles en langage naturel dans le stock de données du projet ou, si vous avez déjà une idée plus claire de vos sources de données, une recherche complète par mots-clés avec une syntaxe de recherche expressive est également à votre disposition. Dans ce cas, non seulement les noms des sources de données sont pris en compte, mais aussi leurs attributs et autres descriptions disponibles.

Venons-en à la question principale : la fonction de recherche ne traverse évidemment pas l'ensemble de GCP à la recherche de sources de données appropriées, mais utilise à cet effet les métadonnées gérées sous Google Dataplex. Dataplex collecte en partie les métadonnées de votre projet de manière autonome, mais il est également possible d'y ajouter explicitement des sources de données. Ainsi, si vous gérez par exemple les ressources de votre Data Mesh, Data Lakes ou Data Vaults via Dataplex, ces actifs seront également trouvables grâce à la recherche dans BQDC. De plus, les BigQuery Public Datasets mis à disposition par Google peuvent également être consultés.

Quelle est la valeur ajoutée si SQL est déjà très bien maîtrisé ?

Une grande partie de chaque requête SQL est toujours la même, c'est pourquoi la génération d'une requête peut réduire considérablement le temps de développement jusqu'à un résultat significatif, même si la requête générée passe à côté du résultat initialement envisagé. En termes courants, on pourrait dire que l'on peut faire générer une grande partie du « boilerplate code ».

De plus, de nombreux traitements en SQL sont faciles à définir en soi, mais sont extrêmement verbeux et répétitifs. Prenons l'exemple d'une requête qui calcule le nombre total d'enregistrements et le nombre de valeurs null pour chaque attribut. Cela peut être un bon indicateur de la qualité de la source de données. Une telle requête n'est pas compliquée en soi, mais représente une perte de temps disproportionnée, qui serait évitée grâce à une génération de la requête.

De plus, la fonctionnalité de visualisation intégrée facilite grandement le développement d'une vue d'ensemble ou d'une intuition complète concernant les données et leur qualité.

Combien coûte l'utilisation de BQDC ?

L'utilisation du service lui-même n'entraîne aucun frais. Toutefois, l'exécution des DAG ou des pipelines de données définis utilise en arrière-plan d'autres services GCP. Des frais correspondants sont alors facturés pour ces derniers. Le principal poste de dépenses sera généralement constitué des frais de calcul et de stockage dans BigQuery. Toutefois, ces frais seraient également facturés si les requêtes n'étaient pas envoyées via BQDC, mais directement depuis BQS.

Quelles sont les limitations de BQDC ?

Vous trouverez ici les limitations générales de BQDC. Il s'agit principalement des ressources qui peuvent être utilisées par BigQuery, mais qui ne sont pas natives de cette technologie. En outre, la génération de requêtes sur les métadonnées, c'est-à-dire le dictionnaire de données ou le schéma d'information, s'avère difficile. De même, les structures de données imbriquées peuvent poser des problèmes pour les requêtes créées par des invites. Il s'agit principalement des structures ARRAY et STRUCT de BigQuery, mais aussi des attributs du type de données JSON.

Qu'est-ce que BQDC n'est PAS ?

Il est souvent utile de savoir à quoi une technologie particulière n'est pas adaptée ou quels cas d'application peuvent être mieux résolus avec d'autres technologies, afin de ne pas susciter de faux espoirs.

BQDC ne remplace pas les développeurs tels que les ingénieurs de données ou les analystes de données, qui possèdent une expertise approfondie en SQL et en modélisation de données en général, ainsi qu'en conception de bases de données physiques pour l'optimisation des performances. Cependant, BQDC peut également aider ces personnes à rendre leur travail plus simple et plus efficace.

BQDC n'est pas non plus un outil Low-Code ou No-Code qui aide les utilisateurs ayant peu d'expérience à construire des logiques complexes, car les résultats produits doivent toujours être vérifiés quant à leur exactitude et leur cohérence.

De plus, il ne remplace pas les pipelines de données développées par des experts et testées avec soin à l'aide de technologies sophistiquées. Une technologie possible, qui peut définir et exécuter un pipeline de bout en bout via SQL, serait dbt (data building tool). À ce sujet, nous avons déjà organisé un webinaire dont l'enregistrement est disponible ici.

En savoir plus ?

Vous souhaitez approfondir ce sujet ? Nous serions ravis de discuter personnellement avec vous des possibilités offertes par Google Cloud Platform (GCP).

Christian Blessing
Christian Blessing
Responsable de Google Cloud Consulting

Publié par :

Tobias Vogler

autor:IN

Cet article vous a-t-il plu ?

Cet article vous a-t-il été utile ?

Cliquez sur une étoile pour évaluer !

Note moyenne 3 / 5.
Nombre d'évaluations : 2

Aucun vote pour l'instant ! Soyez la première personne à noter ce post !

INFORMATIONS

Plus d'informations

20251127_Mise à jour des fonctionnalités

SAC Live Connect vers Snowflake – Explication étape par étape

Comment fonctionne SAC Live Connect avec Snowflake ? Dans ce guide, nous vous expliquons étape par étape comment créer une...
Photo de couverture_SAC_AI_ML_Aperçu des fonctionnalités

Explication des fonctionnalités SAC AI : Joule, Just Ask et Smart Predict

Ce wiki explique comment utiliser Smart Predict pour créer des modèles de prévision automatisés...
Image d'une femme et d'un robot qui se regardent à un bureau, le robot est assis

SAP Business AI et unités IA

En matière d'IA dans l'univers SAP, on distingue généralement deux approches...
Wiki Visual Databricks et BDC

Qu'est-ce que Databricks ? Qu'est-ce que la BDC ? Le guide ultime pour une combinaison parfaite !

Dans le monde des affaires actuel, axé sur les données, la capacité d'analyser et d'utiliser efficacement de grands volumes de données est essentielle pour...
Des mains avec trois étoiles représentant les différentes technologies : SAP Analytics Cloud, SAP Business Data Cloud et SAP Datasphere.

Mise à jour des fonctionnalités de SAP Business Data Cloud, Analytics Cloud et Datasphere

Cet article wiki résume les principaux contenus du webinaire sur le thème :...
Association du Seigneur des Anneaux avec connexion à SQL et dbt en tant que combattant.

SQL et dbt : L'avenir de la transformation moderne des données

Cet article décrit le traitement des données dans les entreprises. Il traite à la fois...