Onboarding & ingestion

Wizard d'onboarding en 5 étapes : upload, contexte, transformation, vérification et suggestions IA.

REF-SPEC/AG001-ONB v1.0 — 2026-04-09

1. Principe

L'onboarding Pilot guide l'utilisateur de l'upload de données brutes jusqu'aux premières suggestions de rapports. Le wizard en 5 étapes assure que les données sont correctement ingérées, normalisées et prêtes pour l'analyse IA.

2. Les 5 étapes

Étape 1 — Upload

Drag-and-drop ou sélection de fichiers. Formats supportés :

Format	Bibliothèque	Particularités
Excel (.xlsx, .xls)	xlsx	Multi-feuilles, détection automatique
CSV	Natif	Détection séparateur
JSON	Natif	Objets et tableaux
Word (.docx)	mammoth	Extraction texte structuré

Étape 2 — Contexte projet

L'utilisateur définit le contexte métier du workspace :

Champ	Description
Nom du projet	Identifiant du workspace
Industrie	Assurance, Banque, Mutuelle, Secteur public
Objectifs	Description libre des objectifs d'analyse
Périmètre	Délimitation du périmètre de données

Étape 3 — Transformation

Pipeline automatique de normalisation des données :

Données brutes        Détection types       Normalisation        Déduplication
(multi-format)   ──▶  (string, number,  ──▶ (accents,       ──▶ (lignes
                       date)                 casse, noms         identiques
                                             de colonnes)        supprimées)

Détection de types — Inference automatique : string, number, date
Parsing français — Nombres avec virgule, dates dd/mm/yyyy
Normalisation colonnes — Accents supprimés, espaces remplacés par underscores
Déduplication — Suppression des lignes strictement identiques

Étape 4 — Vérification

Preview des données nettoyées :

Information	Description
Nombre de lignes	Total après déduplication
Colonnes détectées	Nom, type inféré, exemples de valeurs
Qualité	Taux de remplissage par colonne
Anomalies	Valeurs aberrantes détectées

Étape 5 — Suggestions IA

L'IA analyse les données matérialisées et propose 5 à 8 idées de rapports :

Le matérialiseur pré-calcule 4 vues analytiques (schema, stats, dimensions, anomalies)
Ces vues sont envoyées au LLM (pas les données brutes — confidentialité)
Le LLM retourne des suggestions avec titre, description et type de graphiques recommandés
L'utilisateur sélectionne une suggestion pour déclencher la génération complète

3. Matérialisation

Le matérialiseur (materializer.js) pré-calcule 4 vues analytiques utilisées par toutes les générations IA :

Vue	Contenu
Schema	Structure des tables, types de colonnes, cardinalités
Stats	Distributions, quartiles, moyenne, médiane, écart-type
Dimensions	Agrégations GROUP BY sur les colonnes catégorielles
Anomalies	Outliers par z-score, détection de tendances

Ces vues constituent le contexte analytique envoyé au LLM à la place des données brutes. Cela garantit la confidentialité des données tout en fournissant un contexte riche pour la génération.

On this page