Onboarding & ingestion
Wizard d'onboarding en 5 étapes : upload, contexte, transformation, vérification et suggestions IA.
REF-SPEC/AG001-ONB v1.0 — 2026-04-09
1. Principe
L'onboarding Pilot guide l'utilisateur de l'upload de données brutes jusqu'aux premières suggestions de rapports. Le wizard en 5 étapes assure que les données sont correctement ingérées, normalisées et prêtes pour l'analyse IA.
2. Les 5 étapes
Étape 1 — Upload
Drag-and-drop ou sélection de fichiers. Formats supportés :
| Format | Bibliothèque | Particularités |
|---|---|---|
| Excel (.xlsx, .xls) | xlsx | Multi-feuilles, détection automatique |
| CSV | Natif | Détection séparateur |
| JSON | Natif | Objets et tableaux |
| Word (.docx) | mammoth | Extraction texte structuré |
Étape 2 — Contexte projet
L'utilisateur définit le contexte métier du workspace :
| Champ | Description |
|---|---|
| Nom du projet | Identifiant du workspace |
| Industrie | Assurance, Banque, Mutuelle, Secteur public |
| Objectifs | Description libre des objectifs d'analyse |
| Périmètre | Délimitation du périmètre de données |
Étape 3 — Transformation
Pipeline automatique de normalisation des données :
Données brutes Détection types Normalisation Déduplication
(multi-format) ──▶ (string, number, ──▶ (accents, ──▶ (lignes
date) casse, noms identiques
de colonnes) supprimées)- Détection de types — Inference automatique : string, number, date
- Parsing français — Nombres avec virgule, dates dd/mm/yyyy
- Normalisation colonnes — Accents supprimés, espaces remplacés par underscores
- Déduplication — Suppression des lignes strictement identiques
Étape 4 — Vérification
Preview des données nettoyées :
| Information | Description |
|---|---|
| Nombre de lignes | Total après déduplication |
| Colonnes détectées | Nom, type inféré, exemples de valeurs |
| Qualité | Taux de remplissage par colonne |
| Anomalies | Valeurs aberrantes détectées |
Étape 5 — Suggestions IA
L'IA analyse les données matérialisées et propose 5 à 8 idées de rapports :
- Le matérialiseur pré-calcule 4 vues analytiques (schema, stats, dimensions, anomalies)
- Ces vues sont envoyées au LLM (pas les données brutes — confidentialité)
- Le LLM retourne des suggestions avec titre, description et type de graphiques recommandés
- L'utilisateur sélectionne une suggestion pour déclencher la génération complète
3. Matérialisation
Le matérialiseur (materializer.js) pré-calcule 4 vues analytiques utilisées par toutes les générations IA :
| Vue | Contenu |
|---|---|
| Schema | Structure des tables, types de colonnes, cardinalités |
| Stats | Distributions, quartiles, moyenne, médiane, écart-type |
| Dimensions | Agrégations GROUP BY sur les colonnes catégorielles |
| Anomalies | Outliers par z-score, détection de tendances |
Ces vues constituent le contexte analytique envoyé au LLM à la place des données brutes. Cela garantit la confidentialité des données tout en fournissant un contexte riche pour la génération.