LITEOPSDOCS
Agents & SystèmesSailor

Base documentaire

Upload multi-format, extraction automatique, métadonnées et gestion des documents indexés.

REF-SPEC/AG002-DOC v1.0 — 2026-04-09

1. Principe

Sailor ingère des documents de tout format, en extrait le texte, les découpe en chunks et les vectorise pour permettre la recherche sémantique. Chaque document conserve ses métadonnées (titre, catégorie, auteur, date, mots-clés) pour le filtrage et la citation.

2. Formats supportés

FormatBibliothèqueParticularités
PDFpdf-parseExtraction texte + métadonnées
Word (.docx/.doc)mammothConversion HTML structuré
Excel (.xlsx/.xls)xlsxExtraction feuilles en texte
CSVNatifParsing tabulaire
HTML/HTMcheerioExtraction contenu principal
TXTNatifTexte brut
MarkdownNatifContenu formaté
ZIPyauzlExtraction récursive de tous les fichiers contenus

Taille maximale par fichier : 100 MB.

3. Pipeline d'indexation

Upload fichier       Extraction          Métadonnées         Chunking            Embedding
(drag-drop      ──▶  texte          ──▶  (titre,        ──▶  (~500 mots,    ──▶  vectoriel
 ou sélection)       (multi-format)      catégorie,          overlap 100,        (Mistral /
                                          auteur, date)       TF-IDF index)       Voyage /
                                                                                  Ollama)

Extraction

Chaque format est parsé par sa bibliothèque dédiée. Le résultat est stocké sous deux formes :

  • content_text — texte brut pour le chunking et la recherche
  • content_html — version HTML pour la prévisualisation dans le panel document

Métadonnées

ChampSourceDescription
titleNom du fichier ou extractionTitre du document
categorieDéfini par l'utilisateurType de document
auteurExtraction ou saisieAuteur du document
date_creationExtraction ou saisieDate de création
mots_clesExtraction ou saisieMots-clés pour le filtrage

Chunking

Le texte extrait est découpé en segments recherchables :

ParamètreValeurRaison
Taille cible~500 motsÉquilibre contexte et précision
Overlap100 motsÉvite les coupures d'information
Token approximationOuiEstimation du nombre de tokens par chunk
Index TF-IDFOuiPré-calcul des fréquences pour BM25

Embedding

Chaque chunk est vectorisé via la chaîne de fallback :

PrioritéModèleDimensions
1Mistral Embed1024
2Voyage AI voyage-3-lite1024
3Ollama nomic-embed-text768

Les embeddings sont stockés en BLOB (Float32Array) dans la table chunks.

4. Interface

ÉlémentDescription
En-têteCompteur de documents, compteur de chunks, badges catégories (top 5)
RechercheBarre de recherche par titre, catégorie, auteur, mots-clés
TableauColonnes : document (avec dot type), catégorie, auteur, date, type, ouvrir
Panel previewPanel latéral plein écran avec contenu HTML ou texte formaté
StatistiquesNombre de documents, chunks, statut des embeddings

On this page