DeepTech — du dossier PDF au graphe d’écosystème

Structurer des centaines de dossiers de candidature en entités et relations requêtables pour piloter l’innovation issue de la recherche — avec traçabilité jusqu’au document source.

Contexte

La direction DeepTech de Bpifrance accompagne l’innovation issue de la recherche et doit comprendre comment émergent les startups : laboratoires d’origine, transferts de propriété intellectuelle, financements, collaborations et trajectoires sectorielles. Ces signaux nourrissent les dispositifs de soutien, les rapports d’activité et les arbitrages de politique publique.

Le corpus existe déjà — dossiers de candidature sur plusieurs années, en langage naturel — mais il reste largement enfermé dans des PDF difficiles à croiser, à agréger ou à réinterroger de façon reproductible.

Problématique

Les liens entre startups, organismes de recherche, brevets, écoles et financements n’existaient sous aucune forme structurée : impossible de quantifier en continu la part des projets rattachés à un grand organisme national, ou de mesurer le poids des transferts de PI dans les parcours d’émergence.

Chaque question stratégique impliquait une fouille manuelle sur un échantillon limité ; les analyses de cohortes prenaient des semaines, n’étaient pas reproductibles et ne donnaient pas de vision d’ensemble de l’écosystème deep tech français.

Approche

Co-construction d’un référentiel métier (typologies de nœuds et de relations — laboratoires, entreprises, personnes, brevets, financements, collaborations…) itéré avec l’équipe DeepTech, capitalisé dans un AI Knowledge Vault réutilisable sur d’autres corpus.
Extraction par IA générative sur l’ensemble des dossiers : identification des entités et des liens, arbitrage qualité entre modèles, puis stockage relationnel (nœuds / arêtes) exploitable en SQL, tableaux de bord et graphes interactifs.
Evidence Panel : chaque relation ou attribut affiché est relié aux phrases sources du dossier d’origine — la réponse en comité n’est plus une intuition, elle est justifiable.
Boucle HITL : les experts valident, corrigent ou suppriment nœuds et relations douteux ; le graphe s’affine au fil des revues plutôt que de rester une boîte noire.
Exploration orientée décision : requêtes sur cohortes, réseaux d’acteurs, sérial entrepreneurs et corrélations sectorielles ; génération de visualisations à partir du langage naturel pour accélérer les restitutions.

Résultats

Des questions autrefois inaccessibles sans semaines de lecture manuelle deviennent requêtables sur l’ensemble du corpus — avec citation des passages sources pour chaque insight.
Émergence d’indicateurs quantitatifs sur l’écosystème (rattachements aux grands organismes de recherche, répartition des liens de PI, poids de l’enseignement supérieur dans les parcours) là où seule la matière qualitative existait.
Analyses de cohortes et de réseaux industrialisables : même méthode, même périmètre, reproductible d’un exercice de reporting à l’autre.
Socle extensible : référentiel et pipeline réutilisables sur d’autres jeux documentaires (programmes nationaux, greentech, industrie) et alignés avec la feuille de route data interne (cartographie « entreprise »).

Périmètre public

Volumes exacts de nœuds et de relations, typologies détaillées du référentiel, métriques de précision et empreinte carbone ne sont pas publiés sur cette page vitrine. Un contrôle métier par échantillonnage reste requis pour surveiller les dérives à l’échelle.

Cas présenté avec l’accord du client. Les détails opérationnels, données et paramètres métier ne sont pas divulgués sur cette page.

Construire votre prochain rituel

Planifiez un cadrage pour aligner périmètre, données et preuve attendue par vos métiers.

Demander une démo