跳到主要内容

Bpifrance · P.O.C.

创新/深度科技——数据与分析

DeepTech — 从 PDF 文件到生态系统图

将数百个应用程序文件构建为可查询的实体和关系,以推动基于研究的创新 - 并可追溯至源文档。

背景

Bpifrance 的 DeepTech 部门支持研究创新,并且必须了解初创企业是如何出现的:原始实验室、知识产权转让、融资、合作和部门发展轨迹。这些信号为支持系统、活动报告和公共政策决策提供信息。

该语料库已经存在——多年来的自然语言应用程序文件——但它仍然很大程度上锁定在 PDF 中,很难以可重复的方式交叉引用、聚合或重新搜索。

挑战

初创企业、研究组织、专利、学校和资金之间的联系并不以任何结构化形式存在:不可能持续量化隶属于大型国家组织的项目份额,也不可能衡量知识产权转让在新兴路径中的权重。

每个战略问题都涉及对有限样本的手动挖掘;队列分析花费了数周时间,无法重现,也无法提供法国深度科技生态系统的整体愿景。

方法

  • 与 DeepTech 团队共同构建迭代的业务存储库(节点和关系的类型——实验室、公司、人员、专利、融资、合作等),并利用可在其他语料库上重复使用的人工智能知识库。
  • 通过生成式 AI 对所有文件进行提取:识别实体和链接、模型之间的质量仲裁,然后在 SQL、仪表板和交互式图表中使用关系存储(节点/边)。
  • 证据面板:显示的每个关系或属性都链接到原始文件的源句子——委员会的回应不再是直觉,而是合理的。
  • HITL循环:专家验证、纠正或删除有问题的节点和关系;该图表在审查过程中得到完善,而不是保持黑匣子状态。
  • 决策导向的探索:对群体、行动者网络、连续创业者和部门相关性的查询;从自然语言生成可视化以加速恢复。

成果

  • 曾经无法通过数周的手动阅读来访问的问题现在可以在整个语料库中进行查询 - 每个见解都会引用源段落。
  • 只存在定性材料的生态系统出现了定量指标(与大型研究组织的联系、知识产权链接的分布、高等教育在课程中的权重)。
  • 可工业化的队列和网络分析:相同的方法、相同的范围、可从一项报告活动复制到另一项报告活动。
  • 可扩展的基础:存储库和管道可在其他文档集(国家计划、绿色科技、行业)上重复使用,并与内部数据路线图(“公司”映射)保持一致。

公开范围

此展示页面上未发布节点和关系的确切数量、详细的存储库类型、精确指标和碳足迹。仍然需要通过抽样进行业务控制来大规模监测漂移。

案例经客户同意发布。运营细节、数据与业务参数不在此页披露。

构建下一个业务场景

预约需求梳理,对齐范围、数据与业务方期望的证明材料。

请求演示

准备好 规模化落地 您的决策?