一、私有知识库问答系统难点分析

1.1、企业知识管理痛点分析

在当今数字化浪潮席卷各行业的时代,企业内部信息管理的难题愈发凸显,构建高效的知识库已成为企业发展的必然选择。

然而,企业知识管理中普遍存在着知识散落各处难以集中管理、信息孤岛现象严重部门间沟通不畅、知识传承依赖于个人经验难以形成系统性积累等痛点。

在这里插入图片描述

  • 从企业层面来看,内部文档分散问题严重制约着信息流通与协作效率。各部门各自为政,拥有不同文件管理流程,文档散落在各个角落,从市场部的调研报告、产品研发的详细文档、部门例会的会议记录,到财务部的预算报表等,都犹如一座座信息孤岛,缺乏有效的整合与共享渠道
  • 从个人层面而言,企业知识库的缺失同样带来诸多困扰。在日常工作中,为查找一份关键资料,常需在多个系统、文件夹间来回切换,耗费大量时间与精力,降低了工作效率。而因文档格式不一、内容繁杂,即使找到信息,也需花费额外时间梳理、理解,难以直接应用到实际任务中。在处理复杂项目时,因无法及时获取全面准确的知识支持,员工易出现决策失误或工作重复,影响项目成果与个人效率。

1.2、企业文档处理的挑战分析

在企业内部,文档类型呈现显著的多样性特征,主要可分为有标记格式和无标记格式两大类。

  • 有标记格式文档(如Word、Markdown、网页等)由于自带结构化标签,计算机可直接进行解析处理,易于被大语言模型理解和分析
  • 无标记格式文档(如PDF、扫描图像等)则缺乏结构化标签,不具备可编辑性,难以被模型直接处理。值得注意的是,无标记文档在企业文档体系中往往占据较大比重,且蕴含着丰富的关键信息。以产品研发部门为例,产品设计图纸、工程图纸等技术文档通常包含产品的技术参数、结构细节、工艺流程等核心知识,这些信息对产品的迭代升级、生产制造及售后服务具有重要的战略价值。
    在这里插入图片描述

其次,文档布局的多样性也是企业知识库构建面临的主要技术挑战之一。不同文档的布局特征差异显著,这对知识库系统的解析与信息提取能力提出了更高要求。

  • 对于水印文档,系统需在消除水印干扰的同时确保正文内容的准确提取;
  • 对于双线表格,要求精确解析文档中复杂的行列关系;
  • 对于行内公式,系统需具备区分文本与数学表达式的能力;
  • 对于混合表格,其融合了文本、数字、公式等多种元素,进一步增加了解析难度。

这种布局多样性要求知识库系统在信息提取过程中,不仅要准确获取内容,还需完整保留原文档的逻辑结构与关键信息关联,以确保在后续的问答交互与知识检索中能够呈现完整、连贯的知识体系,避免因布局信息丢失导致的理解偏差或信息不完整问题。

在这里插入图片描述
此外,企业内部的文档资料往往包含大量涉及商业机密、客户隐私等敏感信息,若采用云端存储方案,将面临较大的数据泄露风险。因此,企业需要构建具备强大本地化部署能力的知识库系统,有效防范数据泄露事件的发生,确保企业核心知识资产的安全性和可控性。

二、实践体验IntFinQ知识管理及写作助手

2.1、系统核心特点

最近我也是在广泛调研测试各家的知识库产品,刚好发现了合合信息推出的一款知识库问答产品IntFinQ,其能够支持解析多种文件格式,为企业和个人轻松打造知识库。其主要功能包括:

  • 智能问答与对话式交互:支持单份或多份文档的实时问答,用户可通过自然语言获取精准信息,实现 “所问即所得”;
  • 深度概括与定位:自动提炼文档核心内容,生成简明摘要,并在检索结果中标注原文段落,答案可溯源;
  • 多维数据分析与对比:支持同行业多公司横向对比、多文档纵向时序分析,将海量数据转化为商业洞察。

2.2、实践体验

话不多说,这里我们展开试用,首先进入TextIn IntFinQ官网,点击开始在线试用,进入IntFinQ控制台。
在这里插入图片描述
IntFinQ控制台包括知识检索公共知识库个人知识库管理和一个内置了AI的创作中心

知识检索可以直接输入业务关键词进行全平台知识检索,输入“宁德时代2024年上半年经营情况”,它会快速呈现与之相关的各类信息,包括财务数据、市场份额变化、新产品发布情况等。这种高效检索能力,不仅能满足用户对特定信息的获取需求,还能帮助用户在海量数据中挖掘出有价值的洞察。

在这里插入图片描述
个人知识库管理则允许用户上传自己的文档,建立专属的个人知识库,可以将工作中的重要文件、学习笔记、技术文档、研究报告等上传到这里,方便随时查阅和管理,比如这里我上传几份RAG与大模型的相关知识库:
在这里插入图片描述
然后勾选个人知识库,并进行提问:
在这里插入图片描述
IntFinQ能够准确读取扫描文档中的图像图表,并进行总结回复,这得益于其自研的TextIn ParseX引擎,不仅能识别图表中的数据点,还能理解这些图像报表的结构与数据间的关系,从而为用户提供深入的分析和见解。
在这里插入图片描述
内置的创作中心也比较有意思,这里由于篇幅原因不再详细展开叙述。

2.3、IntFinQ本地化部署

本来体验到这里也快要结束了,但是我惊喜的发现,合合信息技术团队开源了IntFinQ的社区版chatdoc_stack代码,并且还在不断地维护中,仓库地址在这里:https://github.com/intsig-textin/chatdoc_stack

在这里插入图片描述
那么秉承动手实践的原则,我把仓库克隆了下来并进行了本地化部署。首先使用git clone https://github.com/intsig-textin/chatdoc_stack.git克隆仓库或者下载压缩包到本地:
在这里插入图片描述
由于我使用的是windows系统,所以不能直接运行initialize.sh的自动部署脚本,我这里使用手动部署,首先登录TextIn工作台,获取API Key和Secret Key:
在这里插入图片描述
然后进入compose目录,并打开docker-compose.yml,将API ID和Secret Key填入到compose/docker-compose.yml文件中相应位置(有chatdoc-proxy、chatdoc、backend三处),另外还要将大模型的api key填入到compose/docker-compose.yml文件中相应位置(有chatdoc-proxy、chatdoc两处):
在这里插入图片描述
然后打开控制台,输入docker-compose up拉取docker镜像:
在这里插入图片描述
在这里插入图片描述
启动镜像完成后,一共是有十个containers,如下图所示,其中backend是后端,占用48092端口,mysql是数据,占用3307端口,frontend是前端,占用48091端口:
在这里插入图片描述
除了启动镜像外,还需要配置数据库,这里可以在initialize\mysql中找到数据库脚本:
在这里插入图片描述
打开Navicat,新建一个端口号为3307的本地连接,用户名和密码在docker-compose.yml文件中也给了,默认分别是root和Pwd_250309:
在这里插入图片描述
新建连接后,将刚刚的两段数据库脚本导入进去,就能得到名为gpt_qa的数据库,这样就完成了所有的初始化工作。最后我们在本地浏览器输入http://localhost:48091/就能进入本地部署好的IntFinQ。
在这里插入图片描述
如果选择前端用源代码启动的话,需要配置对应的前端proxy代理,可以找到\code\frontend,将nuxt.config.ts中的server改为:

    server: {
      proxy: {
        // 代理所有以 /api 开头的请求
        '/api': {
          target: 'http://127.0.0.1:48092', // 目标服务器地址
          changeOrigin: true, // 修改请求头中的 Origin
        },
        
      }
    }

在这里插入图片描述
然后使用yarn install和yarn dev启动前端,输入http://localhost:3001/就可以进入了。

这里随便上传一个文件,可以看到能够正常调用到TextIn ParseX接口进行解析,大功告成,后面就可以和在线版一样进行知识检索了!

在这里插入图片描述

三、体验总结

体验完IntFinQ,说一点心里话,他最吸引我的,是它构建了一条完整的自研技术闭环:从自研文档解析的TextIn ParseX引擎,到国产文本向量化模型ACGE完成领域知识的深度沉淀,最终通过ChatDoc架构实现智能化的知识应用

在这里插入图片描述
其中,TextIn ParseX引擎展现出卓越的多格式文档解析能力,支持PDF、Word等主流文档格式及图片文件的高效解析,能够对图表的关键数据点、布局、线条、颜色、标记等多维度特征进行深度建模;而ACGE模型作为国产文本向量化模型,能够实现领域知识的精准嵌入,提升知识检索的准确率;ChatDoc架构将这些技术优势转化为实际应用价值。

对于个人开发者,可将已开源的知识库组件接入自身应用,实现产品文档解析、智能问答等功能。此前,合合信息已开源智能文档处理“百宝箱”系列产品,解决文档解析精度低、解析效果评估难和大模型幻觉等问题,开发者可根据研发需求灵活搭配使用,进一步提升文档解析效率。

TextIn 体验注册链接:https://www.textin.com/user/login?redirect=%2F&from=0320xpkx-pr-kol

Logo

助力广东及东莞地区开发者,代码托管、在线学习与竞赛、技术交流与分享、资源共享、职业发展,成为松山湖开发者首选的工作与学习平台

更多推荐