即便采用了进程池的方式提高了单卡的GPU利用率,也会因CPU的限制,导致机器整体的GPU利用率不高。这种情况下,引入Triton推理服务器进行推理部署,实现了推理与业务代码的解耦,初步实现了GPU资源池化调度。只是,早前这些信息均采用人工处理,需要耗费大量人力,这在很大程度上阻碍了企业的办公效率。
文档类型图像被广泛使用,如证件、发票、合同、保险单、扫描书籍、拍摄的表格等。这类图像包含了大量的纯文本信息,还包含有表格、图片、印章、手写、公式等复杂的版面布局和结构信息。自2017年以来,金山办公在图像文档识别与理解领域已达到了国内领先水平。
图像识别与理解是一个很复杂的过程,一个任务的pipeline用到的深度学习模型多达20+个,且日请求量级较大,需要大量的计算资源。当业务落地时,团队主要面临以下两个挑战:任务的绝对耗时不能过长,以及成本问题。
为了解决上述的两个挑战,金山办公采用了英伟达T4 Tensor Core GPU进行推理、英伟达TensorRT 8.2.4进行模型加速、英伟达Triton推理服务器22.04在K8S上进行模型部署与编排。
长链路意味着长耗时,若基于CPU推理的话,pipeline耗时会长达15秒左右,通过GPU推理和TensorRT加速,成功将耗时降低到了2.4秒左右。
曾几何时,处理各类图像文档是许多企业办公的痛点。人工处理不仅耗时耗力,而且准确率难以保证。金山WPS AI的图像文档识别与内容理解业务,正是为了解决这一难题而生。
以某知名金融机构为例,他们每天需要处理大量的合同、发票等图像文档。通过引入金山WPS AI,实现了文档的自动识别和分类,效率提升了近两倍。这不仅解放了人力,还保证了文档处理的准确性和及时性。
金山WPS AI在图像文档识别与理解领域,已达到国内领先水平。这得益于其采用的CV与VIE等深度学习技术。例如,通过CV技术,能够快速识别发票和PDF大纲,并准确提取其中的数据关系。
自2017年以来,金山办公不断深耕这一领域,日请求次数已达上亿次。这不仅体现了技术的成熟度,也证明了其在实际应用中的广泛需求。