热门看点:加速 AI 推理,探索英特尔 ® 至强 ® 可扩展处理器在 OCR 应用落地方面的实践
来源:量子位     时间:2023-07-01 00:58:03

利用 AI 加速企业业务的自动化进程,推动业务流程的数智化重塑或升级,已经成为企业提升工作效率、助力商业创新的重要方式。在此过程中,由 AI 赋能的智能光学字符识别 ( OCR ) 应用发挥着日益重要的价值。

随着人工智能技术的发展,由 AI 赋能的 OCR 已经在金融、政府、制造、互联网、医疗等行业的单据识别、信息流入、图片翻译、车牌识别等场景得到广泛应用,帮助企业有效地释放人力资源,提升工作效率,为广泛的数智化应用提供基础能力支撑。


(资料图片)

部署智能 OCR 应用能为企业业务及 AI 应用布局带来哪些回报?

用友算法工程专家宋祺、亚信科技产品运营专家吕莹、东软集团医疗保障事业部产品发展部部长黄小卫、英特尔人工智能软件架构师桂晟、虎博科技创始人 &CEO 陈烨,围绕《从 OCR 起步推进企业 AI 应用落地》这一主题进行了精彩的分享。

AI 赋能 OCR,助推企业增效降本

随着当前大语言模型的发展,OCR 技术将会成为大语言模型应用的一个重要入口和前置的输入来源。OCR 本身是个很大的市场,其算法和程序需要部署在很多地方,可能是公有云、私有云,或者是边缘的本地服务器,甚至是一些终端设备上。

有非常多的软件开发商和算法供应商参与其中,厂商们通常需要一个更有成本优势、硬件适配性更广的解决方案。

总体看来,用户有如下亟待解决的两个问题:

一是要解决使用 GPU 带来的高成本和难部署问题;二是要提高 CPU 的计算性能。

为此,用友、亚信、东软选择与英特尔合作,借助英特尔 至强 可扩展处理器的强大性能和内置 AI 加速器提升 OCR 应用性能,赋能客户加速数智化转型。

优化 OCR 应用性能,充分释放 CPU 计算潜能

用友算法工程专家宋祺分享了《英特尔 AI 加速技术在用友 OCR 场景的应用》。

为了兼顾 GPU 利用率和调用峰值服务的可用性,在月末报销量大、服务调用都集中时,用友采用了一套异构处理器的服务架构,即利用搭载了 OpenVINO 工具套件的英特尔 至强 可扩展处理器将高峰期的数据分流。仅需增加两台 16 核的 CPU 服务器,即可满足峰值,使峰值时的 GPU 使用数量降低了 50%。

经过 OpenVINO 工具套件优化的算法服务,响应时间降低到 3 秒以内,使得在切换整个处理架构时不会影响整体的业务响应时间和对应的时延,对用户是无感知的。

亚信科技产品运营专家吕莹介绍到:亚信科技机器人流程自动化平台(AISWare AIRPA)是通过模拟并增强人类与计算机的交互过程,实现工作流程自动化的平台。其在 RPA 功能的基础上,提供了强大的智能 OCR 支持。

在智能 OCR 应用中,亚信科技通过第四代至强 可扩展处理器和英特尔 AMX 支持实现从 FP32 到 INT8/BF16 的量化,从而在可接受的精度损失下,增加吞吐量并加速推理。

从结果上来看,相比传统人工方式,成本降到至 1/5 到 1/9 之间,而且效率还提升约 5-10 倍。

东软自研的 OCR 识别算法是基于深度学习主流技术实现的,能够在复杂的背景下识别出不同医院、不同格式的票据、处方、发票、费用清单、明细等票据信息。在英特尔 至强 可扩展服务器和 OpenVINO 环境下,它能够获得更高的识别准确率和更快的识别速度。

并且东软在方案设计的阶段就和英特尔公司合作,采用不同代际的至强 可扩展处理器的服务器来进行整体算法性能的验证。最终实验结果表明,在第四代英特尔 至强 可扩展处理器上采用 OpenVINO 进行模型推理加速将大幅提升 OCR 的识别性能。

这些 OCR 应用的成功应用,都少不了英特尔软硬件产品的加持。

英特尔人工智能软件架构师桂晟表示,随着英特尔 至强 可扩展处理器的演进,单个 CPU 的核心数量不断增加,从第一代的最多 28 核增长到第四代的最高 60 核,核心数量的增多带来了更加强大的算力。

除此之外,英特尔还在 CPU 指令集方面专门为人工智能应用进行了很多优化,例如英特尔 AMX。英特尔 AMX 针对广泛的硬件和软件优化,通过提供矩阵类型的运算,显著增加了人工智能应用程序的每时钟指令数 ( IPC ) ,在 AMX 加速引擎的助力下,至强 可扩展处理器不仅能用来做推理,还能用来处理一些机器学习训练的工作负载。

大模型技术驱动下,OCR 未来路在何方

大模型技术会为 OCR 及相关应用带来哪些新的变革?将如何为各行各业赋能?在本场研讨会的最后,虎博科技创始人 &CEO 陈烨围绕《大模型落地应用思考,展望 OCR 及相关应用的新技术发展》进行了详细的分享。

谈到智能 OCR,陈烨表示其产品的关键点主要有两个:一是知识库建立要准,要真正把文件理解好,把它转化成知识库和大模型能够理解的形式;二就是大模型。

而虎博科技的定位就是给大家提供一个基础模型,使用户可以基于基础模型迅速打造出自己领域里的大语言模型和应用。

陈烨认为这整个旅程才刚刚开始,虎博科技很期待和大家、生态伙伴、开发者、应用者,一起来见证接下来人工智能 NLP 大语言模型令人兴奋的、繁荣的几十年。

标签:

广告

X 关闭

广告

X 关闭