科大讯飞推出 VoiceWise 智能语音交互方案,降低企业级语音 AI 部署门槛

2026-06-04 10:53:10
来源:IT之家
分享
AIME

问财摘要

1、科大讯飞推出VoiceWise智能语音交互产品族,面向企业智能客服、远程银行、手机银行语音助手、智能外呼、坐席辅助、语音质检等高频场景,提供从语音输入、实时理解到自然表达的完整交互链路。 2、该产品包括高性能CPU版ASR、全双工语音交互、超拟人TTS等能力,解决了企业级语音AI的部署成本、并发性能、国产化适配和自然交互体验等问题。 3、VoiceWise的推出,反映出科大讯飞在企业级语音交互领域的产品化方向:通过更轻量的部署方式、更自然的全双工体验和更完整的语音能力闭环,推动智能语音从“可用工具”走向“业务入口”。
免责声明 内容由AI生成
文章提及标的
科大讯飞--
信创--
能源--

随着大模型技术加速进入金融、政务、运营商、能源(850101)等行业场景,语音交互正在从单一的“识别能力”竞争,走向部署成本、并发性能、国产化适配和自然交互体验的综合竞争。

近日,科大讯飞(002230)面向企业级场景推出VoiceWise智能语音交互产品族,通过高性能CPU版ASR、全双工语音交互、超拟人TTS等能力,面向企业智能客服、远程银行、手机银行语音助手、智能外呼、坐席辅助、语音质检等高频场景,提供从语音输入、实时理解到自然表达的完整交互链路。

企业级语音AI进入规模化落地阶段

过去几年,语音识别技术持续演进,基于大规模预训练模型的ASR能力在准确率、多语种、多方言和复杂噪声场景下不断提升。但在企业实际部署中,技术效果并不是唯一门槛。

一方面,金融机构、大型央国企和政务客户往往面临严格的成本测算、基础设施适配和信创(886013)要求。部分高性能语音识别方案依赖GPU资源,在大规模客服、外呼、质检等并发场景下,硬件采购、扩容和运维成本较高。另一方面,传统语音交互多采用“用户说、机器听;机器说、用户等”的半双工模式,面对真实对话中的打断、补充、停顿、噪声和多人干扰,容易出现抢话、误判、响应不自然等问题。

这意味着,企业级语音AI的下一阶段竞争,不只是“识别准不准”,更是能否在真实业务系统中“跑得起、接得住、聊得顺、用得久”。

高性能CPU版ASR:降低部署与扩容成本

VoiceWise高性能CPU版ASR主要面向企业私有化部署、国产化适配和大规模并发场景。该能力包括在线短语音识别和离线录音文件识别两类引擎,在无需GPU的情况下可基于CPU环境运行,并支持鲲鹏ARM架构和麒麟Linux等国产化基础设施。

据介绍,在同等配置的鲲鹏ARM服务器上,新版本相较传统CPU版本在并发和吞吐方面实现提升:在线短语音识别并发路数提升约90%,离线录音文件识别吞吐量提升约150%。对于客服中心、录音质检、智能外呼等高并发场景而言,这意味着同样业务量可由更少服务器承接,同样预算也能覆盖更高峰值需求。

除性能优化外,高性能CPU版ASR还面向普通话、英文及重点方言持续优化,并支持中英混合识别、方言转写、行业热词定制、智能标点、数字规整、强制替换等后处理能力。这类能力对于金融、政务等专业术语密集、业务流程复杂的场景尤为关键。

全双工语音交互:让AI更接近自然对话

在解决“跑得起”的问题之后,语音交互还需要解决“聊得顺”的问题。

传统语音交互更接近轮次式对话,用户必须等待系统播报结束后才能继续表达。这种模式在简单指令场景下尚可使用,但在金融咨询、业务办理、投诉处理、智能导航等复杂场景中,用户经常需要补充信息、打断纠正或临时改变意图,传统系统容易出现响应滞后或误打断。

VoiceWise全双工语音交互技术围绕“精准抗干扰”和“智能打断”进行优化,使系统在AI播报的同时仍能持续拾音和理解用户表达。系统既要识别用户声音,也要处理设备自干扰、环境噪声、多人交谈等复杂信号,从而在嘈杂环境下保持稳定交互。

在智能打断方面,系统可在用户补充、纠正或改变意图时快速响应,同时在用户短暂停顿、思考措辞时避免误判为对话结束。据介绍,VoiceWise全双工能力可使误打断率下降50%,提升人机对话的连续性和自然度。

对于银行客服、证券App语音助手、保险续保外呼等场景而言,全双工能力的价值不只在于“能否打断”,更在于系统是否能够理解真实对话节奏,让用户不必迁就机器的表达方式。

从单点能力到语音交互闭环

科大讯飞(002230)方面表示,VoiceWise并非单一语音识别或语音合成工具,而是面向企业级语音交互的能力矩阵。其中,高性能CPU版ASR解决“听得清、跑得起、扩得开”的问题;全双工语音交互解决“聊得顺、体验自然”的问题;超拟人TTS则补齐“答得自然、有温度”的表达环节。

在客服质检场景中,离线识别引擎可低成本、高吞吐地处理历史录音,并支撑质检、分析、合规审查等后续流程。在实时客服和远程银行场景中,在线识别和全双工交互可支撑智能导航、业务办理、坐席助手等链路。在手机银行、证券交易App等移动端场景中,低延迟语音交互可让用户通过自然语言完成查询、咨询、选股、下单、办理引导等操作。

从行业应用看,企业客户对智能语音交互的关注点正在从单一技术参数转向业务链路效率:高峰期是否接得住,国产化环境是否跑得稳,用户是否愿意继续说,人工坐席能否从重复性问题中释放出来,以及语音入口能否真正成为业务办理入口。

智能语音进入“大模型+工程化”竞争阶段

在大模型浪潮下,企业正在重新评估语音交互的价值。相比文本输入,语音仍是电话客服、远程银行、智能外呼、移动应用入口等场景中最自然、最高频的交互方式。但要让语音AI真正进入核心业务流程,企业需要的不只是模型能力,还包括工程化部署能力、行业适配能力和稳定运行能力。

业内人士认为,智能语音的产业化竞争正在进入新阶段:一方面,大模型提升了语音识别、意图理解和自然表达的上限;另一方面,企业真实场景对低成本、高并发、国产化、低延迟和可持续运营提出了更高要求。

VoiceWise的推出,反映出科大讯飞(002230)在企业级语音交互领域的产品化方向:通过更轻量的部署方式、更自然的全双工体验和更完整的语音能力闭环,推动智能语音从“可用工具”走向“业务入口”。

随着金融、政务、运营商、能源(850101)等行业持续推进智能化升级,语音交互有望在客服、营销、风控、运营管理和移动服务中承担更重要角色。对于企业而言,语音AI的价值也将不再局限于降本增效,而是进一步参与客户体验、业务转化和服务流程重构。

免责声明:风险提示:本文内容仅供参考,不代表同花顺观点。同花顺各类信息服务基于人工智能算法,如有出入请以证监会指定上市公司信息披露平台为准。如有投资者据此操作,风险自担,同花顺对此不承担任何责任。
homeBack返回首页
不良信息举报与个人信息保护咨询专线:10100571违法和不良信息涉企侵权举报涉算法推荐举报专区涉青少年不良信息举报专区

浙江同花顺互联信息技术有限公司版权所有

网站备案号:浙ICP备18032105号-4
证券投资咨询服务提供:浙江同花顺云软件有限公司 (中国证监会核发证书编号:ZX0050)
AIME
举报举报
反馈反馈