国务院发布的《新一代人工智能发展规划》指出,面向国家重大战略需求,多媒体信息理解的人机对话系统是需要突破的关键共性技术。当前,人机对话技术的应用已走进人们的日常生活,比如手机语音助手、车载对话机器人、对话导览机器人、智能语音音响、智慧客服等,让用户更加便捷使用的同时,也为企业节约了大量的人工成本。
中国人工智能学会发布的《中国自然语言处理白皮书》指出,人机对话是自然语言处理技术最为典型的应用之一。中国工程院院士李德毅认为,机器人具备语音交互的能力是行业高质量发展的关键。科大讯飞董事长刘庆峰也认为,语音将成为最重要的人机交互方式。
不过,训练一个能与个体进行自然交互的对话系统绝非易事,因为对话场景的类别无法穷尽,对话生成的可能性也是无限的,对话系统面对的用户口音、背景都不尽相同,这种巨大的不确定性以及如何让机器拥有常识,都为技术的泛化能力带来了巨大的挑战,之江实验室的科研人员和工程师正在尝试攻克这些难题。
大规模数据集是深度学习模型训练的基础,中国科学院院士张钹指出,大数据对人机对话模型水平提升有重要意义。作为浙江省委、省政府实施创新驱动发展战略、探索新型举国体制浙江路径的重大科技创新平台,目前,之江实验室探索构建了世界上规模最大的多模态对话数据集,以及1800分钟面向中文安抚对话的语音合成数据集,2000分钟针对“语音-文本-图像”三个模态的情感识别数据集,数据的绝对量增长促进了深度学习工具和技术的发展。在多轮对话生成方面,之江实验室攻克了多轮情感对话难题,基于预训练语言模型、主题自适应增强模型、检索与生成双驱动策略,使长时间对话情况下主题识别率达到85%以上、回复满意度达到75%以上。
为了实现更有温度的人机交互,之江实验室针对拟人化对话生成中的共情交互瓶颈,自主研发了深度语境理解的拟人化对话生成技术。该技术基于个性化的多维对话情境表征输入,结合对话主题内容、用户情感状态等多维信息进行深度对话语境理解,同时突破基于情感交互策略的多模型回复生成、回复文本排序及情感语音合成等技术,使得机器与人的交互不再冰冷,更加友好而智慧。
在新冠肺炎疫情期间,对话交互这种无接触的交互方式得到了较大的推广,除了在市长热线与防疫咨询平台的应用以外,在电梯操控、无人超市等公共场所的应用,在一定程度上减少了接触带来的交叉感染,有助于提升公共卫生防护水平。同时,智能人机交互系统还可广泛应用于城市大脑统一服务平台、AI心理医生、老年陪护、智能家居、智能车载、智慧高铁、随身设备等领域,有助于提升智慧城市、智慧交通、智慧公共服务等领域的运行效率和管理水平,对提升自主可控能力,培育未来产业和孕育新经济增长点具有重要意义。
(责任编辑:韩梦晨)