全球首个《AI对话系统分级定义》发布-清华大学

28日，由清华大学计算机教授、智能技术与系统实验室副主任黄民烈发起，联合了十余家科研机构、二十多位知名学者共同制定的全球首个《AI对话系统分级定义》(以下简称《分级定义》)正式发布，《分级定义》将推动AI对话系统在虚拟个人助理、智能家居、智能汽车(车载语音)、情感陪护和心理健康等领域的应用有据可依，并将加速下一代AI对话系统的研发与应用。

起源于图灵测试的AI对话系统，是人工智能领域最重要的研究方向之一。AI对话系统被认为是衡量人工智能发展水平的重要因素，代表了人工智能的发展方向。在工业应用领域，AI对话系统呈现出“爆炸式”增长的态势，如以“小度”“小爱”为代表的智能助理，广泛应用于个人助理、智能家居、智能汽车中，还有以谷歌对话机器人Meena、Facebook聊天机器人Blender为代表的开放域闲聊产品中，与大众日常生活紧密相关。

近年来，随着深度学习技术的不断发展，AI对话系统已经从基于规则的第一代和以传统机器学习为核心的第二代，发展到以大数据和大模型为显著特征的第三代，对话能力产生了革命性变化，在开放话题上展现了惊人的对话能力，对进一步推动人工智能产业发展、实现智能化具有巨大意义和价值。

然而，作为前沿技术，当前AI对话系统标准缺失，造成其在应用中呈现出水平参差不齐、评价体系不一的现状，导致了业界因认知不统一而对人工智能交互水平出现误解，也引起了社会上关于意识、伦理、道德等方面的广泛讨论。此次推出的《AI对话系统分级定义》旨在衡量AI对话系统的能力水平，从而促进AI对话系统的进一步研究，同时为工业界应用提供参考。

黄民烈教授当日详细介绍了《分级定义》的制定情况。他表示，考虑到AI对话系统任务繁多、评价维度多样、技术路线丰富，撰写小组在制定《分级定义》时仅关注完全由机器主导的对话系统，人机混合的对话系统不在考虑范围内。同时，为了在实际应用中发挥价值，《分级定义》的制定是从用户可感知，以及可观察、可测量、可度量的角度出发，不考虑系统的具体技术实现方式，也不区分助理类任务、闲聊、知识对话等，均以“场景”进行表述。

在上述原则之下，《分级定义》从自动对话能力、对话质量高低、单一/多个场景、跨场景的上下文依赖和自然切换能力、拟人化程度、主动和持续学习能力、多模态感知与表达能力等角度出发，将AI对话系统划分为从L0~L5的六个等级，等级越高，AI对话系统水平越高。

据介绍，在此《分级定义》的标准之下，当前AI对话系统水平最高已发展至L2~L3之间，常见的如“小爱同学”等AI智能助理。

发布现场，各位参加制定的专家学者，就《分级定义》的发布、AI对话系统的发展等话题与媒体进行了交流。华为诺亚方舟语音语义首席科学家、ACL Fellow刘群表示，本次《分级定义》的制定在行业内是一次大胆的尝试，能够引发AI对话系统研究领域的思考和讨论，帮助研究人员更好地发现系统的问题并明确研究方向。

小米技术委员会主席、AI实验室主任王斌表示，在从事AI智能助理的研发过程中，时常感到难以评判所开发AI对话系统的水平，因此《分级定义》的制定非常必要。《分级定义》发布后，AI对话系统能力水平的衡量将有据可依，对于用户来说，能够更多地关注、更清晰地理解AI对话系统；对行业来说，有助于企业明确研发方向，也能够促进行业更规范地发展。

北京师范大学新闻传播学院院长张洪忠一直非常关注社交机器人所带来的伦理挑战，他认为《分级定义》的发布有助于社会对AI对话系统的发展阶段形成更清晰地认知，对于思考、讨论、制定法律规范形成有力参考，以规避AI对话可能产生的伦理问题。

AI对话系统最高级别的应用为复杂情感任务，该《分级定义》的发布被认为将促进AI对话系统在情感任务中体现更高水平，从而促进人工智能未来在情感陪伴、心理健康、虚拟人、元宇宙等方面的应用，大大释放人力和物力成本，促进前沿科技走进大众日常生活。

此次《分级定义》的发布，是AI对话系统走向规范化、系统化发展的第一步。据悉，接下来，黄民烈教授将联合该领域相关研究机构及研究者开展白皮书的编纂，聚焦AI对话系统的发展历程，详细阐释《分级定义》的制定目的和标准。

编辑：李华山

2022年07月01日 07:41:06