科学院团队提出智能产品的三种AI智商评价标准
在人工智能热潮的今天,越来越多的智能系统和智能产品不断涌现,从聊天机器人,家庭服务机器人到智能音箱,AI手机,扫地机器人,无人驾驶汽车,等等等等。面对不断智能化的世界,如何衡量这些智能产品的智能水平。如何区分哪些产品是AI产品,哪些是伪智能产品。AI的智商问题由此提出。
科学院虚拟经济与数据科学研究中心和未来智能实验室研究团队在研究中发现,人类在讨论AI的时候,关键目的并不相同,从而导致在评估AI智商时的评价体系也会出现差异,第一个主要目的是评判当前的AI系统,机器人是否在智力上超越人类 ,第二个主要目的是了解当一个智能产品在服务人类时,究竟有多么聪明,和要付出多少价格。根据这一关键区别,研究人员提出AI系统应该存在三种智商,分别是通用智商、服务智商和价值智商。相关英文论文与2017年12月19日发表在美国康奈尔大学的预印本网站arxiv.org上.
据研究团队成员,互联网进化论作者,计算机博士刘锋介绍:从1950年图灵测试提出以来,科学家已经为人工智能发展的评价体系做了很多工作。1950年,图灵提出了著名的图灵实验,采用提问和人类裁判的方法,判断一台计算机是否具有同人相当的智力。作为最被广泛应用的人工智能测试方法,但图灵测试并不检验Ai的智能发展水平,只是判断智能系统能否与人类智能相同,而且受人为因素干扰太多,严重依赖于裁判者和被测试者的主观判断,因此往往有人在没有得到严格验证的情况下宣称其程序通过图灵测试,
对智能系统包括人类和人工智能系统的智力能力进行评测面临两个重要挑战:第一,人工智能系统目前没有形成统一的模型;第二,人工智能系统与以人类为代表的生命体之间的比较目前没有统一的模型。
针对这一问题,2014年 ,未来智能实验室研究团队,科学院虚拟经济与数据科学研究中心刘锋博士,石勇,刘颖教授参考冯·诺伊曼结构、戴维·韦克斯勒人类智力模型、知识管理领域DIKW模型体系等。提出“标准智能模型”,统一描述人工智能系统和人类的特征和属性,将任何一个智能体视为同时具有“知识的获取,掌握,创新和反馈”的系统。
基于标准智能模型,为了解决AI究竟能否超越人类的智慧,研究团队建立AI智商测试量表,分别与2014年和2016年对包括谷歌、Siri、百度、Bing等50多个人工智能系统和6岁,12岁和18岁人群进行AI智商测试。从测试结果看,谷歌、百度等人工智能系统的性能比两年前已有大幅提高,但仍与6岁儿童有一定差距。
但这个研究主要是为了解决AI能否超越人类智能这个问题而开展的,这个研究是将每一个智能系统包括机器人,AI软件系统,人类,动物和其他生物当做平等的智能体,观察其智能水平并进行对比,根据这一原则建立的AI智商就是AI 的通用智商(AI G IQ)。
但是在很多时候,除了少数AI系统的产生是出于科学实验目的,不为人类提供辅助性服务,其他大多数AI系统是为了更好的服务于人类而被制造出来,它的智能也主要体现在为人类服务的过程中,智能水平越高,也就能更好的为人类提供服务。
这种情况下,如果用AI的通用智商标准进行评测,就明显与产品的最初被制造出来的目的有重大差异。这就需要我们根据此类AI系统的特点,基于标准智能模型,选择与服务相关的指标进行评测,这时产生的机器人,AI系统的智能水平评测分数,就是AI 的服务智商(AI S IQ)。
对于为人类提供服务或支撑性工作的AI系统,为了实现同样的服务内容,往往会由不同的公司和企业提供相应的智能产品,例如智能音箱就有亚马逊、百度等品牌,智能聊天机器人包括科大讯飞、苹果Siri等,由于是由不同企业生产制造,完成相同或相近功能,每个企业的造价或售价也会不同,服务智商与成本或价格关联会对消费者购买智能产品产生重要的影响。将智能系统的服务智商除以该系统的出售价格,形成的智能评测分数,可以称为AI系统的价值智商,(AI V IQ)。
AI系统三种不同智商的提出,可以更为清晰的判断智能产品在不同领域的智能水平,据刘锋博士介绍,AI三种智商已经分别建立了测试评价标准,在2017年 12月20日举办的AI智商评价标准专家研讨会上进行了讨论和公布。并开始对具体的智能产品进行评测。