cnBeta.COM_中文业界资讯站

ChatGPT中文频频出错,中国需要自己的生成式AI

2023-03-05 来源: 未知 作者:admin 次阅读

​全班第一的论文是它写出来的、89%的美国学生用它来完成作业、2个月内超过1亿用户向它提问……最近一段时间,聊天机器人ChatGPT火遍全球,它以强大的语言处理能力、海量的数据积累等特点让用户感到惊讶甚至震撼。但随着使用的人越来越多,ChatGPT开始暴露在一些场景下的缺陷和不足,让网友吐槽“智障”。

另外,ChatGPT在中文语境下的表现也差强人意,存在很多错误,也经常胡编乱造。究其原因,ChatGPT等大型语言模型需要大量的计算资源和数据才能够进行训练,而目前,ChatGPT被“投喂”的数据主要都是英文数据,处理文本时也是基于处理英文的方法理解和生成,而中文的语法与英语有很大不同,受到语言障碍、文化差异的影响,ChatGPT势必对中文、中国文化“水土不服”,无法适应中国的环境和要求。

因此,中国需要自己的生成式AI,哪怕不完美。即将上线的百度文心一言,代表中国生成式AI产品站在了全球技术竞赛场上,是巨大的胜利,意义非凡。

ChatGPT=人工智障?

对于ChatGPT的“人工智障”表现,用户反映最多的问题是它经常“一本正经地胡说八道”。经常存在事实性错误,无法判断它回答的对错。不仅仅是在中文相关的题材下,就连在西方知识题材中也会胡言乱语。将王勃《滕王阁序》的诗句说成出自王焕之《登鹳雀楼》,将钢琴女祭司玛塔·阿格里奇说成20世纪最杰出的小提琴家之一。

 

并且有时结果并不稳定,换个问法后甚至刷新一下ChatGPT的回答可能会变化。

 

并且ChatGPT并不诚实,也无法查询获知最新的信息和知识。这在一些垂直领域的使用中,特别是像高校科研这种需要前沿研究和实时数据的场景下,实属不便。问询前沿问题,让它帮忙查找一篇论文,它的回答看起来有条有理,但DOI指向的是另一篇论文,题目和作者甚至都是捏造不存在的。

 

对于互联网上含有大量非英语语言,比如中文,没有丰富的中文训练数据,它有时就会胡言乱语。甚至当问题就是错的时,ChatGPT仍然会顺着往下说,一骗就上当。

 

再退一步,不在query设置专业限定词,而是简单问题,ChatGPT在中文语境的错误还是比较多的。

 

当ChatGPT脱离通用领域来到需要极其丰厚的领域知识的垂直领域,它还不一定合适。下图是ChatGPT在中文字词相关问题上的回复,涉及拼音相关的知识,尽管好像有一些道理,但结果是错误的。

 

文心一言:中国自己的生成式AI

以上提到的一些缺陷,无疑说明了ChatGPT距离“完美”依然有着不小的距离,比如中文基准的自然语言处理效果、面对国内用户的限制、不能获取新的知识等。在当前全球的ChatGPT热潮下,中国更应该有自己的生成式AI产品,哪怕不完美。

在这样的背景下,百度文心一言,作为一家中国自研的生成式AI产品,站在了全球技术竞赛场上,与世界争锋,即使不完美,也是英雄。这不仅对于我国人工智能技术的发展和国际数据争夺意义重大,也弥补了我国缺乏与国外人工智能对话机器人相匹配的人工智能技术带来的一系列隐患。

据介绍,文心一言由最新大语言模型(LLM)提供支持,是继文心一格之后百度的又一个生成式AI产品。文心一言的全部代码、训练平台全部是百度自研,放眼中国,目前为止还没有第二家能够做到。

百度在人工智能领域深耕十多年,在技术上有综合优势,基础能力已完全具备。百度创始人、董事长兼CEO李彦宏曾表示,人类进入人工智能时代,IT技术的技术栈发生了根本性的变化。过去基本分为三层:芯片层,操作系统层和应用层。现在可以分为四层:芯片层、框架层、模型层和应用层。百度是全球为数不多、进行全栈布局的人工智能公司,从高端芯片昆仑芯,到飞桨深度学习框架,再到文心预训练大模型,各个层面都有领先业界的关键自研技术,可以实现端到端优化,大幅提升效率。

文心一言处于四层技术架构中的模型层。根据百度官方对外披露的信息,百度的文心大模型,在2019年就已经推出,并且已经迭代了多代,从单一的自然语言理解延伸到多模态,包括视觉、文档、文图、语音等多模态多功能,百度文心系列大模型在行业已普遍应用,而能支撑该训练模型的框架,目前国内没有谁可以超越百度飞桨。

在国内,百度的文心一言,还可能在一些地方实现对ChatGPT的超越。

百度有多年的搜索经营积累,在真实数据和用户需求理解方面,有较强的先发优势。因此,相比ChatGPT,文心一言能够基于检索增强提升时效性和准确性,并基于知识增强提升多轮推理对话。

此外,百度拥有最先进的中文领域自然语言处理能力,可以说在这方面中国绝对没有一家公司水平接近百度。文心大模型是中国本土AI模型,具备对中文、甚至中国文化的更深理解。相比之下, 文心一言会更适合中文和中国市场。

据悉,文心一言发布后,普通用户注册账号可以使用,而随着内测和开放,使用的人越来越多,文心一言将建立起真实的用户、开发者调用和模型迭代之间的飞轮,模型将越来越聪明、越来越完美。

上场即是胜利,哪怕不完美。中国一定要有自己的生成式AI,无论是面向C端市场,还是面向B端市场,国内市场都将因为这项技术,迎来一轮新的发展契机。而文心一言,也将成为与世界争锋的英雄,期待未来它能创造属于中国生成式AI产品的奇迹。