关磊对话AI大会:清华准儿是如何成为优秀C端产品的
近日,“2018全球人工智能产品应用博览会”在苏州国际博览中心举办,来自10个国家200多家企业和人工智能机构展示1000多种全球最新的人工智能产品,100多位专家、学者主导25场关于人工智能细分应用的分论坛。
“上海交通大学苏州人工智能研究院分论坛”上,分音塔科技CEO关磊现场分享了人工智能在翻译机场景的应用。
清华大学团队分音塔科技自主研发的准儿翻译机,是全球首款带屏的人工智能翻译机,也是中国首款人工智能口语翻译机,并且是中国首家攻克日语离线语音识别技术,目前同品类中支持语言和口音数量遥遥领先的翻译机。
在分享中,关磊谈到了分音塔团队的研发历程与细节,为人工智能同行提供了一份实战性的借鉴。
不一样的C端产品
分音塔科技专注于AI和C端结合的产品,是中国人工智能翻译的创建者,2016年发明了中国第一款人工智能翻译机,目前在行业占有主流位置。
翻译机作为C端产品,其实和传统C端产品的差别很大。比如机器人、智能音响这些传统的C端产品,本质是人机交互,使用场景是家庭里面,场景比较单一。但是翻译机的本质是人和人交互,它是翻译沟通的媒介,用户说的语言、使用的场景和人机交互的场景都不太一样。
所以分音塔在做准儿翻译机的时候,遇到的问题复杂得多。比如用户使用不在中国,使用的场景在全世界,可能在美国、日本、塞班、马尔代夫,也可能在餐厅、酒店、酒吧、街头,用户使用场景极其复杂。
去年准儿翻译机上市以后,研发团队就发现市场需求比想象的更广泛,商旅用户、旅行用户甚至公安局出入境这些都是用户。这就是做C端产品和B端产品不一样的地方。
从旅游市场切入
当前AI比较热门,但是技术只有解决用户在实际场景的需求才更有价值,在应用上选择什么领域非常重要。
分音塔当时做翻译机,选定了出境游市场。第一,中国人出境去年达到了1.29亿人次,而且还在快速的增长,市场很大;第二,中国经济十几年的发展,人们的消费随之升级,出境游也从大众化的跟团旅游发展到深度游,80、90后更愿意背着包自由行走,追求深度体验。这些都会使人们出境游时,语言沟通不畅这一痛点,需求解决更为迫切。
聚焦出境游应用,也避免了通用型的翻译语言在个性化的应用场景中“失真”,翻译准确率也会更高。
译得准,从语义识别着手
人工智能翻译技术涉及的技术很多,主要技术有语音识别、语义识别、机器翻译、语音合成等。语音识别解决听得到、听得清的问题,语义识别则是解决听得懂的问题。
同一种语系中,语义识别相对容易,比如拉丁语系很多单词都差不多,翻译准确率就高。但不同的语系,由于文化习性差异大,语义识别难度就大。东方语系本来就语义复杂,比如汉语中的一句话,放不同的场景都能表达不同的意思。
分音塔做翻译机,是中国人在外国使用,所以必须解决东西方语系下的语义识别问题。没有现成的语言模型,自己从零开始做语料库。国外很多地方都译不准,很多专有名词要根据国外的场景优化,只能建自己的语料库。比如和日本人聊到料理,日本当地的地名、菜名都需要重新做语料。
人类的语言表达很复杂,比如口头禅,还有表达时该停顿的时候没有停顿,都要通过语义识别来断句。
LBS(基于位置的服务)是辅助语义识别的有效途径。比如检测到用户在日本,那么后台会根据用户所在的地方进行一些精准的匹配,比如日本的专业名词,同音词的理解和翻译上。
当然,人工智能翻译机最难的机器翻译,也是分音塔科技最核心的技术优势。
直面实际应用
语音识别其实在实地使用中面临很大的挑战。
某友商曾号称自己的产品语音识别准确率达96.7%,但测后发现还不到91%。原来该友商的检测条件有三个:第一密闭安静的环境,第二国家普通话二级水平,第三常用的语言。如果在实际应用场景,这三个条件也许就变成了噪音、方言口音、非常用语。
分音塔研发团队从降噪抓起。
在特别嘈杂的场景,差距30公分语音识别效率会大幅度下降。传统音响考虑的是3到5米范围内的降噪,最后分音塔团队逼自己开发适合0.5米到1.5的降噪技术,使用起来效果非常好。
中国口音博大精深,外国也一样。分音塔做出第一代翻译机后,发现外国人也有口音,英语有美式、英式、加拿大、南非等很多口音,美式英语的口音识别很差。后来又改进,从最早上线支持四种语音,到目前支持39种语言、52种口音,成为支持语言、口音最多的翻译机。它可以根据LBS场景来实时选择当地所需要的口音,从而提升语音识别准确率。
配屏是准儿翻译机的行业首创。人和人沟通,7%的信息传递是通过语言,38%是通过语调和语速,55%是通过表情和动作。为了增强人机交互,分音塔团队坚定给准儿翻译机加了一块屏,由此通过视觉来弥补听觉的不足。
用户在使用中还会面临网络环境的问题,比如中国、韩国、日本有全世界最好的网络,但到欧洲城郊几乎就没网,加拿大、澳大利亚玩也这样。这逼着分音塔团队开发一些离线语音识别技术。目前,分音塔团队与清华大学语音和语言技术研究中心联手攻克了中、日、英三种语言的离线语音识别技术,其中日语离线语音识别技术是国内零突破。
后记
“分音塔(Babel)”得名于《圣经》,又名“巴别塔”、“通天塔”。相传洪水大劫过后,全天下的人讲同一种语言,人们决定在古巴比伦附近建造一座城和一座塔——通天塔,以扬人类之名。高塔直插云霄,天公被触怒,他变乱了人类的语言,使人类相互之间不能沟通。计划因此失败,人类自此各散东西。分音塔科技成立的愿景和初衷就是要实现全人类的无障碍沟通,他们希望能够借助科技的力量再造人类的分音塔,凝聚人类的力量。
在关磊看来,未来的翻译机一定是多模的,就像人和人的交互一样,有声音的传递,有语气语调的传递,有肢体语言的传递。单机还有很长的道路。
他认为,C端产品和B端产品最大的不同,是B端产品有专业人员培训人,可以让人适应机器;C端产品只能机器适应人。做C端产品是很累的事情,公司一定要有很优秀的UED(User Experience Design用户体验设计)。
分音塔已经服务了十几万的用户,今年可以达到两百万用户。这么多用户,天南海北、各种年龄、各个知识层次,不可能去培训他们来适应翻译机,只能去调配翻译机服务用户们,所以人工智能翻译机未来在操作是一定是傻瓜化,抗干扰能力要强。