关磊对话AI大会：清华准儿是如何成为优秀C端产品的_中关村网-直击中关村创业大小事|中关村创业大街新闻网|老牌IT科技网站

关磊对话AI大会：清华准儿是如何成为优秀C端产品的

2018-05-15 来源: 中华网作者：lisa 次阅读

近日，“2018全球人工智能产品应用博览会”在苏州国际博览中心举办，来自10个国家200多家企业和人工智能机构展示1000多种全球最新的人工智能产品，100多位专家、学者主导25场关于人工智能细分应用的分论坛。

“上海交通大学苏州人工智能研究院分论坛”上，分音塔科技CEO关磊现场分享了人工智能在翻译机场景的应用。

清华大学团队分音塔科技自主研发的准儿翻译机，是全球首款带屏的人工智能翻译机，也是中国首款人工智能口语翻译机，并且是中国首家攻克日语离线语音识别技术，目前同品类中支持语言和口音数量遥遥领先的翻译机。

在分享中，关磊谈到了分音塔团队的研发历程与细节，为人工智能同行提供了一份实战性的借鉴。

不一样的C端产品

分音塔科技专注于AI和C端结合的产品，是中国人工智能翻译的创建者，2016年发明了中国第一款人工智能翻译机，目前在行业占有主流位置。

翻译机作为C端产品，其实和传统C端产品的差别很大。比如机器人、智能音响这些传统的C端产品，本质是人机交互，使用场景是家庭里面，场景比较单一。但是翻译机的本质是人和人交互，它是翻译沟通的媒介，用户说的语言、使用的场景和人机交互的场景都不太一样。

所以分音塔在做准儿翻译机的时候，遇到的问题复杂得多。比如用户使用不在中国，使用的场景在全世界，可能在美国、日本、塞班、马尔代夫，也可能在餐厅、酒店、酒吧、街头，用户使用场景极其复杂。

去年准儿翻译机上市以后，研发团队就发现市场需求比想象的更广泛，商旅用户、旅行用户甚至公安局出入境这些都是用户。这就是做C端产品和B端产品不一样的地方。

从旅游市场切入

当前AI比较热门，但是技术只有解决用户在实际场景的需求才更有价值，在应用上选择什么领域非常重要。

分音塔当时做翻译机，选定了出境游市场。第一，中国人出境去年达到了1.29亿人次，而且还在快速的增长，市场很大；第二，中国经济十几年的发展，人们的消费随之升级，出境游也从大众化的跟团旅游发展到深度游，80、90后更愿意背着包自由行走，追求深度体验。这些都会使人们出境游时，语言沟通不畅这一痛点，需求解决更为迫切。

聚焦出境游应用，也避免了通用型的翻译语言在个性化的应用场景中“失真”，翻译准确率也会更高。

译得准，从语义识别着手

人工智能翻译技术涉及的技术很多，主要技术有语音识别、语义识别、机器翻译、语音合成等。语音识别解决听得到、听得清的问题，语义识别则是解决听得懂的问题。

同一种语系中，语义识别相对容易，比如拉丁语系很多单词都差不多，翻译准确率就高。但不同的语系，由于文化习性差异大，语义识别难度就大。东方语系本来就语义复杂，比如汉语中的一句话，放不同的场景都能表达不同的意思。

分音塔做翻译机，是中国人在外国使用，所以必须解决东西方语系下的语义识别问题。没有现成的语言模型，自己从零开始做语料库。国外很多地方都译不准，很多专有名词要根据国外的场景优化，只能建自己的语料库。比如和日本人聊到料理，日本当地的地名、菜名都需要重新做语料。

人类的语言表达很复杂，比如口头禅，还有表达时该停顿的时候没有停顿，都要通过语义识别来断句。

LBS（基于位置的服务）是辅助语义识别的有效途径。比如检测到用户在日本，那么后台会根据用户所在的地方进行一些精准的匹配，比如日本的专业名词，同音词的理解和翻译上。

当然，人工智能翻译机最难的机器翻译，也是分音塔科技最核心的技术优势。

直面实际应用

语音识别其实在实地使用中面临很大的挑战。

某友商曾号称自己的产品语音识别准确率达96.7%，但测后发现还不到91%。原来该友商的检测条件有三个：第一密闭安静的环境，第二国家普通话二级水平，第三常用的语言。如果在实际应用场景，这三个条件也许就变成了噪音、方言口音、非常用语。

分音塔研发团队从降噪抓起。

在特别嘈杂的场景，差距30公分语音识别效率会大幅度下降。传统音响考虑的是3到5米范围内的降噪，最后分音塔团队逼自己开发适合0.5米到1.5的降噪技术，使用起来效果非常好。

中国口音博大精深，外国也一样。分音塔做出第一代翻译机后，发现外国人也有口音，英语有美式、英式、加拿大、南非等很多口音，美式英语的口音识别很差。后来又改进，从最早上线支持四种语音，到目前支持39种语言、52种口音，成为支持语言、口音最多的翻译机。它可以根据LBS场景来实时选择当地所需要的口音，从而提升语音识别准确率。

配屏是准儿翻译机的行业首创。人和人沟通，7%的信息传递是通过语言，38%是通过语调和语速，55%是通过表情和动作。为了增强人机交互，分音塔团队坚定给准儿翻译机加了一块屏，由此通过视觉来弥补听觉的不足。

用户在使用中还会面临网络环境的问题，比如中国、韩国、日本有全世界最好的网络，但到欧洲城郊几乎就没网，加拿大、澳大利亚玩也这样。这逼着分音塔团队开发一些离线语音识别技术。目前，分音塔团队与清华大学语音和语言技术研究中心联手攻克了中、日、英三种语言的离线语音识别技术，其中日语离线语音识别技术是国内零突破。

后记

“分音塔（Babel）”得名于《圣经》，又名“巴别塔”、“通天塔”。相传洪水大劫过后，全天下的人讲同一种语言，人们决定在古巴比伦附近建造一座城和一座塔——通天塔，以扬人类之名。高塔直插云霄，天公被触怒，他变乱了人类的语言，使人类相互之间不能沟通。计划因此失败，人类自此各散东西。分音塔科技成立的愿景和初衷就是要实现全人类的无障碍沟通，他们希望能够借助科技的力量再造人类的分音塔，凝聚人类的力量。

在关磊看来，未来的翻译机一定是多模的，就像人和人的交互一样，有声音的传递，有语气语调的传递，有肢体语言的传递。单机还有很长的道路。

他认为，C端产品和B端产品最大的不同，是B端产品有专业人员培训人，可以让人适应机器；C端产品只能机器适应人。做C端产品是很累的事情，公司一定要有很优秀的UED(User Experience Design用户体验设计)。

分音塔已经服务了十几万的用户，今年可以达到两百万用户。这么多用户，天南海北、各种年龄、各个知识层次，不可能去培训他们来适应翻译机，只能去调配翻译机服务用户们，所以人工智能翻译机未来在操作是一定是傻瓜化，抗干扰能力要强。