cnBeta.COM_中文业界资讯站

百度大脑公开课:从“鉴黄师”到精准推荐 信息服务究竟隐藏了哪些黑科技

2018-11-12 来源: 中关村网 作者:lisa 次阅读

在人工智能的时代大潮下,整个互联网都在面临“AI化”的转型契机。作为互联网领域的“传统项目”,信息服务领域如何更加智能,以满足新时期的新要求?针对这一问题,百度大脑在行业创新论坛成都站上发布了“信息服务行业解决方案”,涵盖了语音搜索、图像搜索、智能录入、有声阅读、语音播报、口碑分析、个性化推荐、内容分类、内容审核等具体业务。

为了让更多开发者们了解到,百度大脑的AI技术如何具体赋能不同场景,如何实现相关功能的具体操作,在11月9日的百度大脑行业创新技术实战公开课上,来自于百度大脑的技术大牛们,详细讲解了百度大脑面向信息服务领域的多场景应用方案和成功案例。当天虽然阴雨绵绵,但一点也没有降低开发者小伙伴们的热情,会场挤得满满当当,不得不额外加座。

下面,我们就来看看,现场讲了哪些干货!

 

直击图像处理痛点 百度图像识别及EasyDL实现图片智能化分类与检索

图像信息处理可以说是互联网的“老行当”了,随着时代发展,也在处理效率、精准检索、过滤有害信息等方面提出了新要求。而百度大脑不仅能用AI来重建优质图像内容,还可以实现精细化的图像数据管理,以及大幅提升图像内容查找效率。

这对企业的意义在哪里?以家图网为例,经过EasyDL定制化图像分类训练后,实现了数百万图片的自动分类打标签,家图网的图片利用率从30%提升至80%,分类准确率从50%提升至95%,同时因标签准确率提高,相似图片推荐点击率上升了30%。此外,虎扑体育识货APP1个小时内就训练完成了海量鞋类照片自动分类,准确率可达95%;太平洋汽车网通过车型识别实现拍照识图功能,准确率整体高达91.9%……不仅降低了企业在图像处理上的人力成本,也极大提升了用户的使用体验。

实现这些功能,并将图像信息处理服务体验优化到新层次的背后,是百度丰富的细粒度图像识别和精准的EasyDL定制化图像识别的特性与优势在发挥作用。

百度图像识别中的通用物体与场景识别,覆盖10万多个标签体系;细粒度图像识别支持植物、动物、菜品、地标、车型、LOGO等垂类的精准识别;同时图像识别接口可关联返回百度百科信息,帮助开发者一站式获取最丰富的图像信息。

EasyDL是百度推出定制化模型训练和服务平台,帮助开发者零算法基础定制高精度AI模型,目前已支持图像分类、物体检测、声音分类三类模型的定制。EasyDL具备可即用、更轻快、高精度、强安全四大优点,只需四步就可以快速定制图像分类模型,快速满足个性化的业务需求,解决各垂直信息服务上数据管理难题。

同时讲师还深度解析了百度大脑的图像搜索服务,包括相似图搜索、相同图搜索、商品图搜索三个细分场景的产品,支持开发者自建大规模图片底库(最高亿级别),并实现实时精准的以图搜图。这项服务已经在广大电商平台、素材/商标/设计类图片网站广泛应用,帮助产品提供更好的用户体验。

百度大脑强大的图像信息处理能力也让小伙伴们开始看到AI技术与自己行业结合的可能性,比如有人现场提问,百度的图像识别能力能否用于传统教育行业,比如学生的情绪识别。讲师表示,百度大脑能够提供一些这方面的服务,像人脸识别签到、人体分析学生状态等,后续还将开放更多能力,满足教育场景的更多需求。

全面灵活可定制 用AI做安全高效的内容审核服务

内容审核岗位的小伙伴们最头痛什么?审核慢,容易漏看误看……这时候就需要AI出马了,许多小伙伴们聚精会神地盯着屏幕,用笔记本做着笔记,看来都深受内容审核工作量巨大、工作难度高之苦。

而百度大脑提供的可定制的内容审核方案,实现了对文字、图像视频、音频内容的全覆盖。比如在文本审核方面,可根据平台预置的审核模型,结合定制的内容库,对文字内容进行涉及政治敏感、色情等方面的审核,甚至能具体到该关键词在文章中的位置,以及对广告、低质内容的鉴别和筛选。还有图像审核,百度大脑实现了高达98%准确率的色情识别,以及对暴恐、广告、恶心等多个维度的自动识别筛选,甚至还能对图像内容质量进行打分,并可根据客户自身需求调整审核细节。

值得一提的是,百度大脑的内容审核方案,除了能够对多种类型的内容实现纬度丰富的自动检测审核外,还针对内容平台机器审核的行业痛点,进行了针对性的策略优化。首先,针对不同业务之间审核标准不一致的问题,百度内容审核方案提供了精细化的识别标签,以色情识别为例,支持多达17类细分标签,完美适配不同的审核标准。其次,针对模型迭代慢定制成本高的问题,提供了通过EasyDL实现便捷的定制图像审核模型的服务,并结合图像搜索技术,实现图像黑白库的自定义配置和识别。同时,针对视频审核接入成本高的问题,提供了关键帧抽取、视频指纹提取和智能检索方案等一系列配套工具,帮助开发者降低接入成本,实现高效精准的智能内容审核。

以趣头条为例,从关键词+人工审核转变为百度的视频审核服务之后,效率相比于人工来说有了大幅的提升,同时也保证了统一的审核标准和高准确率。

现场有小伙伴提问,内容审核能否用于版权保护,让用户及时知道自己的版权图片被复制盗用?对此,讲师表示,版权所有者可以将自己的原创图片作为底库,百度大脑的图像搜索能力可以帮助他将网上的图片和版权库中的图片进行对比,对相似度较高的图片进行预警维护版权所有者的合法权益。

讲师与听众一问一答间的精彩互动以及现场的PPT都让参会观众大快朵颐,不少观众在讲师分享时不断做着笔记,还有的小伙伴直接拿出手机拍下讲师PPT,看来这次百度大脑真的是直击行业痛点了。

如何用NLP提升内容处理效率和服务质量 百度大脑让文字处理更加智能

如果机器有一天能完全看懂听懂人类的自然语言,会为信息服务领域带来怎么样的惊人变化?百度大脑的讲师就讲述了如何用NLP来提升内容处理效率和服务质量。首先是对文章的理解,目前,百度大脑NLP已经开放了几块能力:文章摘要、文章标签、文章分类、文本纠错、文本审核等。

讲师介绍,百度大脑NLP能力最核心的基础应用就是词法分析。百度大脑提供的词法分析包含了中文分词、词性标注和实体识别等功能,已经应用在学校科研和开源工具包中。目前,申通快递和德邦物流在百度大脑NLP能力的支持下,可以将用户输入的非结构化数据信息,快速转化为快递单据上必填的人名、省市区、联系方式等结构化数据,大幅提升文本处理效率。

此外,百度大脑NLP能力也为媒体和内容生产领域提供了新的思路。比如在新闻编写方面,可以通过AI技术辅助实现内容优化,比如文本纠错,可以达到一个行业内较高水准的准确率,以及前面所提及的内容审核帮助检查是否有违规内容。NLP解决方案甚至能帮助文章打分,以此建议作者再次进行人工筛查,来排除文字和内容上的一些错误。

百度大脑的NLP能力也可以应用于客服行业,对重复或语义相似的用户提问进行判断和聚合,通过相似问题统一回复的策略方式,减少客服人员反复回答同一类问题的成本,这将人工客服从繁琐而重复的劳动中解放了出来。此外,百度大脑还可以通过文本的情绪识别,来判断客服和用户的情绪,在带有负面情绪的反馈出现时,介入人工进行有针对性的回复和建议,以帮助降低客户不满意导致的流失。最重要的是,NLP商业口碑分析使得商家能够更精准地通过情感倾向分析来进行口碑上的监控,进而优化自己的服务。

几步轻松实现对话机器人 百度大脑用智能对话帮企业降本增效

还记得在2018百度AI开发者大会上,百度地图语音助手精准识别、理解了长达60多字的服务请求,并自然流畅地提供了导航服务吗?其实智能对话不是什么高不可攀的科技,在公开课上,百度大脑也介绍了智能对话丰富的应用场景,并展示了百度智能对话定制平台UNIT超强的技术实力。

百度UNIT拥有着业内领先的语义技术,全面支持各类信息服务场景。以应用了UNIT的宝宝知道为例,妈妈们除了咨询育儿问题外,还可以通过语音播放儿歌、进行常见播放操作,这有效降低了用户对需求内容查找的时间,提升服务的准确度达到94%。汽车大师APP利用UNIT理解和问答能力,节省27%的客服人力,也大大提高问题解决的效率。在UNIT强大的算法的加持下,企业即使没有数据积累,也可以轻松实现智能对话。

另外,UNIT还提供了预置对话能力,一些常见的、通用的对话场景,开发者只需“勾选”即可将相应能力应用在业务中。

UNIT的优点不仅仅在于需求理解、对话控制、机器学习等技术的领先,它也缩短了对话系统的开发时间,并降低了对话能力的应用门槛。现场,讲师展示了如何在三秒内不需要任何代码就能把UNIT接入企业微信公众号:只需用微信公众号管理员账号扫描二维码;完成授权,即可用微信公众号完成客户业务咨询、业务办理、售后服务等业务。

UNIT自去年7月5日正式发布以来,已经创建了1.3万个技能,训练超过33万次,累计对话量达到32亿。

而UNIT除提供了可在web端操作的配置平台外,还提供了基于整套功能开发管理API,即开发者可通过API对BOT进行配置、训练等任何操作。这不仅能让企业根据自身业务灵活调整预置技能,还可以为客户快速注入新能力。比如小能智慧云客服就利用UNIT重塑了场景化服务能力,将人工智能引入到自己的业务架构中来。

深度学习如何落地企业?百度PaddlePaddle展示新特性

很多行业很多企业一听“深度学习”四个字就觉得特别高大上,觉得和自己的业务八竿子打不到一起。其实,百度深度学习技术平台部刘毅就表示,深度学习技术目前已步入大规模应用阶段,与此同时,深度学习框架门槛也在持续降低,未来将形成以深度学习框架为核心的“操作系统生态”。

百度深度学习框架PaddlePaddle自2016年9月开源以来,目前在提供基础框架的同时,还推出了深度学习全功能套件——PaddlePaddle Suite,全方位满足企业深度学习开发和应用的需求。据悉,PaddlePaddle Suite是一款技术全面领先的深度学习全功能套件,该套件包含了技术领先的核心框架、适用于企业应用的丰富配套模块与组件、以及包含Easy DL、AI Studio、Auto DL在内的服务平台。

与此同时,PaddlePaddle仍在不忘初心、修炼内功,不断提高基础框架方面的优势。目前PaddlePaddle官方支持最全面的业务模型,在智能推荐、视觉、文本处理等众多方向提供广泛的场景支持。PaddlePaddle核心框架的另一项领先的技术是超大规模深度学习并行技术,依托百度业务场景在超大规模数据并行技术上的长期积累,PaddlePaddle全面支持大规模异构计算集群,同时支持异步和同步并行训练模式,还开放了独具特色的超大规模稀疏参数训练能力,支持千亿级别稀疏特征任务在数百个计算节点上的并行训练。此外,Paddle Mobile提供多平台的预测部署,全面支持多操作系统、多硬件平台,预测速度领先同类产品,进一步扩大了深度学习技术在移动端的应用。

在介绍完PaddlePaddle产品特性与优势后,百度深度学习认证布道师王文凯,还特意为大家带来了一个前沿案例,方便大家了解深度学习在信息服务行业的创新应用。

与商品、电影、书籍等带有明确标签和属性的娱乐产品不同,现在的“轻娱乐”内容比如笑话段子、搞笑视频等很难准确归类描述。王文凯在公开课现场,以Analytics Vidhya的比赛“Is this Joke funny”为topic,尝试使用深度学习的方法,帮助每位用户找到自己的“笑点”所在,为用户精准推荐更加适合他的笑话。

在PaddlePaddle里,看似运算量很大,其实本质上在计算过程当中两个向量的相似度没有什么区别。训练好之后,就可以得到这个网络当中的参数,再把这个参数用一定的数据格式输入到手机里,或者写入到嵌入式里面。参数不断接受新的数据量,不断进行更新,就会有一个越学越聪明的持续学习过程。

人工智能如何与各行各业深度结合,又如何让开发者具体去实现它们想要的AI能力?百度大脑正在回答这个问题,接下来,百度大脑行业创新论坛及技术实战公开课还会登陆深圳、上海、苏州和武汉等城市,议题涉及信息服务、地产物业、智慧零售、智慧工厂等六大领域,继续将AI赋能给更多的开发者和企业,让更多的行业引来智能化的转身。