百分点刘译璟:新基建提速背景下,数据智能技术应用五大趋势.
为聚焦数据智能,促进数字化转型,百分点持续推出“数智讲堂”专题。本期为北京百分点信息科技有限公司CTO刘译璟在百林哲技术沙龙上所做的分享,重点介绍数据智能的演进趋势,以及在政府和企业数字化转型中的创新实践。
此次疫情从根本上改变了整个社会治理的方式,甚至影响到人与人、人与社会组织之间的连接关系。
疫情期间,广泛应用到众多商业场景的数据智能技术应用,快速深入到了社会治理的方方面面。以健康码为例,人们自行网上申报后,只要亮一线下二维码就能快速通行。实际上,即使是基于这种真实手工填报的数据,也有很复杂的技术架构。首先根据疫情管控政策梳理业务逻辑,再通过技术去落地。值得注意的是,这款应用所遵循的《个人健康信息码》系列国家标准,从立项到发布仅用了14天。
在国外,Google和Apple联合研发的TraceTogether,其基本原理是通过手机蓝牙互相通信来确定哪些人是有密切接触。同样是通过技术手段去实现密切接触的推断,以及当这些人被确诊以后,通知相关密切接触人。而不同的是,这个应用无法落实隔离观察等的疫情防控政策。
国内在疫情防控期间推出的众多应用,集中体现了政府应对重大突发公共事件治理中理念的改变和思维的创新,也让人们普遍对数据智能技术发生了认知的改变,意识到数据智能是支撑落实社会治理、国家治理、国家政策执行的有利技术支持。
关于“数据智能”,本质是以数据化的方式描述并分析现实世界,最后应用到现实世界形成一个闭环。“数据智能”的内涵至少是包含技术和应用这两方面:
首先,数据智能是一个综合性的技术体系,应用于海量的结构化的数据处理、分析和决策,不再是单点的技术,而是融合了大数据、云计算、人工智能、物联网等多种技术;其次,数据智能是一个连接物理世界和数字世界的智能应用体系,包含人机智能交互、自动化知识构建、知识抽取、知识服务、机器辅助以及智能决策等的一整套应用体系。
在新基建的政策推动下,未来会有一系列的数据智能技术应用到政府数字治理及产业数字化转型中。
然而,需要注意的是,“新基建”的核心是数字化基础设施,技术含量高、发展变化快,必须需求驱动,应由市场主导。那么,在政府现代化治理能力提升、企业高效运行、公众生活更加便捷的需求下,数据智能技术应用呈现出哪些演进趋势?结合百分点公司的落地实践,我们总结了五大趋势:
第一,多模态的数据融合。百分点公司在实践中发现,这一类需求是非常强烈的。
比如新闻网站、社交网络上的文本、图片、音频、视频,对于我们了解某件事的态势发展、辨别是否为谣言等是至关重要的。这些数据势必要被融合到一起,从多个角度去看、去理解,才能够更好地做出分析判断。
概括来说,数据融合是多源异构数据的融合,是大、小数据的融合,是内、外部数据的融合,是历史数据和实时数据的融合。数据融合涉及到多种技术进行处理,传统数据库和大数据技术天然地用来处理结构化数据,而涉及到文本、图片、音频、视频,就需要运用语音识别、机器视觉、自然语言处理等技术,从这些多模态的数据里抽出语义标签,再通过知识图谱技术将这些语义信息融合构建在一起,并转化为知识,进行知识分析、知识问答与知识挖掘,最终支持决策。
第二,应用会越来越强调实时性。
政府应对突发公共事件需要进行快速反应,意味着对系统的实时处理能力提出了更高的要求,城市态势感知、应急管理等实际业务场景亟需从以往的T+1转变到T+0。以三个场景案例来说明:
案例一:城市态势感知
疫情期间,每个城市的应急中心都设有一个指挥中心,汇集医疗、交通、公共安全等领域的数据,政府决策者需要实时了解防疫物资、救护车位置等情况,才能对整个态势做出判断并进行相关的决策和资源的调配。
案例二:自然灾害预测预警
对这种灾害的预测预警,天然需要实时的数据智能技术的应用。比如说火灾或者危化品爆炸等事件,需要实时进行监测预测,如果发现风险就要进行相关的预警。但凡晚个几秒钟、几分钟,可能这个灾害已经挡不住了,要避免发生像澳大利亚的持续几个月的森林火灾,必须在早期就做出一些防范。
案例三:自动驾驶
对自动驾驶来说实时性至关重要,要结合高精度地图获取一定范围内的道路信息,实时做出准确决策,否则就可能出现安全事故。
我认为,实时性是未来数据智能应用的大趋势,伴随实时性的要求越来越高,数据处理量越来越大,实时计算相关的技术也会变得越来越热门,未来Spark、Streaming、Flink等技术会应用得越来越广泛,甚至会替代掉Hadoop、MapReduce等技术。
第三是交互性。
当数据智能技术逐渐运用到各领域之中,使得非专业人士也要能够应用数据智能辅助决策,未来人机交互会变得更加自然,通过语音交互而不是写代码的方式。百分点在推动数据智能技术应用过程中,主要围绕指挥中心、决策沙盘和自助客服等交互形式进行了研发落地。
案例一:指挥中心
疫情期间各地都设立了指挥中心,其智能化的科技大屏可以将疫情信息全方位呈现,政府决策者可以通过智能交互方式进行点线面布阵。系统中所有数据语义是打通的,大家在同一个工作环境和场景下共同写作完成一项任务,最终在大屏上展示宏观态势。可以说,指挥中心是数据智能技术的可视化呈现。
案例二:决策沙盘
决策沙盘可以按时间维度、地理空间维度的分析,全面呈现出物理世界或者业务的整体态势,这是一个进行交互、研判、分析及行动的应用。比如汽车营销场景,可以基于此了解门店分布、不同品牌车辆的销售状况,甚至可直接和销售经理联系,下达一些行动计划。
案例三:自助客服
自助客服可以完全替代人的重复性的劳动。以政府统计工作为例,每年年底,企事业单位有大量的关于如何进行统计数据上报的咨询需求,为此,百分点公司为北京海淀区统计局提供了7*24小时在线在线填报智能咨询平台技术支持,通过公众号、小程序等实现语音+文本双模态“人机交互”智能服务,通过和机器问答,就可以快速得到想要的答案。
在这三类交互应用里,不仅衍生出语音识别、机器视觉、自然语言处理方面等技术的诉求,还包含数据可视化,将数据以更直观的人机交互方式呈现出来。同时,智能科技大屏等特定类型的设备,也可满足不同的交互需求。
第四是自主性。
以往,数据智能技术只能执行精确定义的任务,否则系统不能给出任何建议。而在未来,系统会尝试理解人的需求并给出解决方案,在不断交互中修正解决方案。以两个案例场景来说明:
案例一:机器人
这次疫情中,消毒机器人、配药机器人、送餐机器人等各显其能,发挥的作用十分亮眼。这些机器人在特定的任务领域和路线上是具备一定自主性的,但并不是完全自主。
案例二:内容审核
内容审核也是互联网上非常重要的应用。比如在反电信欺诈场景中,尽可能的在人不介入的情况下进行一系列的分析判断,当系统判断有风险的时候,就要实时做出反应并马上去阻断,如果等待人介入,很有可能整个欺诈已经完成了。
实际上,AI本质上就是要不断的总结规律,未来随着数据越来越多地沉淀,在感知、认知、决策过程中,机器已经呈现出自主性演进的趋势,帮人做出更多选择和判断。
第五是隐私保护。
数据的安全和隐私问题一直是数据智能应用的前提。尤其是当数据“升格”被纳入五大生产要素之一后,如何实现数据共享交换、在使用过程中如何保障数据安全,是未来需要解决的问题。
正如TraceTogether在落地到不同国家的时候总要进行一些适当的改造,比如在欧洲、德国、法国,需要按照GDPR法案进行一些小的调整;中国的“健康码”也是按照《个人信息安全规范》,要求个人填报的真实数据只能用到疫情APP中,以进行隐私保护。
除了立法层面,目前,关于数据隐私保护的技术主要包含以下几个方面:
一是边缘计算。
以往传统的方式是将数据汇聚到云端,进行集中式的处理、分析、建模和应用。随着边缘节点和设备能力的加强,可以实现在终端或者在边缘节点进行更多的运算。这就意味着,不需要把隐私数据上传,只传输经过标签化的或者量化过的结果即可,这在很大程度上保障了数据的隐私。
二是联邦学习。
Google在2016年率先提出了基于终端的联邦学习技术,借助边缘节点及设备的能力,每台设备初始化的模型都是云端已经训练好的通用模型,并且模型在运作过程中会根据本地的使用情况进行不断的调整。也就是说,所有模型训练都是在本地完成,再把本地训练完的模型同步到云端,云端也只是训好的模型结果,经过合并成一个新模型后重新发布出去。在这个过程中,基本上没有隐私数据在客户端和云端之间进行传输。
三是安全多方计算。
为了保证数据更加安全,还需要一种自我协调、自洽的模式进行安全计算。在这里面就需要用到很多加密等手段,大家共同参与一件事情,得到一个结果,但是除了这个结果,彼此不知道别人的任何信息,整个过程里面可以保障每个人的数据不会泄漏,所有参与方也不可能通过自己的数据来推断出别人输入的到底是什么。这是安全多方计算想要达到的整个目标,相对来说是一种更极致的隐私保护。当然,各方也可以通过云端进行更多的交互,这也是未来很有前景的一个方向。
总而言之,以上这些数据智能技术创新应用已经逐步落地到社会治理、企业提效及便民惠民等领域中。在这种趋势和框架下,百分点公司构建了完整的贯穿“数据处理-分析-决策”的综合技术体系,以及人机智能交互、自动化知识构建与服务、机器辅助决策等智能应用体系,用数据智能促进政府的数字化治理和产业的数字化转型。