易观发布新一代IOTA架构去ETL化引大数据3.0时代
大数据浪潮推动科技发展,从大数据1.0的BI/Datawarehouse时代,经历过大数据2.0的Web/APP时代,属于IOT的大数据3.0时代已然来临。近日,Analysys易观发布IOTA整体技术架构,为企业进行数字用户分析和营销贡献了新工具。
早期大数据平台利用Lambda数据架构,将收集来的数据在流式计算平台和批量数据处理离线平台进行计算,主要解决实时数据处理需求和批量离线处理需求。稳定性高、成本可控且便于晚间闲时错峰计算的Lambda架构支撑了起步时期的数据行业,但由于实时与批量计算结果不一致引起的数据口径问题、ETL批量计算在计算窗口内无法完成、数据源变化后修改开发周期长、服务器存储大等缺陷,后期的Lambda数据架构越来越无法适应飞速扩增的数据处理需求。
Lambda典型架构
在Lambda之后,Kappa架构成为主流,核心思想是通过改进流计算系统来解决数据全量处理的问题,使得实时计算和批处理过程使用同一套代码,并且只有在必要的时候才会对历史数据进行重复计算。虽然比起Lambda,Kappa结构能够将实时和离线代码统一起来,既方便维护又解决了数据口径不一致问题,但其缺点也很明显:流式处理对于历史数据的高吞吐量力不从心,开发周期长,服务器成本浪费严重。
Kappa典型架构
而在IOT大潮下,智能手机、PC、智能硬件设备的计算能力越来越强,而业务需求要求数据实时响应需求能力也越来越强,过去传统的中心化、非实时化数据处理的思路已经不适应现在的大数据分析需求,Analysys易观提出新一代的大数据IOTA架构来解决上述问题,整体思路是设定标准数据模型,通过边缘计算技术把所有的计算过程分散在数据产生、“去ETL化”、计算和查询过程当中,以统一的数据模型贯穿始终,从而提高整体的预算效率,同时满足即时计算的需要,可以使用各种Ad-hoc Query来查询底层数据:
IOTA整体技术结构
凝聚了Analysys易观团队多年心血的IOTA架构,解决了传统技术中ETL和相关开发的痛点,提高了整体数据分析效率;Ad-hoc即时查询功能使用户无需多等就能直接查询到前几秒发生的事件;边缘计算技术解除了中央端集中处理的限制,将计算过程分散到数据产生、存储和查询端,同时确保客户端传送数据时能马上进行反馈。
IOTA架构实现方法
为了验证IOTA架构,Analysys易观也自主设计并实现了“秒算”引擎,目前支持易观内部月活5.5亿设备端同时进行计算。此外基于“秒算”引擎,Analysys易观研发出了可以独立部署在企业客户内、进行数字用户分析和营销的“易观方舟”精细化运营产品。
Analysys易观认为,在大数据3.0时代,Lambda大数据架构已经无法满足企业用户日常大数据分析和精益运营的需要,去ETL化的IOTA大数据架构才是未来。Lambda大数据架构为大数据分析行业提供了创新思维和技术基础,Analysys易观以此为基础,将继续致力于互联网企业的用户与产品运营。