面对当前企业数据在数量、种类和速度等方面的巨大增长,对于传统数据体系结构来说,其正在承受以数据为中心的三大压力挑战而急需变革。具体来看,以下三大难点开始倒逼企业将传统数据体系结构向现代化架构演进。
当前,互联网世界每天都会产生海量级别的数据。比如有统计显示,现在每天有35亿次Google搜索,3亿张照片会上传到Facebook。IDC曾预测,2016年至2025年间,全球数据总量将增长10倍,可达到163个泽字节(ZB,相当于2的30次方TB)。而此前工信部也预测到2020年,我国数据总量全球占比将达20%,我国将成为数据量最大、数据类型最丰富的国家之一。
这期间企业所面临的海量数据,在处理与管理上显然将是不可持续的。因此,企业最终要为购买、安装和管理硬件投入大量时间和资源。而且企业还必须编写大量代码来支撑这些数据所在的系统(例如,数据库、数据仓库等)稳定运行、调用交互、深度分析等应用。
在过去,大多数的数据类别都较为相似、单一,结构紧凑,而易于整理。不过今天却不是这样。现在一些企业数据存在于本地数据库中,还有不少数据可能存在于云端的应用程序中。一些企业甚至可能会收集到结构化、非结构化和半结构化的数据。数据品类在不断扩大。
据一项调查显示,有的企业曾经使用了大约1180项云服务,在这其中产生过许多独特的数据。还有一家大型企业IT公司曾经集成过400多项应用程序,同样收集到种类各异的数据。而传统数据系统,在处理这些形态完全不同的数据时,无疑是庞大与棘手的。在传统数据架构中,经常需要手动编写数据管道代码,然后在API更改后立即进行修复。企业可能还需要监督集成解决方案的混合使用,从有限的点对点工具到必须通过脚本训练的庞大平台。关键是这些传统方法缓慢而充满了复杂性,现在对于不断增长的各种数据来说还不匹配,影响到数据收集利用。
在过去几年里,企业需要高速数据处理的场景远远少于我们今天看到的。然而现在,任务关键型操作越来越依赖于实时数据处理。比如对于一些需要实时处理数据的医疗设备,即便数据传递上有10秒滞后也会构成生命威胁。有趣的是,据IDC预测,到2025年,上述需实时处理的数据将占到所有数据的10%。未来某些情况下,如果无法立即处理此类数据,后果可能会很严重,包括无人驾驶汽车、医疗保健和航空旅行等领域。
可以说,传统数据架构难以在海量数据处理过程中,满足关键任务所需的速度与一致性。其中一个原因是,在内部部署环境中,IT基本上必须预测在给定时间他们需要多少计算能力。如果他们为“峰值负载”事件提供的服务器太少,系统就有可能遭遇中断。更重要的是,由于传入数据的数量和种类关系,其传统的数据库管理系统也势必会影响数据处理速度。
根据所有迹象来看,传统数据架构正在成为过去时,不过此种情况发生的速度确实因行业而异。但相信不久之后,大多数企业都将被迫考虑传统数据系统无法解决的数据挑战。企业需要使其数据架构现代化,来适应当前海量暴增的大数据世界。而这种转变对于企业在未来的成功可能变得尤为关键。
那么现代企业数据架构应该是什么样子呢?在笔者看来,现代企业数据架构将植根于云中,以云端数据湖为核心。不过,在企业数据架构开始从数据仓库向数据湖架构演进过程中,现代架构并不是要将数据资源一股脑倾倒至非策略性项目里,如采购硬件或维护服务器上。实际上,以数据湖架构为代表的体系平台,可以承载大量的传入数据,并且可以展开大规模地实时分析。
此外,自助服务也是现代数据架构的标志。在这种环境中,通过低代码数据管理工具可大大减少了执行基本数据操作任务所花费的时间。无论数据的格式如何,它们都会自动执行移动、清理和转换数据的过程,进而扭转一直以来需要繁琐地手动执行操作。
在这种情况下,分析师和数据科学家不再需要将80%的时间用于准备数据。相反,他们可以有更多时间通过分析从数据中提取价值。不仅如此,整个企业里的职员(不仅仅是IT团队)都能获得可利用的数据。各职员均能够利用获得的数据来制定更为精准的业务决策。而且与传统系统不同,现代数据架构还能通过复杂的异构数据来创造巨大价值。
最后,即使面临数据流量的急剧增长,像数据湖这样的现代数据架构也能在实时处理上占据优势,进而防止宕机故障等意外事件产生负面影响。
……