环球播报:亚马逊云科技顾凡:数据驱动型企业面临六大挑战

据IDC预测,仅在2022年人类就将创建超过97ZB(1PB=1024TB、1EB=1024PB、1ZB=1024EB)的数据。截至2012年,人类生产的所有印刷材料的数据量为200PB,200PB仅仅是2022年这一年所创建数据量的50万分之一。

数据量增加带来了对数据创造更多价值的期待,也有了推动这个过程发生的主体,即数据驱动型企业。那么,数据驱动型企业正面临什么挑战?


【资料图】

10月14日,亚马逊云科技大中华区战略业务发展部总经理顾凡在亚马逊云科技中国峰会上,总结了数据驱动型企业面临的六点挑战,并提出了应对挑战的思路。

“利用机器学习重塑创新引擎”

“16年前,当亚马逊云科技推出云计算的时候,云计算的概念几乎不存在,甚至在亚马逊云科技创立的前几年,都没有竞争对手跟进,很多人并不相信云计算能发展起来。而今天光亚马逊云科技自己2021年的收入就已达到622亿美元。”顾凡14日在主题为“亚马逊云科技成为探路者、成就探路者”的讲话中介绍,亚马逊云科技目前拥有全球27个地理区域,87个可用区,为超过245个国家提供服务。

顾凡进而指出,数据驱动型企业正面临六点挑战:大多数企业缺乏一个明确的数据平台战略;高速的数据增长带来的存储、分析以及数据创新的成本太高;难以找到发挥数据价值的场景;不清楚应该使用什么样的新技术或者产品来支持业务创新;企业内部人员技能不足难以支撑一些创新型的数据项目;企业缺乏数据的治理和安全保护的能力。

如何应对这些挑战?顾凡的思路可以总结为三点。第一,采用云原生的数据基础设施存储和处理数据。第二,实现数据一体化融合的分析,首先要打破数据孤岛,构建数据湖,然后建立跨数据湖、数据仓库、数据库等不同数据源的一体化分析能力。第三,数据驱动智能创新,利用机器学习重塑创新引擎。

除了让数据产生价值,数据的治理也是一大挑战。顾凡提出,一方面,企业难以在海量且繁杂的数据里面找到有价值的数据。其次,数据质量低,会导致错误的洞察和决策。最后,既要数据合规,又要支持数据创新,两者难兼得。

“数据治理不是一个单纯的技术问题,而是一个人员、流程和技术的组合。”顾凡认为,数据治理应该具备的能力包括从主数据管理、数据的统一授权安全管控再到数据的分级、目录、集成等。除此之外,为了在繁杂的数据里找到价值,数据就必须进行统一的编目。而为了能够让企业内部的数据和数据分析民主化,数据的安全保护访问授权就必须先行。

如何迈向云原生

数据是数字化的核心基础,而在目前的数字化深水期阶段,上云则是焦点议题。

今年9月,亚马逊云科技宣布与国内医药流通行业领军企业瑞康医药签署战略合作协议,支持后者将SAP核心业务系统全部迁移上云,使其成为国内医药流通领域首家全面迁移至公有云的企业。

瑞康医药集团股份有限公司董事长韩旭在接受澎湃新闻(www.thepaper.cn)在内的媒体采访时,举了一个例子来解释数据的产生与流通规模。他说,根据国家法规,某些药品无论是在仓库里存储还是在路上运输,全程要处于2到8摄氏度之间的环境中。“这2到8度的控制原来是放一个小的测温仪,靠人读出来。现在都是实时的,两分钟反馈一次车内药品的温度、湿度。”

韩旭表示:“公司的核心系统要支撑全国几百家公司的运转,导致需要改进的需求越来越多,有没有一种方法,能一次改进所有问题,实现业务层面的全面创新?云原生显然是最佳选择。”

在亚马逊云科技大中华区专业服务事业部总经理王承华看来,迈向云原生的第一步是把原有的线下应用全面迁移上云,“这也是我们称之为还技术债的过程。过往的大部分企业IT人员花在维护旧有系统的时间和预算,大大超过了新应用的开发。但你如果去看一个数字化做得非常好的企业,其实正好是倒过来的。”

王承华认为,传统企业一个最大的课题是,在数字化云原生的时代中怎样把IT工具融入到整个企业文化当中。具体而言,“第二阶段要解决的问题是,能够让整个IT团队更侧重在业务的创新上。这里会涉及很多工具、专用的术语,像现代应用开发、微服务、人工智能、物联网等等。但总结起来,最终目的是怎样在一个多变的大环境当中,提高快速响应的能力。”王承华说。

在王承华的叙述中,一个更为直观的细节是,以前IT系统的响应是以周来论,现在至少做到以小时来论。如果节奏要更快,那可能要考虑是不是在小时的基础上达到以分钟级计算,才能去响应这个充满各种变化的社会。

从技术角度来看,顾凡则将这套迈向云原生之旅的经验,总结为构建、治理和迭代三个阶段、九个步骤:

第一步,构建弹性应用架构。

第二步,一切皆代码,通过CDK(云开发工具包)去实现基础设施即代码,把云中的资源管理自动化,去提升运维效率。

第三步,持续交付,搭建一个自动化发布的流水线,同时控制应用自动交付的网络流量,保证新功能安全稳妥的发布。

第四步,可观测性是治理微服务的关键。

第五步,选择云原生数据库,当把一个单体应用拆分为多个微服务的时候,为微服务选择最适合的云原生数据库,让整个应用的整体架构做到弹性和敏捷。

第六步,安全团队和开发和运营团队一定要集成,避免安全成为流水线中的一个瓶颈。

第七步,持续部署,在代码自动进入到生产环境之前,去运行一个故障注入实验,能够更好地改进应用程序的性能。

第八步,一切皆服务,不要去重新发明轮子,而是将平台级的一些服务像数据库消息传递总线、API网关等公开为一个共享服务,供其他人使用。

第九步,持续迭代、运维,不断地改进系统结构。

关键词: 数据驱动 瑞康医药 大中华区 基础设施 机器学习