当下正处于数据向云端大规模迁移过程中,很大程度上是因为先进分析和人工智能的需要以及它们所能带来的竞争优势所驱动。然而,在获得这种大数据回报之前,公司必须有效地管理他们在云中的爆炸性数据资产,这就是事情变得有趣的地方,根据Capital One委托的一份新的Forrester报告,该公司在云迁移战争中也有自己的疮疤。
Forrester特咨询公司的新报告中有几个有趣的花絮,该报告的标题是“新的数据管理模型对在云中运营至关重要”,它基于对北美157名数据决策者的调查。
对于初学者来说,云计算之旅在大多数商店中仍处于萌芽阶段。尽管公共云发展迅速,但近75%的数据决策者告诉Forrester,他们还没有开始在云上管理公司的大部分数据。
超过半数的受访公司(56%)告诉Forrester,他们正在以一种集中的方式管理数据,这需要使用数据集成和ETL工具将所有数据整合到一个数据竖井中。报告称,19%的人表示他们经营着一个去中心化的数据商店。
过去,大多数公司都使用单一的数据管理工具供应商来满足他们的大部分数据管理需求。今天,这种情况在很大程度上仍然存在。但Forrester称,未来24个月,使用多个数据管理供应商来满足多种数据需求的公司数量预计将激增至近40%。
另一个数据障碍是:数据很混乱(对大多数数据应用来说,这并不奇怪)。Forrester的报告指出了普遍存在的数据质量差、缺乏数据编目、难以理解数据以及缺乏数据可观察性的例子。
每个公司都希望拥有一个治理良好的数据资产,但现实以某种方式干预了这一过程,结果是大多数公司在这个部门举步维艰。Forrester报告称,82%的受访者表示,他们的数据治理政策令人困惑,80%的受访者难以大规模管理数据,并因缺乏权利和基于角色的数据访问而遭受损失。
成本也是有效管理云数据资产的一大障碍。Forrester说,参与调查的人中有82%认为预测和控制成本是一项挑战。报告称:“曾经精心规划和预算的办公场所现在变得不可预测。”
最后,由于缺乏合适的人才和技能,企业无法充分利用其云数据资产。
Capital One之前在内部数据中心运行了一个Teradata数据仓库,其中包含大约500 TB的数据。该公司在2020年关闭了最后一个预部署数据中心,现在依靠AWS和Snowflake云来运行其50 PB数据湖/数据仓库,价值约4200亿美元的资产。
有成千上万的用户运行数百万次查询,企业想要一个数据平台,可以扩展到满足业务需求。但这种无限的能力和无限的计算的结果是,可以很容易地产生数据混乱。如果在提供数据平台的方式上没有适当的管理和适当的成本控制措施,最终可能会挥霍掉所有的信用。
Capital One没有向软件供应商寻求解决方案,而是在公司内部处理了这个问题。它开发了自己的自助服务工具,允许业务人员管理自己的数据,并在需要时提供计算资源,同时通过内置在软件中的“护栏”来坚持成本控制和数据治理要求。
Capital One认为自己开发的软件足够好,现在甚至可以拿来销售。因此在6月,Capital One在Snowflake平台推出了第一套数据管理工具,名为Slingshot。
Slingshot的客户会喜欢使用单一的、集成的套件以数据网格类型的方式管理Snowflake信息,而不是在一群不同的工具之间切换。
数据管理行业不需要颠覆,但它需要简化。可能有数百家公司拥有垂直的数据管理解决方案——一个解决方案处理目录,一个谱系,一个数据质量,然后有数据加载工具,数据转换工具。Capital One遵循数据网格原则来管理其云数据资产和新的压缩软件业务。
云在很大程度上解决了硬件伸缩性问题,为所有实际用途提供了无限的基础设施。云中的托管服务的可用性也让客户摆脱了软件和应用程序框架维护业务,这是另一个巨大的优势。
正如Forrester的报告所显示的那样,随着这些实现规模化的障碍被消除,客户大量涌入云计算,围绕数据管理和治理的新挑战也出现了,该行业仍在努力应对这些挑战。capital One提出的解决方案没有采用旧的自上而下的方法,即重新集中数据并取消自助服务,而是围绕着利用数据,使数据保持去中心化,同时使用一组通用的工具和政策,这在今天被称为数据网格。