昨天的数据架构无法满足今天对速度、灵活性和创新的需求。's成功升级的关键——也是一个重要的潜在回报——是敏捷性。
在过去几年中,组织不得不快速行动,在传统基础架构的基础上部署新的数据技术,以推动市场驱动的创新,如个性化服务、实时警报和预测性维护。
然而,这些技术保持了add-从数据湖到客户分析平台再到流处理――极大地增加了数据架构的复杂性,通常会严重阻碍组织提供新功能,现有的基础设施,并确保了人工智能完整性的可持续性。人工智能)模型。
当前的市场动态不允许出现这种放缓。亚马逊和谷歌等领导者一直在利用人工智能的技术创新来颠覆传统的商业模式,要求落后者重新构想自己业务的各个方面以跟上步伐.云提供商推出了尖端产品,如可以立即部署的无服务器数据平台,使采用者能够享受更快的上市时间和更大的灵活性。分析用户需要更多的无缝工具,如自动模型部署平台,这样他们可以更快地使用新模型。许多组织已经采用应用程序编程接口(API)来将来自不同系统的数据暴露给他们的数据湖,并快速地将洞察直接集成到前端应用程序中。现在,随着该公司应对新冠肺炎疫情造成的前所未有的人道主义危机,并为下一个正常状态做准备,对灵活性和速度的需求只会增加。
为了建立竞争优势,甚至保持平等,公司需要一种新的方法来定义、实施和集成他们的数据堆栈,同时利用云(超越基础架构即服务)以及新概念和组件。
六个转变来创建改变游戏规则的数据架构
我们观察到,该公司正在对其数据架构蓝图进行六项基本更改,这可以更快地交付新功能,并极大地简化现有的架构方法。尽管它们涉及几乎所有数据活动,包括获取、处理、存储、分析和挖掘。组织可以在保持其核心技术体系不变的情况下实施一些更改,但许多组织仍然需要仔细地重新设计其现有的数据平台和基础架构,包括传统技术和以前采用的新技术。
这样的努力并非微不足道。的投资通常从构建基本用例的功能(如自动报告)的数千万美元到部署尖端功能(如实时服务)的架构组件的数亿美元不等。为了与最具创新性的颠覆者竞争。因此,本组织必须制定明确的战略计划。数据和技术领导者需要做出大胆的选择,对最直接影响业务目标的变更进行优先排序,并投资于适当的架构复杂性。因此,一家公司和另一家公司的数据架构蓝图通常看起来非常不同。
如果做得好,投资回报会非常高(一家美国银行一年超过5亿美元,一家油气公司利润率提高12%到15%)。我们发现这些类型的好处可以来自许多领域:节省 IT 成本、提高生产力、降低监管和运营风险,以及交付全新的功能、服务,甚至整个业务。
那么组织需要考虑的关键变化是什么呢?
1. 从内部部署到基于云的数据平台
云可能是全新数据架构方法最具颠覆性的驱动力,因为它为公司提供了一种快速扩展 AI 工具和功能以获得竞争优势的方法。's全球主要云提供商,如亚马逊(使用亚马逊网络服务)、谷歌(使用谷歌云平台)和微软(使用微软Azure),已经彻底改变了组织来源、数据基础设施、平台和各种规模的大型应用程序。
例如,一家公用事业服务公司将基于云的数据平台与容器技术相结合,容器技术具有搜索计费数据或为帐户添加新属性等微服务,以模块化应用功能。这使该公司能够在几天内而不是几个月内为大约100,000家企业客户部署新的自助服务功能,向最终用户提供大量实时库存和交易数据以供分析,并通过在云中而不是在更昂贵的本地传统系统上“缓冲”交易来降低成本。
允许组织构建和运行以数据为中心的无限规模应用程序,而无需安装和配置解决方案或管理工作负载.没有服务器数据平台(如亚马逊S3和谷歌大查询),这类产品可以减少所需的专业知识,将部署时间从几周缩短到几分钟,并且几乎不需要运营费用。
使用Kubernetes的容器化数据解决方案(通过云提供商和开源提供,可以快速集成和部署)使公司能够分离和自动部署额外的计算能力和数据存储系统。此功能对于确保具有更复杂设置的数据平台(例如需要将数据从一个应用程序会话保存到另一个应用程序会话的平台,以及具有复杂备份和恢复要求的平台)可以扩展以满足需求尤其有价值。
2.从批处理到实时数据处理
实时数据消息传递和流媒体功能的成本显着降低,为主流使用铺平了道路。的这些技术部门
持许多新的业务应用:例如,运输公司可以在出租车接近时通知客户,准确地预测到第二个到达时间;保险公司可以分析来自智能设备的实时行为数据以个性化费率;制造商可以根据实时传感器数据预测基础设施问题。实时流功能,例如订阅机制,允许数据消费者(包括数据集市和数据驱动的员工)订阅“主题”,以便他们可以获得所需交易的持续馈送。通用数据湖通常充当此类服务的“大脑”,保留所有细粒度事务。
Apache Kafka 等消息传递平台提供了完全可扩展、持久和容错的发布/订阅服务,可以每秒处理和存储数百万条消息以供立即或以后使用。这允许支持实时用例,绕过现有的基于批处理的解决方案,并且比传统的企业消息队列更轻的占用空间(和成本基础)。
Apache Kafka Streaming、Apache Flume、Apache Storm 和 Apache Spark Streaming 等流式处理和分析解决方案允许实时直接分析消息。这种分析可以基于规则或涉及高级分析,以从数据中提取事件或信号。通常,分析会整合历史数据来比较模式,这在推荐和预测引擎中尤其重要。
Graphite 或 Splunk 等警报平台可以向用户触发业务操作,例如在销售代表未达到日常销售目标时通知他们,或者将这些操作集成到可能在企业资源规划 (ERP) 或客户关系中运行的现有流程中管理(CRM)系统。
3. 从预先集成的商业解决方案到模块化的同类最佳平台
为了扩展应用程序,公司通常需要远远超出来自大型解决方案供应商的遗留数据生态系统的界限。许多人现在正在转向高度模块化的数据架构,该架构使用同类最佳的开源组件,这些组件可以根据需要替换为新技术,而不会影响数据架构的其他部分。
前面提到的公用事业服务公司正在过渡到这种方法,以向数百万客户快速提供新的、数据量大的数字服务,并大规模连接基于云的应用程序。例如,它提供关于客户能源消耗的准确每日视图和实时分析洞察,将个人消费与同行群体进行比较。该公司建立了一个独立的数据层,其中包括商业数据库和开源组件。数据通过专有的企业服务总线与后端系统同步,容器中托管的微服务在数据上运行业务逻辑。
数据管道和基于 API 的接口通过保护数据团队免受不同层的复杂性、加快上市时间并减少在现有应用程序中引起新问题的机会来简化不同工具和平台之间的集成。这些接口还允许随着需求的变化更容易地更换单个组件。
Amazon Sagemaker 和 Kubeflow 等分析工作台简化了在高度模块化架构中构建端到端解决方案的过程。这样的工具可以连接大量的底层数据库和服务,并允许高度模块化的设计。
4.从点对点到解耦的数据访问
通过 API 公开数据可以确保对查看和修改数据的直接访问是有限且安全的,同时提供对常见数据集的更快、最新的访问。这使得数据可以在团队之间轻松重用,加速访问并实现分析团队之间的无缝协作,从而可以更有效地开发 AI 用例。
例如,一家制药公司正在通过 API 为所有员工建立一个内部“数据市场”,以简化和标准化对核心数据资产的访问,而不是依赖专有接口。该公司在 18 个月内逐渐将其最有价值的现有数据源迁移到基于 API 的结构,并部署 API 管理平台以向用户公开 API。
API 管理平台(通常称为 API 网关)对于创建和发布以数据为中心的 API、实施使用策略、控制访问以及衡量使用和性能是必不可少的。该平台还允许开发人员和用户搜索现有的数据接口并重用它们,而不是构建新的接口。 API 网关通常作为数据中心内的单独区域嵌入,但也可以作为中心外的独立功能进行开发。
通常需要一个数据平台来“缓冲”核心系统之外的事务。此类缓冲区可以由数据湖等中央数据平台或分布式数据网格提供,后者是一个生态系统,由为每个业务领域的预期数据创建的最佳平台(包括数据湖、数据仓库等)组成使用和工作负载。例如,一家银行构建了一个柱状数据库,将客户信息(例如他们最近的金融交易)直接提供给在线和移动银行应用程序,并减少其大型机上昂贵的工作负载。
5. 从企业仓库到基于领域的架构
许多数据架构领导者已经从中央企业数据湖转向“领域驱动”设计,可以定制和“适合目的”以缩短新数据产品和服务的上市时间。通过这种方法,虽然数据集可能仍驻留在同一个物理平台上,但每个业务领域(例如,营销、销售、制造等)的“产品所有者”的任务是将他们的数据集组织到一个易于使用的其域内的用户和其他业务域中的下游数据消费者的方式。这种方法需要仔细平衡以避免变得碎片化和低效,但作为回报,它可以减少预先在湖中构建新数据模型所花费的时间,通常从几个月到几天,并且在以下情况下可以成为更简单、更有效的选择反映联合业务结构或遵守对数据移动性的监管限制。
一家欧洲电信提供商使用基于分布式域的架构,因此销售和运营人员可以将客户、订单和计费数据公开给数据科学家,以用于 AI 模型或通过数字渠道直接向客户公开。该组织没有构建一个中央数据平台,而是部署了由公司销售和运营团队中的产品负责人管理的逻辑平台。产品所有者被激励推广使用数据进行分析,并使用数字渠道以及论坛和黑客马拉松来推动采用。
数据基础设施作为一个平台,为存储和管理提供了通用的工具和功能,以加快实施速度并减轻数据生产者构建自己的数据资产平台的负担。
始于客户数据等利基领域的数据虚拟化技术现在正被跨企业用于组织对分布式数据资产的访问和集成。
数据编目工具提供企业搜索和数据探索,无需完全访问或准备。该目录通常还提供元数据定义和端到端接口,以简化对数据资产的访问。
6. 从僵化的数据模型到灵活、可扩展的数据模式
来自软件供应商的预定义数据模型和满足特定商业智能需求的专有数据模型通常构建在高度规范化的模式中,并带有严格的数据库表和数据元素,以最大限度地减少冗余。虽然这种方法仍然是报告和以监管为重点的用例的标准,但它也要求组织在想要合并新的数据元素或数据源时经历漫长的开发周期和强大的系统知识,因为任何更改都可能影响数据完整性。
为了在探索数据或支持高级分析时获得更大的灵活性和强大的竞争优势,公司正在演变为“模式轻”方法,使用具有较少物理表的非规范化数据模型来组织数据以获得最大性能。这种方法提供了许多好处:敏捷的数据探索、存储结构化和非结构化数据的更大灵活性以及降低了复杂性,因为数据领导者不再需要引入额外的抽象层,例如高度规范化的表之间的多个“连接”来查询关系数据。
数据保险库 2.0 技术(例如数据点建模)可以确保数据模型是可扩展的,因此将来可以在有限中断的情况下添加或删除数据元素。
图数据库是一种 NoSQL 数据库,近年来受到关注。一般而言,NoSQL 数据库非常适合需要大规模可扩展性和实时功能的数字应用程序,以及服务于人工智能应用程序的数据层,因为它们能够利用非结构化数据。尤其是图数据库,能够以强大而灵活的方式对数据内的关系进行建模,许多公司正在使用图数据库构建主数据存储库以适应不断变化的信息模型。
Azure Synapse Analytics 等技术服务允许通过将表结构动态应用于文件来查询类似于关系数据库的基于文件的数据。这为用户提供了在访问存储在文件中的数据时继续使用 SQL 等通用接口的灵活性。
使用 JavaScript 对象表示法 (JSON) 存储信息使组织能够更改数据库结构,而无需更改业务信息模型。
数据技术发展迅速,使得定义和构建三到五年目标架构状态的传统努力既冒险又低效。数据和技术领导者将通过制定使他们能够快速评估和部署新技术以便他们能够快速适应的实践来获得最佳服务。四个实践在这里至关重要:
将测试和学习的思维方式应用于架构构建,并尝试不同的组件和概念。这种敏捷实践已经在应用程序开发中应用了很长时间,最近又转移到了数据领域。例如,与其进行关于最佳设计、产品和供应商的冗长讨论,以确定“完美”的选择,然后进行冗长的预算批准,领导者可以从较小的预算开始,创建最小可行的产品或将现有的开源组合在一起工具来创建中间产品,将它们发布到生产中(使用云来加速),这样它们就可以在进一步扩展和发展之前展示它们的价值。
建立数据“部落”,由数据管理员、数据工程师和数据建模师组成的团队与端到端的问责制一起工作,以构建数据架构。这些部落还致力于实施标准的、可重复的数据和特征工程流程,以支持准备好建模的高度策划的数据集的开发。这些敏捷数据实践有助于加快新数据服务的上市时间。
投资 DataOps(针对数据的增强型 DevOps),这有助于加速新组件的设计、开发和部署到数据架构中,以便团队可以根据反馈快速实施和频繁更新解决方案。
创建一种数据文化,让员工渴望在他们的角色中使用和应用新的数据服务。实现这一目标的一个重要工具是确保数据战略与业务目标相关联,并反映在最高管理层给组织的信息中,这有助于加强这项工作对业务团队的重要性。
随着数据、分析和人工智能越来越深入到大多数组织的日常运营中,很明显,需要一种完全不同的数据架构方法来创建和发展以数据为中心的企业。那些采用这种新方法的数据和技术领导者将更好地定位他们的公司,使其在未来的任何事情中都变得灵活、有弹性和竞争力。