肯睿Cloudera大中华区技术总监 刘隶放
肯睿Cloudera的客户大多运行着庞大的数据湖,从而为关键大规模数据分析和AI用例(包括企业数据库)提供助力。根据IDC发布的《IDC MarketScape:中国实时湖仓市场2024年厂商评估》报告中的数据显示,未来12个月,选择外部合作来构建数据管理服务的企业比例将从58%快速增长至85%。数据量的快速增长、对数据管理需求的升级以及技术架构复杂度和独立开发成本的上升,都将推动企业开始越来越多地考虑湖仓一体的管理解决方案。
肯睿Cloudera在平台中提供的Apache Iceberg能够帮助用户避免厂商锁定,实现开放式湖仓一体架构。借助由Apache Iceberg支持的开放式湖仓一体架构,企业可以更好地利用分析和AI的力量。近日,肯睿Cloudera还宣布了现代化数据目录和Iceberg REST集成这两项关键增强功能更新,以加强元数据管理,进一步提高开放式数据湖仓一体架构内部的开放互通性,满足数据全生命周期内日益增长的安全和治理需求。
将AI和分析部署到开放式数据湖仓一体架构中有诸多优点,其主要优势之一是能够将不同来源的数据集中到一个单一且连贯的存储库中。开放式数据湖仓一体架构融合了数据湖的灵活性,以及数据仓库的结构化查询功能,可以容纳多种类型、格式和速度的原始数据和处理后的数据。这种统一的数据环境不仅避免了维护独立数据孤岛的工作,还便于AI和分析应用无缝访问数据。
肯睿Cloudera可助力企业充分利用开放式数据湖仓一体架构的以下优势:
●数据湖和数据仓库的集成:开放式数据湖仓一体架构整合了数据湖的存储灵活性,以及数据仓库的查询性能和结构化查询功能,实现了两者的紧密结合。
●开放性:开放式数据湖仓一体架构中的“开放”一词指的是与各种数据处理框架、分析工具和编程语言的互通性和兼容性。这种开放性使数据科学家、分析师和开发人员能够充分利用他们的首选工具和方法来探索、分析数据并从中获得洞察,以更好地协作和创新。无论是基于SQL的传统查询、先进的机器学习(ML)算法,还是复杂的数据处理工作流程,开放式数据湖仓一体架构都能提供一个可适应各种分析工作负载的灵活、可扩展的平台。
●可扩展性和灵活性:与传统数据湖一样,开放式数据湖仓一体架构也能够横向扩展,容纳来自不同来源的大量数据。它可以灵活存储原始数据和处理后的数据,帮助企业适应不断变化的数据要求和分析需求。随着数据量增长和分析需求的变化,企业可以连续横向扩展其基础设施,以满足不断增加的数据摄取、处理和存储需求。这种可扩展性确保了数据湖仓一体架构即使在数据复杂性和使用模式发生变化时,也能保持响应速度和性能。
●统一的数据平台:开放式数据湖仓一体架构作为数据存储、处理和分析的统一平台,减少了维护独立数据孤岛和ETL(提取、转换、加载)流程的需要。将AI和分析部署到开放式数据湖仓一体架构中可以促进数据的民主化和自助式分析,让整个企业的用户都能够自主访问、分析数据并从中获得洞察。通过提供统一、可访问的数据平台,企业能够打破数据孤岛、实现数据和分析工具访问的民主化,并在各级培养数据驱动决策的习惯。这种数据和分析的民主化可提高企业的敏捷性和竞争力以及员工的协作能力和数据素养(data-literate)。
●支持现代分析工作负载:开放式数据湖仓一体架构支持基于SQL的查询和高级分析框架(如ML、图形处理等),满足了各种分析工作负载的需求,包括即席查询(Ad Hoc Query)、复杂数据处理和预测建模等工作。
●数据治理与安全:肯睿Cloudera近日发布的元数据管理解决方案的两项关键增强功能,满足了数据全生命周期内日益增长的安全和治理需求。肯睿Cloudera的Iceberg REST Catalog集成允许使用第三方引擎无缝访问Apache Iceberg表,帮助用户在充分利用各种工具的同时,确保统一的安全性和治理。该集成能够简化数据访问,并维持各个平台上的数据权限和溯源,通过更大程度地减少独立安全层数量来降低成本和数据泄露的风险。
此外,肯睿Cloudera的共享数据体验(SDX)现已发布以云原生容器形式提供的技术预览版,实现了端到端的统一数据安全、治理和元数据管理,并且已得到增强,具有更出色的弹性、扩展性和性能。SDX还提供各种工具的自助式数据访问、通过整合安全功能,更大程度地降低违规风险,并支持覆盖云和本地数据的统一视图窗口管理。
开放式数据湖仓一体架构代表了一种现代化的数据管理和分析方法,助力企业充分挖掘其数据资产潜力的同时,实现开放性、可扩展性和互通性。
点击此处了解有关肯睿Cloudera开放式数据湖仓一体架构的更多信息。