对于许多企业来说,数据仓库已经从战略资产转变为运营负担。像Teradata这样具有数十年历史的专有平台,以及包括Snowflake在内的纯云服务,虽然提供了规模和性能,但代价是供应商锁定、不可预测的定价和有限的架构灵活性。
随着监管压力增加以及AI驱动的分析成为竞争力的核心,组织正在重新评估其仓库平台是否真正服务于长期业务目标。
EDB Postgres AI通过WarehousePG解决了这些挑战,这是一个开源的PB级数据仓库,旨在恢复控制、可预测性和数据主权,同时不牺牲性能。基于Postgres构建并为大规模并行分析而设计,WarehousePG提供了从限制性系统中脱离的现代解决方案,同时实现高达58%的总拥有成本降低。
以Postgres为核心的开源PB级分析
企业数据仓库正被推向超越其原始设计假设的边界。PB级数据集、混合部署要求、数据主权要求和AI驱动的分析现在共存于生产环境中,这些环境需要极致性能和架构灵活性。
传统的专有平台和纯云数据仓库难以同时满足这些要求,迫使组织在成本、控制和能力之间做出权衡。
EDB Postgres AI for WarehousePG通过提供完全开源的PB级数据仓库填补了这一空白,该仓库基于Postgres构建,专为高性能分析、数据库内AI以及跨本地、云和混合环境的部署灵活性而设计。
架构:基于Postgres的大规模MPP
其大规模并行处理架构使WarehousePG能够扩展到数百个节点。WarehousePG不依赖单服务器纵向扩展模型,而是将数据和查询执行分布在多个段节点上,由中央协调节点进行协调。
协调器负责查询解析、优化和执行规划。一旦生成查询计划,工作就会分发到各个段,这些段在其本地数据分区上并行运行。这种方法使WarehousePG能够高效执行复杂的分析查询——大型连接、聚合、窗口函数和转换——跨PB级数据集。
这种架构消除了单体数据库的固有瓶颈,同时保持与Postgres的完全SQL兼容性,显著减少现有数据团队的学习曲线。
无专有约束的可预测性能
与依赖基于消费的定价和不透明资源管理的云原生数据仓库不同,WarehousePG提供确定性的工作负载行为和可预测的性能。资源分配和查询执行在集群内得到明确控制,即使在混合分析工作负载下也能确保一致的响应时间。
因为WarehousePG采用Apache 2.0许可证并基于开源Postgres构建,企业避免了专有存储格式和供应商控制的执行引擎。数据保持完全可访问、可移植,并可在组织需要的任何地方部署——本地以符合监管要求,公共云以获得弹性,或混合配置以优化成本。
这种架构独立性和EDB基于核心的定价使TCO降低高达58%,特别是对于从高成本专有平台或不可预测云数据仓库迁移的组织。
混合存储和数据湖SQL访问
现代分析环境越来越多地跨越多个存储层。WarehousePG通过平台扩展框架解决这一问题,该框架支持直接SQL访问存储在对象存储和分布式文件系统中的外部数据,包括Amazon S3和Hadoop分布式文件系统。
通过PXF,数据工程师可以查询Parquet、AVRO、JSON和CSV等格式,无需将数据复制到仓库中。这显著减少了ETL复杂性和存储重复,同时支持混合"热数据和冷数据"策略。频繁访问的数据集保留在WarehousePG的高性能存储中,而不经常访问的数据则存储在低成本对象存储中。
从技术角度来看,这种方法在异构存储层之间保持SQL语义,使分析团队能够使用单一逻辑数据模型。
FlowServer实现实时摄取
仅批处理导向的管道已不足以满足许多分析用例。WarehousePG包含专用的FlowServer组件,用于实时和近实时数据摄取。
FlowServer支持来自Apache Kafka和RabbitMQ等平台的高吞吐量事件流,支持运营分析、欺诈检测和实时监控等用例。通过将流数据直接摄取到仓库中,组织消除了运营系统和分析洞察之间的延迟。
这种架构允许流处理和批处理工作负载在同一分析平台内共存,简化基础设施并减少数据移动。
数据库内AI、机器学习和向量处理
EDB Postgres AI for WarehousePG的一个定义性特征是其对数据库内分析和AI的支持,无需将大型数据集移动到外部机器学习平台。
WarehousePG集成MADlib进行基于SQL的机器学习,使用户能够使用熟悉的关系结构直接在数据库内训练和评分模型。对于更高级的用例,平台支持数据库内Python ML框架,允许数据科学家在不导出数据的情况下大规模操作。
通过pgvector扩展的原生向量支持直接在仓库内实现相似性搜索、语义搜索和检索增强生成工作负载。这种能力对于结合结构化企业数据和文档、日志等非结构化内容的AI驱动应用越来越重要。
通过整合数据、分析和AI,WarehousePG减少了管道复杂性并加速了洞察获取。
高可用性和企业就绪性
WarehousePG专为生产级可靠性而设计。高可用性通过备用协调器实现,确保在主协调器故障时继续运行。段级容错使工作负载即使在个别节点不可用时也能继续执行。
企业功能包括工作负载管理、可预测的查询调度和全面的可观察性,确保在重分析需求下的稳定运行。
至关重要的是,组织可以获得EDB Postgres专家的24x7支持,弥合开源灵活性和企业运营要求之间的差距。
无中断迁移
对于从传统分析平台现代化的组织,WarehousePG提供了低风险的前进道路。现有的Greenplum工作负载可以通过二进制交换迁移,实现快速现代化而无需重写查询或重新培训团队。高SQL兼容性也简化了从其他基于SQL的专有数据仓库的迁移。
这种方法允许企业增量现代化,在重新获得对其分析堆栈控制的同时保持业务连续性。
为现代分析重建仓库
EDB PG AI for WarehousePG证明了PB级分析、AI就绪性和数据主权不需要专有平台或云锁定。通过结合Postgres兼容性、MPP可扩展性、混合存储、实时摄取以及数据库内AI和机器学习能力,WarehousePG为现代企业分析提供了技术上稳健的基础。
对于寻求优先考虑架构控制、可预测性能和开源经济性的数据仓库的组织来说,WarehousePG提供了一个令人信服的、面向未来的替代方案。
Q&A
Q1:WarehousePG相比传统数据仓库有什么优势?
A:WarehousePG是基于开源Postgres的PB级数据仓库,能够避免供应商锁定、提供可预测的定价和性能,支持本地、云端和混合环境部署,同时实现高达58%的总拥有成本降低,还具备数据库内AI和机器学习能力。
Q2:WarehousePG如何处理实时数据和批量数据?
A:WarehousePG通过FlowServer组件支持实时和近实时数据摄取,能够处理来自Apache Kafka和RabbitMQ等平台的高吞吐量事件流,同时支持批处理工作负载,两种处理方式可在同一平台内共存。
Q3:从现有系统迁移到WarehousePG复杂吗?
A:迁移过程相对简单,现有Greenplum工作负载可通过二进制交换快速迁移,无需重写查询或重新培训团队。高SQL兼容性也简化了从其他SQL数据仓库的迁移,支持增量现代化方式。