EDB Postgres AI数据仓库解决方案重塑企业数据控制权_科技动态

EDB Postgres AI数据仓库解决方案重塑企业数据控制权

创始人

2026-04-02 12:19:21

0次

对于许多企业来说，数据仓库已经从战略资产转变为运营负担。像Teradata这样具有数十年历史的专有平台，以及包括Snowflake在内的纯云服务，虽然提供了规模和性能，但代价是供应商锁定、不可预测的定价和有限的架构灵活性。

随着监管压力增加以及AI驱动的分析成为竞争力的核心，组织正在重新评估其仓库平台是否真正服务于长期业务目标。

EDB Postgres AI通过WarehousePG解决了这些挑战，这是一个开源的PB级数据仓库，旨在恢复控制、可预测性和数据主权，同时不牺牲性能。基于Postgres构建并为大规模并行分析而设计，WarehousePG提供了从限制性系统中脱离的现代解决方案，同时实现高达58%的总拥有成本降低。

以Postgres为核心的开源PB级分析

企业数据仓库正被推向超越其原始设计假设的边界。PB级数据集、混合部署要求、数据主权要求和AI驱动的分析现在共存于生产环境中，这些环境需要极致性能和架构灵活性。

传统的专有平台和纯云数据仓库难以同时满足这些要求，迫使组织在成本、控制和能力之间做出权衡。

EDB Postgres AI for WarehousePG通过提供完全开源的PB级数据仓库填补了这一空白，该仓库基于Postgres构建，专为高性能分析、数据库内AI以及跨本地、云和混合环境的部署灵活性而设计。

架构：基于Postgres的大规模MPP

其大规模并行处理架构使WarehousePG能够扩展到数百个节点。WarehousePG不依赖单服务器纵向扩展模型，而是将数据和查询执行分布在多个段节点上，由中央协调节点进行协调。

协调器负责查询解析、优化和执行规划。一旦生成查询计划，工作就会分发到各个段，这些段在其本地数据分区上并行运行。这种方法使WarehousePG能够高效执行复杂的分析查询——大型连接、聚合、窗口函数和转换——跨PB级数据集。

这种架构消除了单体数据库的固有瓶颈，同时保持与Postgres的完全SQL兼容性，显著减少现有数据团队的学习曲线。

无专有约束的可预测性能

与依赖基于消费的定价和不透明资源管理的云原生数据仓库不同，WarehousePG提供确定性的工作负载行为和可预测的性能。资源分配和查询执行在集群内得到明确控制，即使在混合分析工作负载下也能确保一致的响应时间。

因为WarehousePG采用Apache 2.0许可证并基于开源Postgres构建，企业避免了专有存储格式和供应商控制的执行引擎。数据保持完全可访问、可移植，并可在组织需要的任何地方部署——本地以符合监管要求，公共云以获得弹性，或混合配置以优化成本。

这种架构独立性和EDB基于核心的定价使TCO降低高达58%，特别是对于从高成本专有平台或不可预测云数据仓库迁移的组织。

混合存储和数据湖SQL访问

现代分析环境越来越多地跨越多个存储层。WarehousePG通过平台扩展框架解决这一问题，该框架支持直接SQL访问存储在对象存储和分布式文件系统中的外部数据，包括Amazon S3和Hadoop分布式文件系统。

通过PXF，数据工程师可以查询Parquet、AVRO、JSON和CSV等格式，无需将数据复制到仓库中。这显著减少了ETL复杂性和存储重复，同时支持混合"热数据和冷数据"策略。频繁访问的数据集保留在WarehousePG的高性能存储中，而不经常访问的数据则存储在低成本对象存储中。

从技术角度来看，这种方法在异构存储层之间保持SQL语义，使分析团队能够使用单一逻辑数据模型。

FlowServer实现实时摄取

仅批处理导向的管道已不足以满足许多分析用例。WarehousePG包含专用的FlowServer组件，用于实时和近实时数据摄取。

FlowServer支持来自Apache Kafka和RabbitMQ等平台的高吞吐量事件流，支持运营分析、欺诈检测和实时监控等用例。通过将流数据直接摄取到仓库中，组织消除了运营系统和分析洞察之间的延迟。

这种架构允许流处理和批处理工作负载在同一分析平台内共存，简化基础设施并减少数据移动。

数据库内AI、机器学习和向量处理

EDB Postgres AI for WarehousePG的一个定义性特征是其对数据库内分析和AI的支持，无需将大型数据集移动到外部机器学习平台。

WarehousePG集成MADlib进行基于SQL的机器学习，使用户能够使用熟悉的关系结构直接在数据库内训练和评分模型。对于更高级的用例，平台支持数据库内Python ML框架，允许数据科学家在不导出数据的情况下大规模操作。

通过pgvector扩展的原生向量支持直接在仓库内实现相似性搜索、语义搜索和检索增强生成工作负载。这种能力对于结合结构化企业数据和文档、日志等非结构化内容的AI驱动应用越来越重要。

通过整合数据、分析和AI，WarehousePG减少了管道复杂性并加速了洞察获取。

高可用性和企业就绪性

WarehousePG专为生产级可靠性而设计。高可用性通过备用协调器实现，确保在主协调器故障时继续运行。段级容错使工作负载即使在个别节点不可用时也能继续执行。

企业功能包括工作负载管理、可预测的查询调度和全面的可观察性，确保在重分析需求下的稳定运行。

至关重要的是，组织可以获得EDB Postgres专家的24x7支持，弥合开源灵活性和企业运营要求之间的差距。

无中断迁移

对于从传统分析平台现代化的组织，WarehousePG提供了低风险的前进道路。现有的Greenplum工作负载可以通过二进制交换迁移，实现快速现代化而无需重写查询或重新培训团队。高SQL兼容性也简化了从其他基于SQL的专有数据仓库的迁移。

这种方法允许企业增量现代化，在重新获得对其分析堆栈控制的同时保持业务连续性。

为现代分析重建仓库

EDB PG AI for WarehousePG证明了PB级分析、AI就绪性和数据主权不需要专有平台或云锁定。通过结合Postgres兼容性、MPP可扩展性、混合存储、实时摄取以及数据库内AI和机器学习能力，WarehousePG为现代企业分析提供了技术上稳健的基础。

对于寻求优先考虑架构控制、可预测性能和开源经济性的数据仓库的组织来说，WarehousePG提供了一个令人信服的、面向未来的替代方案。

Q&A

Q1：WarehousePG相比传统数据仓库有什么优势？

A：WarehousePG是基于开源Postgres的PB级数据仓库，能够避免供应商锁定、提供可预测的定价和性能，支持本地、云端和混合环境部署，同时实现高达58%的总拥有成本降低，还具备数据库内AI和机器学习能力。

Q2：WarehousePG如何处理实时数据和批量数据？

A：WarehousePG通过FlowServer组件支持实时和近实时数据摄取，能够处理来自Apache Kafka和RabbitMQ等平台的高吞吐量事件流，同时支持批处理工作负载，两种处理方式可在同一平台内共存。

Q3：从现有系统迁移到WarehousePG复杂吗？

A：迁移过程相对简单，现有Greenplum工作负载可通过二进制交换快速迁移，无需重写查询或重新培训团队。高SQL兼容性也简化了从其他SQL数据仓库的迁移，支持增量现代化方式。

上一篇：国奖风采录丨南京信息工程大学樊航

下一篇：憋了三年的大招！华为Mate 90爆料全汇总：真全面屏+固态电池稳了？

EDB Postgres AI数据仓库解决方案重塑企业数据控制权

相关内容

热门资讯