Apache Cloudberry 产品特性
Apache Cloudberry 基于最新的 PostgreSQL 14.4 内核,是当前最先进的成熟开源 MPP 数据库之一,具备高并发、高可用等多种特性,可以对复杂任务进行快速高效计算,以满足海量数据管理和计算的需求,目前在多个领域都有着广泛应用。
本文档从总体上介绍 Apache Cloudberry 的特性。
多场景高效查询
-
Apache Cloudberry 支持用户在大数据分析环境和分布式环境下进行有效的查询:
- 大数据分析环境:Apache Cloudberry 使用内置的 PostgreSQL 的优化器,可更好地支持分布式环境。这意味着它能够在处理大数据分析任务时产生更高效的查询计划。
- 分布式环境:采用开源优化器 GPORCA 优化器,经过特定适配,可满足分布式环境下的查询优化需求。
-
提供分区静态和动态减裁、聚集下推、连接过滤等技术,以帮助用户获得最快、最精确的查询结果。
-
提供了基于规则的查询优化手段和基于代价的查询优化手段,帮助用户生成更高效的查询执行计划。
多态数据存储
Apache Cloudberry 支持多种不同的存储格式,包括 Heap 存储、AO 行存储、AOCS 列存储,用于不同的应用场景。同时,Apache Cloudberry 还支持分区表,用户可以按照某个条件定义表的分区方式,查询时 根据查询条件自动过滤不需要查询的子表,提高数据的查询效率。
点击以查看详情
-
均匀的数据分布:通过 Hash 和 Random 的方式进行数据分布,可以更好地利用磁盘性能并解决 I/O 瓶颈问题。
-
多种存储类型的选择:
- 行式存储:适用于大多数字段频繁查询和随机行访问较多的情况。
- 列式存储:当你需要对少数字段进行查询时,这种方式可以大幅节省 I/O 操作,非常适合大数据量频繁访问的场景。
-
专门的存储模式:Apache Cloudberry 设计了 Heap 存储、AO 行存储、AOCS 列存储等不同的存储模式以优化各种应用类型的性能。在最细粒度到分区的层面,一张表可以实现多种存储模式。
-
支持分区表:你可以根据特定条件定义表的分区方式。在查询时,系统将自动过滤不需要查询的子表,提高数据的查询效率。
-
高效的数据压缩功能:支持多种压缩算法,如 Zlib 1-9 和 Zstandard 1~19,以提高数据处理性能,并保持 CPU 与压缩比的平衡。
-
对小表的优化:你可以选择使用 Replication Table,并在创建表时指定自定义 Hash 算法,更灵活地控制数据分布。
多层次的数据安全防护
Apache Cloudberry 加强对用户数据的保护,支持函数加密解密,以及透明数据 加密和解密。透明数据加密解密指在用户不感知的情况下,加密解密过程由 Apache Cloudberry 内核完成,目前可以支持的数据格式包括 Heap 表、AO 行存储、AOCS 列存储。同时加密算法除了常用的 AES 等算法以外,还特别支持国密算法,用户可以方便的扩展自己的算法到透明数据加密中。
点击以查看详情
Apache Cloudberry 着重强调数据安全性,提供了全方位的安全保护措施。这些安全特性被设计为满足各种数据库环境需求,并提供多层次的安全防护,包括:
-
数据库隔离:在 Apache Cloudberry 中,数据在各数据库间不共享,实现了多数据库环境的隔离。如果需要进行跨数据库访问,可以使用 DBLink 功能。
-
内部数据组织:数据库内部的数据逻辑组织包括多种数据对象,如表、视图、索引、函数等,而数据访问则可以跨 Schema 进行。
-
强大的数据存储安全性:Apache Cloudberry 提供了不同的存储模式以支持数据冗余,并采用各种加密方法(包括 AES 128、192、256,DES,以及国密加密等)以确保数据存储的安全性。此外,还支持密文认证,包括 SCRAM-SHA-256、MD5、LDAP、RADIUS 等加密算法。
-
用户数据保护:Apache Cloudberry 提供了函数加密解密,以及透明数据加密解密。透明数据加密解密的过程由 Apache Cloudberry 内核完成,用户无需进行任何操作。可以支持的数据格式包括 Heap 表,AO 行存储,AOCS 列存储。除了常见的 AES 等加密算法,也特别支持国密算法,使用户可以方便地扩展自己的算法到透明数据加密中。
-
详细的权限设定