数据加载概览
Apache Cloudberry 主要通过加载工具将外部数据转换为外部表来加载数据。然后从这些外部表中读取数据,或将数据写入外部表中,以此实现外部数据加载。
数据加载流程
加载数据进入 Apache Cloudberry 的一般流程如下:
- 评估数据加载场景(例如数据源位置、数据类型和数据量),并选择合适的加载工具。
- 配置和启用加载工具。
- 创建外部表,指定
CREATE EXTERNAL TABLE
语句中的加载工具协议、数据源地址和数据格式。 - 创建外部表后,可以直接使用
SELECT
语句查询外部表中的数据,或者使用INSERT INTO SELECT
语句从外部表中导入数据。
加载方法和场景
Apache Cloudberry 提供了多种数据加载解决方案,你可以根据不同的数据源选择不同的数据加载方法。
加载方法 | 数据源 | 数据格式 | 是否并行 |
---|---|---|---|
copy | 本地文件系统 • Coordinator 节点主机(对于单文件) • Segment 节点主机(对于多文件) | • TXT • CSV • 二进制 | 否 |
file:// 协议 | 本地文件系统(本地 Segment 主机,仅超级用户可访问) |