Directory Table
Apache Cloudberry 引入了 Directory Table,用于统一纳管对象存储上的非结构化数据。
在大模型 AI 快速发展的背景下,AI 应用催生出了管理非结构化多模态语料数据的需求。需要持续准备大量非结构化的高质量精选语料、数据迭代训练大模型,以及归纳丰富的知识库。因此,在结构化语料数据管理与语料加工方面,面临技术挑战。
面对这些技术挑战,Apache Cloudberry 定义了一种 Directory Table 表,用于纳管多种类型的非结构化数据。开发者用户只需使用简单的 SQL 语句就能调用各种计算引擎的能力,实现一站式数据加工和应用开发。
Directory Table 定位于存储、管理和分析非结构化数据对象。Directory Table 位于表空间中,将非结构化数据文件导入 Directory Table 后,会在 Directory Table 上创建一条记录,即该文件的元数据信息,而文件本身则加载进对象存储中。表上的元数据与对象存储上的对应文件相关联。