本文 rLLM: Relational Table Learning with LLMs 介绍了rLLM(relationLLM)项目,该项目旨在提供一个平台,用于快速开发基于大型语言模型(LLMs)的关系表学习(RTL)方法。
按数据类型划分的全球数据量趋势和LLM令牌成本趋势
引言
背景:大型语言模型(LLMs)如ChatGPT在理解和生成文本方面表现出色,利用了大规模无监督预训练、指令微调和价值对齐等技术。
挑战:将LLMs应用于实际大数据时成本极高。预计到2025年,LLMs的总成本将达到近5000万亿美元,这远超美国2023年的GDP。
数据类型:尽管文本和结构化数据的体量较小,但处理这些数据的成本最高。
关系数据库:关系数据库存储了全球约73%的数据,近年来关系表学习(RTL)成为一个重要研究方向。
系统概述
rLLM的架构
rLLM系统由三个主要层次组成:数据引擎层、模块层和模型层。
数据引擎层
- 提供数据处理和存储功能。
模块层
包括图神经网络(GNN)模块、表神经网络(TNN)模块和LLM模块。
GNN模块
GraphTransform模块:提供图数据的预处理方法,如归一化和自环操作,支持组合多种图预处理方法。
GraphConv模块:实现流行的图卷积层,包括同质和异质图卷积,核心功能是不同节点间的消息传递。
LLM模块
Predictor模块:利用LLMs进行数据注释,适用于缺乏标签的数据场景。
Enhancer模块:利用LLMs进行数据增强,生成详细的文本解释以提高数据质量。
TNN模块
TableTransform模块:将样本特征映射到高维向量空间,增强样本信息。
TableConv模块:实现特征列间的多层交互学习,提取潜在信息,通常使用注意力机制。
模型层
通过组合模块层的组件,提供三种主要策略来快速开发RTL类型的模型:组合、对齐和协同训练。
组合:联合使用不同部分的模块,例如使用LLM模块的Predictor进行初步标签注释,然后使用GNN模块的GCN进行分类。
对齐:对齐不同模块的输入和输出特征空间,例如使用LLM模块的Enhancer生成嵌入,然后与GNN模块生成的嵌入对齐。
协同训练:协同训练不同模块,例如BRIDGE算法结合TNN和GNN进行多表联合学习。
示例方法 - BRIDGE
BRIDGE的架构
BRIDGE(Basic Relational table-Data Learning Framework)方法用于快速构建RTL类型的方法。
表数据处理:使用表神经网络(TNN)对表数据进行建模和学习。
非表数据处理:利用表之间的“外键”关系构建样本之间的关联,并使用图神经网络(GNN)进行建模。
集成:将表编码器和图编码器的结果整合,进行多表数据及其相互关系的联合建模。
方法和数据集
rLLM系统支持多种常见方法,包括同质和异质的GNN方法以及单表学习的TNN方法。
包含的方法
- 提供了多种现有方法的实现,包括TabTransformer、TabNet和FT-Transformer。
数据集
提供了三个新的关系表数据集:TML1M、TLF2K和TACM12K,这些数据集经过增强并附带标准分类任务,适合设计新的RTL方法。
TML1M:基于经典的MovieLens 1M数据集。
TLF2K:基于HetRec 2011数据集。
TACM12K:基于ACM数据集。
评估
通过在TML1M数据集上的实验,验证了BRIDGE算法的有效性。实验结果表明,BRIDGE算法能够从多个表及其关系中提取有价值的信息,显著提高了性能。
实验设置
- 使用TabTransformer作为表编码器,GCN作为图编码器。标准化训练批次、dropout率等参数,进行多次实验以获取平均结果。
结果与分析
- 传统的单表TNN方法只能从单个目标表中学习,无法有效利用多个表及其关系的信息,性能较差。BRIDGE算法通过结合表编码器和图编码器,有效提取多个表及其关系中的有价值信息,显著提高了性能。
相关信息
代码:https://github.com/rllm-project/rllm
论文:https://arxiv.org/abs/2407.20157v1