rLLM：使用大型语言模型进行关系表学习

本文 rLLM: Relational Table Learning with LLMs 介绍了rLLM（relationLLM）项目，该项目旨在提供一个平台，用于快速开发基于大型语言模型（LLMs）的关系表学习（RTL）方法。

按数据类型划分的全球数据量趋势和LLM令牌成本趋势

引言

背景：大型语言模型（LLMs）如ChatGPT在理解和生成文本方面表现出色，利用了大规模无监督预训练、指令微调和价值对齐等技术。

挑战：将LLMs应用于实际大数据时成本极高。预计到2025年，LLMs的总成本将达到近5000万亿美元，这远超美国2023年的GDP。

数据类型：尽管文本和结构化数据的体量较小，但处理这些数据的成本最高。

关系数据库：关系数据库存储了全球约73%的数据，近年来关系表学习（RTL）成为一个重要研究方向。

系统概述

rLLM的架构

rLLM系统由三个主要层次组成：数据引擎层、模块层和模型层。

数据引擎层

提供数据处理和存储功能。

模块层

包括图神经网络（GNN）模块、表神经网络（TNN）模块和LLM模块。

GNN模块

GraphTransform模块：提供图数据的预处理方法，如归一化和自环操作，支持组合多种图预处理方法。

GraphConv模块：实现流行的图卷积层，包括同质和异质图卷积，核心功能是不同节点间的消息传递。

LLM模块

Predictor模块：利用LLMs进行数据注释，适用于缺乏标签的数据场景。

Enhancer模块：利用LLMs进行数据增强，生成详细的文本解释以提高数据质量。

TNN模块

TableTransform模块：将样本特征映射到高维向量空间，增强样本信息。

TableConv模块：实现特征列间的多层交互学习，提取潜在信息，通常使用注意力机制。

模型层

通过组合模块层的组件，提供三种主要策略来快速开发RTL类型的模型：组合、对齐和协同训练。

组合：联合使用不同部分的模块，例如使用LLM模块的Predictor进行初步标签注释，然后使用GNN模块的GCN进行分类。

对齐：对齐不同模块的输入和输出特征空间，例如使用LLM模块的Enhancer生成嵌入，然后与GNN模块生成的嵌入对齐。

协同训练：协同训练不同模块，例如BRIDGE算法结合TNN和GNN进行多表联合学习。

示例方法 - BRIDGE

BRIDGE的架构

BRIDGE（Basic Relational table-Data Learning Framework）方法用于快速构建RTL类型的方法。

表数据处理：使用表神经网络（TNN）对表数据进行建模和学习。

非表数据处理：利用表之间的“外键”关系构建样本之间的关联，并使用图神经网络（GNN）进行建模。

集成：将表编码器和图编码器的结果整合，进行多表数据及其相互关系的联合建模。

方法和数据集

rLLM系统支持多种常见方法，包括同质和异质的GNN方法以及单表学习的TNN方法。

包含的方法

提供了多种现有方法的实现，包括TabTransformer、TabNet和FT-Transformer。

数据集

提供了三个新的关系表数据集：TML1M、TLF2K和TACM12K，这些数据集经过增强并附带标准分类任务，适合设计新的RTL方法。

TML1M：基于经典的MovieLens 1M数据集。

TLF2K：基于HetRec 2011数据集。

TACM12K：基于ACM数据集。

评估

通过在TML1M数据集上的实验，验证了BRIDGE算法的有效性。实验结果表明，BRIDGE算法能够从多个表及其关系中提取有价值的信息，显著提高了性能。

实验设置

使用TabTransformer作为表编码器，GCN作为图编码器。标准化训练批次、dropout率等参数，进行多次实验以获取平均结果。

结果与分析

传统的单表TNN方法只能从单个目标表中学习，无法有效利用多个表及其关系的信息，性能较差。BRIDGE算法通过结合表编码器和图编码器，有效提取多个表及其关系中的有价值信息，显著提高了性能。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
DSPIC33EP512MU810-I/PF	1	Microchip Technology Inc	16-BIT, FLASH, 60 MHz, MICROCONTROLLER, PQFP100, 14 X 14 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100		$9.69	查看
ATXMEGA256D3-AUR	1	Microchip Technology Inc	IC MCU 8BIT 256KB FLASH 64TQFP		$6.07	查看
STM32F405RGT6	1	STMicroelectronics	High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 168 MHz CPU, ART Accelerator	ECAD模型下载ECAD模型	$16.63	查看