香港大学团队开发的OpenGraph图基础大模型助力零样本预测

互联网 2024-05-11 14:06 阅读:8

5月9日消息,香港大学数据智能实验室主任黄超团队推出了一款名为OpenGraph的图基础大模型,专注于在多种图数据集上进行零样本预测。这一模型通过学习通用的图结构模式,仅通过前向传播即可对全新数据进行预测,有效缓解了图学习领域的数据饥饿问题。

OpenGraph的关键特点之一是其强大的泛化能力,旨在通过图结构模式学习,实现对未见数据的零样本预测。此外,团队还提出了提示调整技术,提高了模型对新任务的适应性。

该工作已在GitHub上开源,供学术界和工业界使用和研究。OpenGraph模型能够跨不同图数据集进行预测,解决了数据集间token差异的问题。在构建通用图模型时,有效建模节点关系对模型的扩展性和效率至关重要。

为解决数据稀缺问题,团队通过大型语言模型进行数据增强,模拟复杂的图结构关系,提升模型训练质量。OpenGraph模型由统一图Tokenizer、可扩展的图Transformer和基于大语言模型的知识蒸馏技术三个核心部分组成。

在多样化的真实场景数据集上进行测试,涵盖节点分类和链接预测任务,OpenGraph在零样本预测中表现优异。未来,团队计划增加框架的自动化能力,自动识别噪声连接,进行反事实学习,并提取图结构的通用模式,以推动模型的应用范围和效果。

研究人员表示,OpenGraph作为图基础模型构建的初步尝试,通过在多个标准数据集上的广泛测试,证明了其出色的泛化性能。他们希望通过OpenGraph显著增强模型在零样本图学习任务中的泛化能力,并探索多种下游应用。项目地址:https://github.com/HKUDS/OpenGraph。