摘 要:异质信息网络在现实世界中非常普遍,它往往包含不同类型的节点和关系。丰富的语义信息和复杂的关系对目前异质信息网络的表征学习提出了巨大的挑战。大多数现有的方法通常使用预定义的元路径来捕获异质的语义信息和结构信息,但成本高、覆盖率低。此外,现有的大部分方法不能准确有效地捕获和学习有影响力的高阶邻居节点。文章提出了一个新颖的方法HIN-HG来解决以上问题。HIN-HG通过生成异质信息网络的超邻接图来准确有效地捕获对目标节点有影响力的邻居节点,并使用带有多通道机制的卷积神经网络聚合在不同关系下的不同类型的邻居节点。HIN-HG可以自动地学习不同邻居节点和元路径的权重而无需手动指定它们。同时,它可以捕获全图范围内和目标节点相似的节点作为高阶邻居,并通过信息传播有效地更新目标节点的表征。HIN-HG在DBLP、ACM和IMDB三个真实数据集上的实验结果表明:在节点分类任务中,HIN-HG较HAN、GTN、HGSL等前沿的异质信息网络表征学习方法的性能更优,在两个多分类评估指标Macro-F1和Micro-F1上平均提高了5.6%和5.7%,一定程度上提高了节点分类的准确性和有效性。
关键词:异质信息网络;元路径;邻域聚合;表征学习;图卷积;
REPRESENTATION LEARNING IN HETEROGENEOUS INFORMATION NETWORKS BASED ON HYPER ADJACENCY GRAPH
YANG Bin WANG Yitong
School of Software, Fudan University
Abstract:Heterogeneous information networks (HINs), which usually contain different kinds of nodes and interactions are very common in real world. The richer semantic information and complex relationships have posed great challenges to current representation learning in HINs. Most existing approaches typically use predefined meta-paths to capture heterogeneous semantic information and structural information, but suffer from high cost and low coverage. In addition, most of the existing methods cannot capture and learn influential high-order neighbors precisely and effectively. This paper attempts to tackle the problem of meta-paths and influential high-order neighbors by proposing an original method HIN-HG. HIN-HG captures influential neighbors of target nodes precisely and effectively by generating the hyper adjacency graph of HIN. Then it uses convolutional neural networks with multi-channel mechanism to aggregate different types of neighbors under different relationships. HIN-HG could automatically learn the weights of different neighbors and meta-paths without specifying them manually. Meanwhile, it can capture nodes similar to the target node in the whole graph as higher-order neighbors, and effectively update the representation of the target node through the information propagation. The experimental results of HIN-HG on three real datasets DBLP, ACM and IMDB show that HIN-HG has better performance than the-state-of-art methods in heterogeneous information network representation learning such as HAN, GTN and HGSL. HIN-HG improves the accuracy of node classification by 5.6% and 5.7% on average in the two classification evaluation indexes Macro-F1 and Micro-F1, which improves the accuracy and effectiveness of node classification to some extent.
Keyword:Heterogeneous information networks; Meta-path; Neighbor aggregation; Representation learning; Graph convolution;
0 概述
异质信息网络[1,2]在人类社会中无处不在,其中往往存在不同类型的节点和关系,这些节点和关系包含丰富的信息和复杂的交互,如社会网络[3,4]、引文网络[5]、电影网络[6]和推荐系统[7,8,9]等。与同质信息网络相比,异质信息网络中包含更丰富的语义信息和复杂的关系,这给当前的研究带来了巨大的挑战,特别是异质信息网络中的表征学习。大多数机器学习方法或数据挖掘算法都需要准确的数据表征来构建各种任务模型,如分类[10,11]、聚类[12,13]、预测[14,15]和推荐[16]等。因此,对于这些任务模型,表征学习是非常重要的。
由于不同类型的节点和复杂的交互关系,异质信息网络表征学习[17]一直是一个非常重要和具有挑战性的问题。在过去的几年里,人们对该方向进行了一系列的研究,并取得了很好的成果。经典的范例之一是设计和使用元路径,例如Metapath2vec[18]和HIN2vec[19]。其中,元路径是具有特定节点和关系类型的预定义序列模式。近年来,基于图神经网络强大的表征能力,人们提出了一些基于图神经网络[20]的异质信息网络表征学习模型。例如,HAN[21]利用双层注意力机制即节点级注意力和语义级注意力来获取节点及其元路径的重要性,最后通过邻域聚合来实现节点表征。HGCN[22]设计了一种关系特征学习方法,对不同类型的边的特征进行加权,最后进行聚合得到节点表征。
然而,现有的方法大多存在一定的局限性:首先,在大多数研究中,元路径都是由具有特定领域知识的专家手工设计的,成本高,覆盖范围低。其次,目前的方法通常没有充分考虑高阶邻居的结构和内容信息。最后,大多数方法要么像在同质网络中一样统一处理不同类型的节点,要么不考虑不同类型节点之间的连接,直接将它们映射到不同的表征空间中。因此,现有的方法不足以准确有效地捕捉特征。鉴于这些局限性,本文试图通过回答以下两个问题来解决两个关键挑战:1)如何处理不同类型的邻居节点/边,以捕获目标节点上有影响力的邻居节点(包括高阶邻居);2)如何有效地聚合有影响力的邻居节点来更新目标节点的表征。
针对上述问题,本文提出了一种基于超邻接图(HIN-HG)的异质信息网络表征学习方法。首先,我们设计一个图卷积层来学习不同类型的边的重要性。然后,引入语义图来获取包含高阶邻居的元路径信息,并将其与特征图聚合得到超邻接图。通过这种方式,可以精确地捕获给定目标节点的有影响力的邻居节点。最后,HIN-HG通过多通道的图卷积神经网络学习节点表征,从而有效地聚合有影响的邻居节点的信息。
本文的主要贡献总结如下:首先,本文引入了节点图与语义图来精确捕获与给定目标节点距离不同的有影响力的邻居;然后将语义图与学习得到的特征图聚合得到“超邻接图”,并使用多通道图卷积神经网络有效地将有影响的邻居信息聚合到目标节点;最后,本文在三个真实数据集上进行了广泛的实验。实验结果表明,与现有方法相比,HIN-HG的性能具有一定的优越性。
1 相关工作
在过去的几年里,表征学习取得了显著的进展,成为了最受欢迎的数据挖掘技术之一。由于节点表征的复杂性和不规则性,使得异质信息网络中的节点表征具有一定的难度和挑战性。因此,早期的研究主要是将同质网络中的表征方法应用到异质网络中。例如,Perozzi等人[23]受到Word2vec[24]的启发,首次提出了将自然语言处理的思想应用于网络表征学习的DeepWalk,使用随机游走获取节点序列,并通过skip-gram模型表征节点。类似地,Node2vec[25]使用带有偏差的随机游走扩展了DeepWalk。LINE[26]是基于一阶和二阶相似度学习的网络表征方法。SDNE[27]使用深度自编码器来表征网络,试图捕获网络中的高度非线性关系。这些方法虽然能很好地应用于同质网络,但由于语义和结构的复杂性,并不适合直接应用于异质网络。
近年来,一些专为异质信息网络设计的表征学习模型逐渐被提出。Metapath2ve通过在给定的元路径上随机游走获得节点序列,然后使用基于异质的skip-gram模型学习节点表征。Metagraph2vec扩展了Metapath2vec,使用基于元图的随机游走进行节点采样。HIN2ve利用浅层神经网络同时学习网络中节点和关系的表征。SHINE利用多层深度自动编码器提取用户高度非线性信息进行节点表征。
图神经网络是一种新兴的深度表征学习模型,在相关任务中表现出了优异的性能。图神经网络的核心思想是通过神经网络从节点的邻居中聚合特征来更新节点表征。GNN模型有许多变体。例如,图卷积神经网络(GCN)[28]利用邻域聚合和多层网络捕获高阶邻居信息。图注意网络(GAT)[29]利用自注意机制,根据邻居的不同重要性,将邻居信息更精确地聚合到目标节点中。GraphSAGE[30]对给定目标节点的固定大小的k跳邻居进行采样,并聚合它们的特征来表征目标节点。
虽然图神经网络在表征学习方面取得了很大的成功,但由于节点类型和关系的不同,图神经网络不能直接应用到异质信息网络中。为了更好地处理和利用异质信息网络中的信息,研究者们提出了一些异质图神经网络模型。例如,RGCN[31]根据不同类型的关系设计多个图卷积层,然后聚合得到节点表征。HAN使用节点级注意力机制聚合邻居信息,使用语义级注意力机制聚合预定义元路径信息。HetGNN[32]采用重启随机游走策略采样强相关邻居,采用LSTM模型分别计算目标节点及其邻居的节点表征。MetaHIN[33]首先在异质信息网络中提出使用元学习框架来解决推荐中的冷启动问题。HGCN使用基于异质信息网络的GCN模型来解决集体分类问题。GTN[34]利用图神经网络通过识别多跳连接来学习图中的元路径,获得有效的节点表征。HGSL[35]提出了一种联合图结构学习和GNN参数学习的框架来解决分类问题。虽然这些方法在实验中效果良好,但仍存在一些局限性。元路径对理解异质信息网络中节点之间的结构和语义连接非常重要。然而,手动设计元路径通常需要特定领域的知识,而且成本比较高。一些隐含的元路径连接甚至对领域专家来说也很难设计。对于没有使用元路径的方法,通常采用消息传播机制来识别高阶邻居。然而,由于传播距离较短,高阶邻居不能完全被捕获。因此,如何精确捕获不同距离的有影响力的邻居节点,如何有效地聚合邻居的特征以提高表征学习性能,仍有进一步提高的空间。
2 研究背景
异质图是一种包含不同类型的节点和边的信息网络。本章介绍了异质图的定义,并总结了全文中使用的数学符号。表1中列出了文中所使用的数学符号的表述。
定义1 异质图:一个异质图可以表示为G=(V,E,A,R),由一个节点集V和一个边集E组成。它还包括一个节点类型映射函数ϕ:V→A和一个边类型映射函数ψ:E→R,其中A是节点类型的集合,R是边类型的集合,并且在异质图中满足|A|+|R|>2。当|A|=1且|R|=1时,就得到一个同质图。一个异质图可以看作是一组邻接矩阵的集合即{Ak}Kk=1,其中Ak∈RN×N是一个只包含第k种类型边的子图,其中K=|R|,N=|V|。大多数异质图还具有一个初始特征矩阵X∈RN×d,其中d是每个节点的特征维度。
定义2 元路径:元路径可以被定义为在异质信息网络模式TG=(A,R)下由节点类型组成的路径P:a1→r1a2→r2…−→rl−1al,其中ai∈A,ri∈R。元路径表示节点a1和节点al之间的复合关系R=r1∘r2…∘rl,其中∘表示关系的复合运算符。给定一个复合关系R或一系列边类型,将不同边类型的邻接矩阵进行乘法运算,就可以得到元路径的邻接矩阵:
AP=Ar1Ar2…Arl(1)
例如,元路径作者-论文-会议(A−→APP−→PCC)可以表示为元路径邻接矩阵AAPC由AAP和APC进行矩阵乘法后得到。
3 方法
3.1 总体框架
本章介绍了基于超邻接图的异质信息网络表征学习体系结构。如图1所示,该模型分为四部分:(1)使用1×1图卷积层学习不同类型边的权重,获得节点图;(2)通过矩阵乘法和叠加得到语义图;(3)将特征图与语义图加权聚合得到超邻接图;(4)使用多通道图卷积网络学习节点表征,并通过最小化预测标签与真实标签之间的多元交叉熵来优化节点表征。
3.2 节点图
在异质信息网络中,不同类型的节点往往扮演不同的角色,在学习特定任务的节点表征时表现出不同的重要性。为了表示与给定目标节点相关的不同连接下不同类型的邻居节点的重要性,通过引入节点图来学习异质图中每种类型边的重要性。例如,异质图 通常有多个子图{Ak}Kk=1,每一个子图表示一种类型的边。因此,本文设计了一个1×1卷积层来学习不同类型边的权重。卷积过程可以表示为:
A˜=∑Kk=1(WkAk+bk),(2)
其中A˜∈RN×N是包含不同类型边的权重的节点图,Wk∈R1×1是不同类型边的可学习权重系数,bk是偏置向量。为了平衡各类型边的权重,使用softmax函数对初始化的权重系数进行归一化,得到:
Wk=softmax(ak)=ak∑Kk=1ak,(3)
其中ak∈R1×1是第k张子图的初始权重系数。节点图是不对称的,因为在异质图中两个节点对彼此的影响往往是不同的。它可以看作是一种潜在的注意力机制,可以帮助目标节点学习不同类型邻居节点的权重。但是,公式中定义的邻接矩阵忽略了目标节点本身的重要性。通常,节点的表征需要保留自己的特征,以防止被邻居节点的特征完全同化。因此,我们向异质图G中添加单位矩阵,即A0=I,由此A˜中包含每个节点自身的权重。
3.3 语义图
通常,异质图中的节点都包含丰富的语义信息,节点图仅仅考虑了一阶邻居的重要性,不能充分反映节点之间的结构和语义联系。想要更全面地学习节点表征,需要学习不同元路径的重要性,以捕获高阶邻居对目标节点的影响。为了解决异质图中元路径选择和高阶邻居聚集的问题,本节基于上述的节点图提出了一种新的语义图来学习不同元路径的重要性。给定学习得到的多个节点图,可以通过矩阵乘法计算长度为l的元路径邻接矩阵。计算过程定义如下:
A(l)=∏li=1A˜i=∏li=1(∑Kk=0(WikAik+bik)),(4)
其中A(l)∈RN×N是指定长度l的元路径邻接矩阵,A˜i∈RN×N是第i层的节点图,Aik∈RN×N是第i层节点图的第k张子图,Wik∈R1×1是Aik的可学习权重系数,bik是偏置向量。Wik通过归一化得到:
Wik=softmax(aik)=aik∑Kk=0aik,(5)
其中aik∈R1×1是初始化的权重系数。元路径邻接矩阵包含所有指定长度的元路径,不同的元路径具有不同的权重。其中l为1的元路径邻接矩阵即为第1层的节点图。由于节点图中的权重经过归一化处理,均小于1,所以一般情况下,元路径越长,权重越小,这也符合专家认知:一般情况下,对于目标节点而言,低阶邻居比高阶邻居更重要。给定长度L,将长度为1至L的元路径邻接矩阵相加如下式,可以得到含有长度不超过L的所有元路径的语义图:
Gsem=∑Ll=1(A(l)),(6)
其中Gsem∈RN×N。语义图包含长度不超过L的所有元路径,并为其分配不同的权重来反映不同的重要性。由于元路径邻接矩阵只能学习指定长度元路径上的邻居节点的重要性,通过叠加得到语义图,我们可以将与目标节点距离不大于L的所有邻居节点都考虑到,且不同类型、不同距离的邻居节点具有不同的权重,其中邻居节点的权重越大,其对目标节点的影响力也就越大,反之亦然。相比于其它方法,我们可以学习得到不同邻居节点的重要性,由此可以更精确地捕获到有影响力的邻居节点。
3.4 超邻接图
语义图可以捕获指定距离以内的邻居节点信息,但无法覆盖与目标节点相似但距离很远的节点,因此我们进一步引入特征图,为特征相似但距离较远的节点建立连接,以此扩充图的信息。对于特征图,有如下定义:
定义3 特征图:对于异质图中的任意两个节点,进行相似性度量,并将原图中没有链接但相似性较高的节点对直接建立一条边,边的权重即为相似度,由此得到的新的图结构称之为特征图。
对于异质图中的任意两个节点vi和vj,设置条件函数来计算它们的相似性:
Gfea[i,j]={Γfea(fi,fj)Γfea(fi,fj)≥ϵfeaandGsem[i,j]=00otherwise,(7)
其中fi,fj∈R1×D是节点vi和vj的特征向量,ϵfea∈(0,1)是人工设定的控制特征图稀疏度的阈值,Gsem[i,j]=0代表节点vi和vj在语义图中没有连接,Γfea为余弦相似度度量函数,由此可以计算得到特征图Gfea∈RN×N。将语义图和特征图进行聚合即可以得到一张包含所有影响力较大的邻居节点的图,称之为超邻接图:
G=Gsem+wfeaGfea,(8)
其中wfea∈R1×1是特征图的可学习权重系数。超邻接图中既包含指定距离内对目标节点有影响力的邻居节点,也包含与目标节点距离较远但特征相似的节点,不同的节点具有不同的权重来体现它们的重要性。
3.5 多通道图卷积神经网络
将图卷积神经网络应用于超邻接图,从而得到节点表征:
H=σ(D−1GXW),(9)
其中D是超邻接图的度矩阵,X∈RN×D是特征矩阵,W∈RD×D是可学习的权重矩阵。为了考虑多种可能的超邻接图,增强模型的学习能力,我们并行学习多个超邻接图并应用图卷积神经网络,将每个输出设置为一个通道,由此应用了多通道机制,以更有效地聚集有影响力的邻居。最后将GCN应用于每个通道,并将多个输出的节点表征拼接:
Z=||Ci=1(WiHi),(10)
其中Hi为第i个通道输出的节点表征,Z为最终用于节点分类任务的节点表征。文中的损失函数定义为具有真实标签的节点的标准交叉熵:
L=−∑l∈YLYlln(Θ⋅Zl),(11)
其中Θ是分类器的参数,YL是具有标签的节点索引的集合,Yl和Zl是已标记节点的标签和表征。
4 实验
4.1 数据集
为了评估HIN-HG的有效性,本文在三个真实数据集上进行了相关实验:学术网络DBLP和ACM,以及电影网络IMDB。这些数据集都包含多种类型的节点和关系,数据集的详细信息如下表 2。
DBLP:该数据集来自DBLP官网,主要由18405个节点、67946条边和4种边组成。根据研究领域可将作者分为四类:数据库、数据挖掘、信息检索和人工智能。
ACM:该数据集来自ACM电子数据库,主要包含8994个节点、25922条边和4种边。论文类别分为数据挖掘、数据库和无线通信三大类。
IMDB:该数据集来自IMDB官网,主要包含12772个节点、37288条边和4种边。电影分为三类:动作、喜剧和戏剧。
4.2 对比方法
本文通过与一些最新的基线方法(包括基于随机行走的方法和基于图神经网络的方法)进行比较,来验证所提出的HIN-HG的有效性。
DeepWalk:针对同质图设计的一种基于随机游走的表征学习方法。在本文的实验中,忽略了节点的异质性,将异质图当作是同质图来执行DeepWalk。
Metapath2Vec:一种使用基于元路径的随机游走策略并利用skip-gram表征异质图的表征学习方法。本文测试了metapath2vec的所有元路径,并展示了最佳性能。
GCN:是一种针对同质图设计的半监督式图卷积神经网络。本文忽略节点和边的异质性,展示其最佳性能。
GAT:是一种考虑同质图上注意力机制的半监督式神经网络。本文忽略节点和边的异质性,展示其最佳性能。
RGCN:是一种针对异质图不同类型的边设计的半监督式图卷积神经网络。本文使用了原论文的相关设置进行实验并展示其最佳性能。
HAN:是一种同时采用节点级注意力机制和语义级注意力机制的半监督式异质图神经网络。本文使用原论文中手工指定的元路径进行实验,并展示最佳性能。
GTN:是一种基于图卷积神经网络的能自动学习元路径的半监督式图神经网络。本文保留了原论文的设置并报告最佳性能。
HGSL:是一种联合图结构学习和图神经网络参数学习的异质图模型。本文使用了原论文中对数据集的处理方法并报告其最佳性能。
4.3 实验设置
为了公平比较,本文将上述所有基线方法的参数设置为原论文中的最佳参数,并使用Adam优化器分别选择超参数,以便每个基线方法都能发挥最佳性能。对于基于随机游走的方法,在1000次迭代中,每个节点的行走长度设为100,窗口大小设为5,有7个负样本。对于GCN、GAT、HAN和GTN,使用验证集优化它们的参数。对于本文的HIN-HG模型,设置迭代次数为40次,通道数为2个,学习率为0.005,权值衰减率为0.001。对于DBLP数据集,将维度设置为512,元路径的最大长度设置为3。对于ACM数据集和IMDB数据集,将维度设置为128,元路径的最大长度设置为3。
4.4 分类任务
实验使用PyTorch训练一个浅层神经网络作为分类器。由于是多分类问题,我们采用Macro-F1和Micro-F1作为指标来全面地评价模型的性能。表3展示了HIN-HG与其他节点分类基线方法在DBLP、ACM和IMDB三个数据集上的实验结果,可以观察到HIN-HG基于两个多分类指标在所有数据集上都取得了最好的性能,相比于次优算法整体性能提升了1.2%以上。基于图神经网络的方法性能往往优于基于随机行走的方法,这是因为浅层模型通常只考虑异质信息网络的结构信息,而图神经网络可以既考虑结构信息,又考虑内容信息。而且深度模型往往能更好地捕捉网络中的高度非线性关系。表中可以看到GAT的性能优于GCN,因为GCN聚合邻居节点信息时没有考虑邻居重要性,而GAT可以给邻 居节点分配不同的权重来反映不同的重要性。
有趣的是,尽管HAN使用了一种基于异质信息网络的双层注意力机制,但结果表明GAT在DBLP和ACM数据集上的性能更好。这可能是因为HAN使用手动设定的元路径会影响模型的性能。HGSL的性能仅次于HIN-HG,它说明了学习新的图结构的优势。但是HGSL使用矩阵乘法进行信息传播与扩散的范围较小,无法精准捕获到距离目标节点较远的高阶邻居信息。与以上方法相比,HIN-HG无需手工设定元路径,可以独立学习不同类型和长度的元路径的权重,自动精确地捕获有影响力的邻居节点(包括高阶邻居)。其中,语义图的设计可以缓解高阶邻居对低阶邻居的依赖关系,为指定距离内不同的邻居节点学习更合理的权重。同时特征图的引入可以找到与目标节点距离较远但相似度较高的节点,为目标节点捕获更深层次的邻居,从而丰富图的信息。最后,多通道机制可以适当地平衡表征,防止过拟合,提高模型的学习能力。实验结果证明了该方法在节点分类任务中的准确性和有效性,展示了HIN-HG相比于其他基线模型的优势。
4.5 实验分析
为了进一步研究HIN-HG是否能够精确地捕获有影响力的邻居节点,我们研究了ACM数据集上的节点图和语义图。图2展示了不同网络层中节点图的不同类型边的权重。对于论文来说,影响力最大的邻居节点是作者。随着路径长度的增加,会议对论文的影响逐渐增大,这是因为在分类任务中会议这类度数较高的中心节点往往具有更高的影响力。从结果可以看出,节点图可以自适应地调整不同类型边的权重,以得到不同类型的一阶邻居节点的重要性。由于语义图由多个节点图经过计算和聚合得到,节点图中权重的动态变化决定了语义图中不同元路径的权重,以确定不同元路径的重要性。图3展示了语义图中不同元路径的权重。在作者和论文的连接中,他们可能通过元路径A→P或A→P→C→P连接,也可能两者均连接。在语义图中,通过不同元路径与目标节点相连接的邻居节点权重往往不同,这体现了不同邻居节点对目标节点的影响力不同,而同时通过多个元路径连接的邻居节点权重往往更大,对目标节点的影响力也更大。结果表明,语义图可以为不同的邻居节点分配不同的权重,从而精确地捕获特定距离内有影响力的邻居节点。
通常,与目标节点特征和结构相似的节点可以为目标节点提供丰富的信息,但可能由于距离较远而无法考虑。特征图可以为该类节点与目标节点间建立联系,并通过计算两者间的相似性得到其对目标节点的影响力,从而弥补了语义图只能捕获特定距离内邻居节点信息的不足。通过加权聚合语义图和特征图的超邻接图中既包含特定距离L以内所有有影响力的邻居节点,也包含距离更远但特征相似的邻居节点。由此,超邻接图为目标节点精确地捕获了全异质图范围内所有有影响力的邻居节点。
4.6 消融实验
本节评估了HIN-HG的三种变体。
HIN−HG−hyper:该变体不使用超邻接图而仅使用节点图。
HIN−HG−feature:该变体不使用特征图而仅使用语义图。
HIN−HG−multi:该变体不使用多通道机制。
表 6展示了三个变体和完整的HIN-HG在ACM数据集上运行的结果。结果表明,完整的HIN-HG模型的性能最好。其中HIN−HG−hyper性能下降最多,这是因为超邻接图为目标节点捕获了异质图中所有具有影响力的邻居节点,将其替换为简单的邻接矩阵后无法有效捕获异质图中的结构和语义关系,这也说明了超邻接图在图卷积神经网络中的巨大贡献。消融实验中缺少特征图会使模型无法捕获与目标节点距离较远但相似度较高的节点,从而造成部分信息的缺失,导致HIN−HG−feature的性能下降。HIN−HG−multi和HIN-HG的比较结果证明了多通道机制在GCN中的积极作用。多通道机制可以学习多个超邻接图,提高了模型的泛化能力,避免单一图结构中存在的噪音引起误差,同时防止过拟合现象。实验结果充分证明了采用多通道机制的GCN能够有效聚合有影响力的邻居来更新目标节点的表征。
4.7 参数实验
在本节中,我们研究了主要参数迭代次数、表征维度、路径长度和通道数的敏感性,并将各种参数在ACM数据集上的分类结果展示在图4中。
迭代次数:我们首先评估了迭代次数的影响,可以看到,随着迭代次数的增加,整体性能呈先上升后下降的趋势。当迭代次数为40左右时,性能达到最佳,这表明HIN-HG具有较快的收敛速度和较高的效率。性能下降的原因是出现了过拟合现象。
表征维度:我们评估了表征维度的影响,可以看到,随着表征维度的增加,性能先上升再下降。这是因为HIN-HG需要一个合适的维度来编码信息,较小的维度无法捕获完整的信息,而较大的维度可能会引入额外的冗余信息。
路径长度:我们评估了语义图中指定路径长度L的影响,可以看到HIN-HG的性能先是随着路径长度的增长而提高,这是因为语义图独立学习不同元路径的重要性,充分考虑了高阶邻居的影响。然而,随着长度的不断增长,HIN-HG的性能开始逐渐下降,这是因为距离较远的邻居可能带来噪声,对节点表征产生负面影响。
通道数:为了检验多通道机制的影响,我们评估了HIN-HG在不同通道数下的性能。当通道数设置为1时,多通道机制即被移除。可以发现HIN-HG在通道数约为2时就达到了最佳性能。过多的通道可能会降低性能并大大增加了计算成本。
5 结束语
本文尝试解决异质信息网络表征学习的两个基本问题(如何找到有影响力的邻居?如何聚合邻居信息?),提出了一种基于超邻接图的异质信息网络表征学习方法。所提出的HIN-HG模型可以在不从领域知识中预先定义元路径的情况下捕获异质图的复杂结构和丰富语义。该模型利用超邻接图捕获距离不同的对目标节点有影响力的邻居节点,并利用带有多通道机制的卷积神经网络对邻居节点进行有效聚合。HIN-HG在三个真实数据集上进行节点分类任务,且表现优于目前现有的基准模型,从而证明了它的有效性。消融实验和参数实验证明了该方法具有良好的可解释性。目前大多数关于异质信息网络表征学习的研究仅使用了静态的结构和内容信息,没有考虑到时间、地域等交互信息。在未来的工作中,我们计划在异质信息网络中引入时间信息,通过捕获网络的动态性进行表征学习和特定任务的学习。
参考文献
[1] Shi C, Li Y, Zhang J, et al. A survey of heterogeneous information network analysis[J]. IEEE Transactions on Knowledge and Data Engineering, 2016, 29(1): 17-37.
[2] Yang B, Wang Y. Representation Learning in Heterogeneous Information Networks Based on Hyper Adjacency Matrix[J]. Springer, Cham, 2022.
[3] Chen J, Ma T, Xiao C. Fastgcn: fast learning with graph convolutional networks via importance sampling[J]. arXiv preprint arXiv:1801.10247, 2018.
[4] Dong Y, Jie T, Wu S, et al. Link Prediction and Recommendation across Heterogeneous Social Networks [C]// IEEE International Conference on Data Mining. IEEE, 2013.
[5] 尹赢,吉立新,程晓涛,黄瑞阳,刘正铭.基于同质子图变换的异质网络表示学习[J].计算机工程, 2019, 45(11): 204-212.DOI:10.19678/j.issn.1000-3428.0052645.Yin Ying, Ji Lixin, Cheng Xiaotao, Huang Ruiyang, Liu Zhengming. With proton figure transformation based on heterogeneous network said study [J]. Computer engineering, 2019, (11): 204-212. The DOI: 10.19678 / j.i ssn. 1000-3428.0052645. (in Chinese)
[6] 郭振宏,李海峰.异质信息网络中演员合作关系的链路预测[J].计算机工程,2017,43(1):219-225.
[7] Berg R, Kipf T N, Welling M. Graph convolutional matrix completion[J]. arXiv preprint arXiv:1706.02263, 2017.
[8] [16] Monti F, Bronstein M, Bresson X. Geometric matrix completion with recurrent multi-graph neural networks[J].
[9] Salamat A, Luo X, Jafari A. HeteroGraphRec: A heterogeneous graph-based neural networks for social recommendations[J]. Knowledge-Based Systems, 2021, 217: 106817.
[10] Bhagat S, Cormode G, Muthukrishnan S. Node classification in social networks[M]// Social network data analytics. Springer, Boston, MA, 2011: 115-148.
[11] 朱旭东,熊贇.基于多层次注意力与图模型的图像多标签分类算法[J].计算机工程, 2022, 48(4): 173-178+190. DOI: 10.19678/j.issn.1000-3428.0061072.Zhu Xudong, Xiong Yun. Based on multi-level attention and graph model of the image tag classification algorithm [J]. Computer engineering, 2022 (4): 13, 173-178 + 190. DOI: 10.19678 /j.i SSN. 1000-3428.0061072. (in Chinese)
[12] 范智华,黄大科,李涓子,王克宏.基于时间序列与多部图的演化聚类动态分析[J].计算机工程,2005(14):156-158.
[13] Li X, Wu Y, Ester M, et al. Semi-supervised clustering in attributed heterogeneous information networks[C]// Proceedings of the 26th international conference on world wide web. 2017: 1621-1629.
[14] Kipf T N, Welling M. Variational graph auto-encoders[J]. arXiv preprint arXiv:1611.07308, 2016.
[15] Hasan, Mohammad A . Link prediction using supervised learning[J]. proc of sdm workshop on link analysis counterterrorism & security, 2005.
[16] 徐上上,孙福振,王绍卿,董家玮,吴田慧.基于图神经网络的异构信任推荐算法[J].计算机工程, 2022,48(9): 89-95+104.DOI:10.19678/j.issn.1000-3428.0062235.
[17] Dong Y, Hu Z, Wang K, et al. Heterogeneous Network Representation Learning[C]//IJCAI. 2020, 20: 4861-4867.
[18] Dong Y, Chawla N V, Swami A. metapath2vec: Scalable representation learning for heterogeneous networks[C]. Proceedings of the 23rd ACM SIGKDD international conference on knowledge discovery and data mining. 2017: 135-144.
[19] Fu T, Lee W C, Lei Z. Hin2vec: Explore meta-paths in heterogeneous information networks for representation learning[C]//Proceedings of the 2017 ACM on Conference on Information and Knowledge Management. 2017: 1797-1806.
[20] Yang C, Xiao Y, Zhang Y, et al. Heterogeneous network representation learning: A unified framework with survey and benchmark[J]. IEEE Transactions on Knowledge and Data Engineering, 2020.
[21] Wang X, Ji H, Shi C, et al. Heterogeneous graph attention network[C]//The world wide web conference. 2019: 2022-2032.
[22] Zhu Z, Fan X, Chu X, et al. HGCN: A heterogeneous graph convolutional network-based deep learning model toward collective classification[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 1161-1171.
[23] Perozzi B, Al-Rfou R, Skiena S. Deepwalk: Online learning of social representations[C]//Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. 2014: 701-710.
[24] Rong X. word2vec parameter learning explained[J]. arXiv preprint arXiv:1411.2738, 2014.
[25] Grover A, Leskovec J. node2vec: Scalable feature learning for networks[C]//Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 2016: 855-864.
[26] Tang J, Qu M, Wang M, et al. Line: Large-scale information network embedding[C]//Proceedings of the 24th international conference on world wide web. 2015: 1067-1077.
[27] Wang D, Cui P, Zhu W. Structural deep network embedding[C]//Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 2016: 1225-1234.
[28] Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[J]. arXiv preprint arXiv: 1609.02907, 2016.
[29] Veličković P, Cucurull G, Casanova A, et al. Graph attention networks[J]. arXiv preprint arXiv:1710.10903, 2017.
[30] Hamilton W, Ying Z, Leskovec J. Inductive representation learning on large graphs[J]. Advances in neural information processing systems, 2017, 30.
[31] Schlichtkrull M, Kipf T N, Bloem P, et al. Modeling relational data with graph convolutional networks[C]//European semantic web conference. Springer, Cham, 2018: 593-607.
[32] Zhang C, Song D, Huang C, et al. Heterogeneous graph neural network[C]//Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining. 2019: 793-803.
[33] Lu Y, Fang Y, Shi C. Meta-learning on heterogeneous information networks for cold-start recommendation[C] //Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 1563-1573.
[34] Yun S, Jeong M, Kim R, et al. Graph transformer networks[J]. Advances in neural information processing systems, 2019, 32.
[35] Zhao J, Wang X, Shi C, et al. Heterogeneous graph structure learning for graph neural networks[C]// Proceedings of the AAAI Conference on Artificial Intelligence. 2021, 35(5): 4697-4705.