[图神经网络]图卷积神经网络--GCN
创始人
2025-05-31 23:23:41

一、消息传递

        由于图具有“变换不变性”(即图的空间结构改变不会影响图的性状),故不能直接将其输入卷积神经网络。一般采用消息传递(Message pass)的方式来处理。

        消息传递机制通过局部邻域构建计算图实现,即某个节点的属性由其邻居节点来决定。汇聚这些邻居节点信息的工作由神经网络完成,不用人为干预。其形式如下例:

        每个节点都可构建属于自己的计算图,计算图可以表征一个其结构功能角色。 在计算过程中,每个计算图即为一个单独样本。

        需要注意的是,图神经网络的层数并不是神经网络的层数,而是计算图的层数。图神经网络的层数=计算图的层数=图中目标节点的邻居阶数。每一层的节点共享一套计算权重。

                        

         图神经网络的层数 k 可以视为卷积神经网络中的感受野。若 k 过大可能导致过平滑(所有节点输出同一张图)

二、图卷积神经网络

        1.计算单元

                图卷积神经网络基于消息传递方式,一般的计算方法是将邻居节点的属性特征逐元素求平均(与顺序无关,也可以是求最大值/求和),再将这个向量输入到神经元中

        2.数学表示

                k+1层 v 的嵌入是第k层v节点的邻域u计算(邻域u中的节点求和除以节点v连接数),其公式可以写作:

                        h^{(k+1)}_v=\sigma(\omega _k\sum \frac{h^k _u}{N(v)})       式中 \sigma为激活函数,\omega_k为权重

                其中,节点v的第0阶属性特征就是其本身:h_v^{(0)}=x_v

                神经网络输出的嵌入向量为z_v = h_v^K,K为网络的层数

        3.矩阵表示

                ①将k层所有节点的嵌入都记为H^{(k)}H^{(k)}=[h_1^{(k)}...h_{|v|}^{(k)}]^T,即下图中矩阵中的一行

                ②将此矩阵左乘一个邻接矩阵A_v : \sum_{u \in N_v}h_u^{(k)}=A_vH^{(k)} 可挑选出节点v的邻域节点(对应上式中的求和过程)

                ③找到一个矩阵D_v=Deg(v)=|N(v)|,该矩阵为一个由节点连接数构成的对角矩阵,表现为:

                         其逆矩阵即为连接数的倒数:D_v^{-1}=\frac{1}{|N(v)|}

                经过上述步骤,式\sum \frac{h^k _u}{N(v)}即可表示为D^{-1}AH^{(k)}

                但是这样计算的话,由于D^{-1}造成节点v仅会考虑自己的连接数而忽视对方的连接数(不考虑连接的质量,对全部渠道来得信息强行求平均), 可以将式子改进D^{-1}A --> D^{-1}AD^{-1},这样得到的结果是一个对称矩阵,既考虑了自身的连接数也考虑了对方的连接数。

                可改进后的向量幅值会减小,其特征值值域为(-1,1)。对于这种现象,可以继续对式子进行改进D^{-1}AD^{-1} --> D^{-\frac{1}{2}}AD^{-\frac{1}{2}},这样处理后最大特征值等于1。

                最后将此矩阵记为:\tilde{A}=D^{-\frac{1}{2}}AD^{-\frac{1}{2}},在此矩阵中,若两个节点i,j存在连接,则其在矩阵中为\tilde{A}=\frac{1}{\sqrt{d_i}\sqrt{d_j}},可以表示其连接权重(其中d_id_j是节点i和节点j的连接数)

                         矩阵\tilde{A}还可以用来计算拉普拉斯矩阵\xi = 1 - \tilde{A}

                则式子可以列为:h^{(k+1)}_v=\sigma(\tilde{D}^{-\frac{1}{2}}\tilde{A}\tilde{D}^{-\frac{1}{2}}H^{(l)}W^{(l)}),该式即可表示一层GCN;其中可学习参数为权重w^{(l)}

        4.计算图的改进

                上述方式(通过相邻节点描述本节点无法反映节点自身的情况),改进方法为:为每个节点加上指向自己的连接

                 这样改进后,邻接矩阵\tilde{A}即变为\tilde{A}=A+I(原矩阵加上单位阵,对角线全部为1)

                最终神经网络表达式H^{(k+1)}_v=\sigma(\tilde{D}^{-\frac{1}{2}}\tilde{A}\tilde{D}^{-\frac{1}{2}}H^{(l)}W^{(l)})可以写作:

                        H^K_i=\sigma(\sum \frac{\tilde{A_{ij}}}{\sqrt{\tilde{D_{ii}}}\tilde{D_{jj}} }H_j^{k-1}W^k)(一个式子包含了原权重矩阵和单位阵)

                也可拆分写作:

                        H^k_i=\sigma(\sum\frac{A_{ij}}{\sqrt{\tilde{D_{ii}}}\tilde{D_{jj}} }H^{k-1}_jW^k+\frac{1}{\tilde{D_i}}H^{k-1}_iW^k)(前面是对原权重矩阵的变换,后面是对单位矩阵的变换)

                进一步改进则可使用两套权重(汇聚节点信息一套,自循环节点信息一套),写作:

                        H^{(k+1)}_v=\sigma(W_k\sum\frac{h_u^{(k)}}{|N(v)|}+B_kh_v^{(k)})

                        且当B_k=1时,后式变为恒等映射,即为残差连接。

        !!!最终的矩阵简化形式为:H^{(k+1)}=\sigma(\tilde{A}H^{(k)}W_k^T+H^{(k)}B_k^T);其中\tilde{A}=D^{-\frac{1}{2}}AD^{-\frac{1}{2}}

三、GCN的训练

        1.监督学习

                损失函数:min\, l(y,f(z_v)),其中f为分类/回归预测头,y为节点标注信息

                交叉熵损失函数:l=\sum y_vlog(\sigma(z_v^T\theta ))+(1-y_v))log(1-\sigma(z_v^T\theta))

                GCN的输入是图结构,输出也是图结构,但输出的图中的节点嵌入了语义信息;输出结构具备:低维、连续、稠密的特点。

                 嵌入向量可以输入分类头进行分类,将其映射在二维空间上即可发现不同类别的节点在迭代中被分得越来越开

---->​​​​​​​

        2.无监督/自检断学习

                类似于Deepwalk/Node2vec,利用图自身的连接结构,迭代目的是让图中相连的两个结点嵌入的向量尽可能接近

                损失函数:l=\sum CE(y_{u,v},DEC(z_u,z_v)),当y_{u,v}=1时表示两个结点uv相似。

                一般采用“编码器--解码器”架构,由编码器将图嵌入到向量,再由解码器计算两个向量的相似度。

四、GCN的优势

        相较于传统的基于随机游走的机器学习而言

                ①GCN所有计算图共享权重参数量更小

                ②GCN为归纳式学习,拥有较强的泛化能力(可以泛化到新节点乃至新图--迁移学习)

                ③利用了节点的属性特征、结构功能角色和标注信息

                ④拟合学习能力强,得到的嵌入向量质量较高

五、对比CNN、Transformer

        1.与CNN对比

                CNN可以视为一个2层的GCN,卷积汇总了9个邻居节点和目标节点的信息,其数学式亦可被写成:h^{(l+1)}=\sigma(\sum W_l^uh_u^P(l)+B_lh_v^{(l)}),CNN可以被视为一个固定邻域、固定顺序的GCN。

                 但两者之间有以下不同

                        ①CNN不具备变换不变性,打乱像素点的顺序会影响网络的输出。

                        ②GCN的卷积核权重由\tilde{A}预定义,不需要学习。而CNN的权重需要学习得来

        2.与Transformer对比

                Transformer本身是自注意力机制,其训练的目的是让一个序列中的元素之间互相影响。

                 Transformer可以被视为一个全连接词图上的GCN。

相关内容

热门资讯

【实验报告】实验一 图像的... 实验目的熟悉Matlab图像运算的基础——矩阵运算;熟悉图像矩阵的显示方法࿰...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
大模型落地比趋势更重要,NLP... 全球很多人都开始相信,以ChatGPT为代表的大模型,将带来一场NLP领...
Linux学习之端口、网络协议... 端口:设备与外界通讯交流的出口 网络协议:   网络协议是指计算机通信网...
kuernetes 资源对象分... 文章目录1. pod 状态1.1 容器启动错误类型1.2 ImagePullBackOff 错误1....
STM32实战项目-数码管 程序实现功能: 1、上电后,数码管间隔50ms计数; 2、...
TM1638和TM1639差异... TM1638和TM1639差异说明 ✨本文不涉及具体的单片机代码驱动内容,值针对芯...
Qt+MySql开发笔记:Qt... 若该文为原创文章,转载请注明原文出处 本文章博客地址:https://h...
Java内存模型中的happe... 第29讲 | Java内存模型中的happen-before是什么? Java 语言...
《扬帆优配》算力概念股大爆发,... 3月22日,9股封单金额超亿元,工业富联、鸿博股份、鹏鼎控股分别为3.0...
CF1763D Valid B... CF1763D Valid Bitonic Permutations 题目大意 拱形排列࿰...
SQL语法 DDL、DML、D... 文章目录1 SQL通用语法2 SQL分类3 DDL 数据定义语言3.1 数据库操作3.2 表操作3....
文心一言 VS ChatGPT... 3月16号,百度正式发布了『文心一言』,这是国内公司第一次发布类Chat...
CentOS8提高篇5:磁盘分...        首先需要在虚拟机中模拟添加一块新的硬盘设备,然后进行分区、格式化、挂载等...
Linux防火墙——SNAT、... 目录 NAT 一、SNAT策略及作用 1、概述 SNAT应用环境 SNAT原理 SNAT转换前提条...
部署+使用集群的算力跑CPU密... 我先在开头做一个总结,表达我最终要做的事情和最终环境是如何的,然后我会一...
Uploadifive 批量文... Uploadifive 批量文件上传_uploadifive 多个上传按钮_asing1elife的...
C++入门语法基础 文章目录:1. 什么是C++2. 命名空间2.1 域的概念2.2 命名...
2023年全国DAMA-CDG... DAMA认证为数据管理专业人士提供职业目标晋升规划,彰显了职业发展里程碑及发展阶梯定义...
php实现助记词转TRX,ET... TRX助记词转地址网上都是Java,js或其他语言开发的示例,一个简单的...
【分割数据集操作集锦】毕设记录 1. 按要求将CSV文件转成json文件 有时候一些网络模型的源码会有data.json这样的文件里...
Postman接口测试之断言 如果你看文字部分还是不太理解的话,可以看看这个视频,详细介绍postma...
前端学习第三阶段-第4章 jQ... 4-1 jQuery介绍及常用API导读 01-jQuery入门导读 02-JavaScri...
4、linux初级——Linu... 目录 一、用CRT连接开发板 1、安装CRT调试工具 2、连接开发板 3、开机后ctrl+c...
Urban Radiance ... Urban Radiance Fields:城市辐射场 摘要:这项工作的目标是根据扫描...
天干地支(Java) 题目描述 古代中国使用天干地支来记录当前的年份。 天干一共有十个,分别为:...
SpringBoot雪花ID长... Long类型精度丢失 最近项目中使用雪花ID作为主键,雪花ID是19位Long类型数...
对JSP文件的理解 JSP是java程序。(JSP本质还是一个Servlet) JSP是&#...
【03173】2021年4月高... 一、单向填空题1、大量应用软件开发工具,开始于A、20世纪70年代B、20世纪 80年...
LeetCode5.最长回文子... 目录题目链接题目分析解题思路暴力中心向两边拓展搜索 题目链接 链接 题目分析 简单来说࿰...