-
开放科学(资源服务)标识码(OSID):

-
形式概念分析(Formal concept analysis,FCA)是文献[1]提出的一种从形式背景中进行数据分析和规则提取的有用工具。概念格是形式概念分析的核心数据结构,每个节点都是一个概念。许多学者对概念格的构造、概念格模型的推广以及概念格的应用等进行了深入的研究[2-5]。文献[6]从算子和布尔矩阵出发,提出了3种类型的概念特征以及属性约简的方法。文献[7]提出了一种面向属性的语言概念格,并在此基础上基于神经网络的多维推理模型来判断语言决策信息。随着形式概念分析的快速发展,以及多种数据类型、应用场景、网络数据挖掘的需求,形式概念分析方法被广泛应用于数据分析、数据挖掘、机器学习、知识提取等领域[8-11],且形式概念分析方法与复杂网络分析方法结合成为必然。
近年来,随着网络的普及,社会生活的各方面都涉及网络数据。网络数据随着时间在数量级、网络结构等方面发生着变化。动态网络数据的挖掘一直是研究的热点[12-15],并有许多研究成果[16-21]。随着网络技术向人工智能领域的纵深发展,将概念认知学习方法和复杂网络分析方法相结合,是网络背景下人工智能和机器学习等领域的重要研究方向。目前,已有学者对形式背景中的网络认知学习做了一些初步的工作。文献[22]通过邻接矩阵和关联矩阵将复杂网络分析方法和形式概念分析方法统一到一个数据框架中,提出了网络形式背景的概念,结合这两个方法的各自优势进行深入研究。文献[23]通过网络结构特征和节点内涵,提出了基于网络形式背景的单角色网络社区划分方法和多角色网络划分方法。以上研究只是在节点以及网络结构各方面静止不变的状态下进行研究,然而真实网络中的节点是动态变化的。文献[24]在静态网络上的PageRank中心性的基础上,提出了两种基于PageRank的动态网络中心性的定义,并对各时刻节点的中心性进行拟合,进而发现演化规律,并对下一时刻节点中心性的变化趋势进行预测。文献[25]考虑到节点间链接的变化不仅受邻接节点的影响,还受节点周围局部结构变化的影响,提出了基于节点表示和子图结构的动态网络链接预测方法。文献[26]利用时间变化的权重、节点之间共同邻居的变化程度及紧密程度,提出了基于社交网络动态拓扑的链接预测方法。以上研究均考虑了节点对网络动态变化的影响,更进一步,可以结合节点之间的网络结构和形式概念分析中的概念算子,对网络动态性进行分析和研究。将动态数据分析方法与形式概念分析方法相结合,研究动态网络中的概念及其特征值的变化将是一个非常有意义的方向。
随着学术网络平台中文献量的日益增加,如何从众多的文献中选择合适的高质量文献,或者对已有文献的动态趋势作出客观评价,已成为一个重要研究方向。目前,已有相关学者取得了许多成果。例如,文献[27]利用网络分析方法,通过构建知识流动规律模型,从知识节点特征分析、知识群落特征分析和整体网络特征分析3个方面研究了知识流动规律。文献[28]在PageRank算法的基础上,提出了结合引用网络结构和时间特性的学术评价算法,增加了时间序列,对引文网络链接赋予随时间变化减弱的权重,从而让学术评价更客观、有效。文献[29]构造了基于GCN、GAT、GraphSAGE 3种图神经网络的跨学科引文推荐模型,通过聚合文献的内容特征和网络结构特征,捕捉和学习跨学科知识传播的规律,为跨学科的研究学者推荐相关文献。由上可知,在引文网络中考虑作者或论文关键词形成的集合,或其对应概念的动态变化,可以将动态网络分析方法引入到形式概念分析方法中来,实现两种方法的优势互补。
本文将在网络形式背景的基础上提出动态网络形式背景和动态网络概念,同时,对网络概念特征值的动态性进行分析。
全文HTML
-
定义1[30] 设
$(U, A, I)$ 为形式背景,对$\forall X \subseteq U$ 和$B \subseteq A$ ,有:式中:
$X^{*}$ 表示$X$ 中所有对象共同拥有的属性组成的集合;$B^{*}$ 表示拥有$B$ 中所有属性的对象组成的集合。定义2[30] 设
$(U, A, I)$ 为形式背景,对于$\forall X \subseteq U$ 和$B \subseteq A$ ,有:式中:
$x I$ 表示对象$x$ 拥有的所有属性组成的集合;$I a$ 表示拥有属性$a$ 的所有对象组成的集合。定义3[22] 四元组
$(U, M, A, I)$ 称为一个网络形式背景。其中:$U=\left\{x_{1}, x_{2}, \cdots, x_{n}\right\}$ 是非空有限节点集;$M=\left\{\boldsymbol{M}_{1}, \boldsymbol{M}_{2}, \cdots, \boldsymbol{M}_{k}\right\}$ 是网络邻接矩阵集,$\boldsymbol{M}_{k}=\left(m_{i j}^{k}\right)_{n \times n}$ 为网络的$k$ 阶邻接矩阵,$0 \leqslant m_{i j}^{k} \leqslant 1 ; A=\left\{a_{1}, a_{2}, \cdots, a_{m}\right\}$ 是非空有限属性集;$I=\left\{I_{s} \mid s=1 、2 、\cdots 、k+1\right\}$ 。当$s=1$ 、$2 、\cdots 、k$ 时,$I_{1} 、I_{2} 、\cdots 、I_{k}$ 是笛卡尔积$U \times U$ 上的二元关系,$\left(x_{i}, x_{j}\right) \in I_{s}$ 表示节点$x_{i}$ 和节点$x_{j}$ 是$s$ 阶邻接的;当$s=k+1$ 时,$I_{k+1}$ 是笛卡尔积$U \times A$ 上的二元关系,$a_{p} \in A, \left(x_{i}, a_{p}\right) \in I_{k+1}$ 表示节点$x_{i}$ 拥有属性$a_{p}$ 。事实上,网络形式背景可以视为两个矩阵的结构邻接矩阵,右边的属性取值矩阵VA。
当网络无向时,mijk=1表示节点xi与节点xj之间可以通过k条边相连,且有mijk=mjik;当网络有向时,mijk=1表示节点xi指向节点xj由k条边相连,mijk=mjik不一定成立。
例如,一个有向网络形式背景如表 1所示。其中:
$\boldsymbol{M}_{1}=\left(m_{i j}^{1}\right)_{n \times n}$ 表示一阶邻接矩阵,$m_{12}^{1}=1$ 表示$x_{1}$ 指向$x_{2}$ 由1条边相连,$m_{21}^{1}=0$ 表示没有$x_{2}$ 指向$x_{1}$ 的边;$\boldsymbol{M}_{k}=\left(m_{i j}^{k}\right)_{n \times n}$ 表示$k$ 阶邻接矩阵,$m_{21}^{k}=1$ 表示$x_{2}$ 指向$x_{1}$ 由$k$ 条边相连$\left(x_{1}, a_{1}\right) \in I_{k+1}$ 表示节点$x_{1}$ 拥有属性$a_{1}, \left(x_{1}, a_{2}\right) \notin I_{k+1}$ 表示节点$x_{1}$ 不拥有属性$a_{2}$ 。在有向图中,考虑到节点与节点之间的连边具有方向性,因此节点度可分为出度和入度,下面给出节点出度和入度的定义。
定义4 节点出度可表示为:
节点入度可表示为:
式中:
$\left|X_{i j}\right|$ 表示从节点$x_{i}$ 到节点$x_{j}$ 的边的数量,$\left|X_{j i}\right|$ 表示从节点$x_{j}$ 到节点$x_{i}$ 的边的数量;$\sum\limits_{k=1}^{L}\left|A_{i j k}\right|$ 表示节点$x_{i}$ 与$x_{j}$ 之间共同拥有的属性数;若$A_{i j k}=0$ ,则表示节点$x_{i}$ 与$x_{j}$ 之间没有共同拥有属性$k$ ,若$A_{i j k}=1$ 则表示节点$x_{i}$ 与$x_{j}$ 之间共同拥有属性$k ; N$ 表示网络中节点的个数,$L$ 表示网络形式背景中属性集$A$ 中属性的总个数。在现实网络数据分析中,随着时间的变化,网络数据(节点和属性)也会发生变化。比如,在引文网络中,随着时间的变化,网络中将会增加新的关键词和文献。新增的关键词扩充了属性集,新增的文献与之前的文献之间的引用关系也会使得结构矩阵发生变化。因此,研究动态网络形式背景及其概念的动态特征具有现实意义。
-
在定义3的基础上考虑时间因素,构造动态网络形式背景,是将动态网络数据分析方法与形式概念分析方法相结合的前提与基础。
定义5 四元组
$(U(t), M(t), A(t), I(t))$ 称为一个动态网络形式背景(DNFC)。其中:$U(t)=\left\{x_{1}\right.$ ,$\left.x_{2}, \cdots, x_{m}\right\}$ 是$t$ 时刻非空有限节点集;$M(t)=\left\{\boldsymbol{M}_{1}(t), \boldsymbol{M}_{2}(t), \cdots, \boldsymbol{M}_{k}(t)\right\}$ 是$t$ 时刻网络邻接矩阵集,$\boldsymbol{M}_{k}(t)=\left(m_{i j}^{k}(t)\right)_{n \times n}$ 为$t$ 时刻网络的$k$ 阶邻接矩阵,$0 \leqslant m_{i j}^{k}(t) \leqslant 1 ; A(t)=\left\{a_{1}, a_{2}, \cdots, a_{m}\right\}$ 是$t$ 时刻非空有限属性集;$I(t)=\left\{I_{s}(t) \mid s=1 、2 、\cdots 、k+1\right\}$ 。当$s=1 、2 、\cdots 、k$ 时,$I_{1}(t) 、I_{2}(t) 、\cdots 、I_{k}(t)$ 是笛卡尔积$U \times U$ 上的二元关系,$\left(x_{i}, x_{j}\right) \in I_{s}(t)$ 表示$t$ 时刻节点$x_{i}$ 和节点$x_{j}$ 是$s$ 阶邻接的;当$s=k+1$ 时,$I_{k+1}(t)$ 是笛卡尔积$U \times A$ 上的二元关系,$a_{p} \in A(t), \left(x_{i}, a_{p}\right) \in I_{k+1}(t)$ 表示$t$ 时刻节点$x_{i}$ 拥有属性$a_{p}$ 。其动态网络形式背景如表 2所示。事实上,当网络无向时,
$m_{i j}^{k}(t)=1$ 表示$t$ 时刻节点$x_{i}$ 与节点$x_{j}$ 之间可以通过$k$ 条边相连,且有$m_{i j}^{k}(t)=m_{j i}^{k}(t)$ ;当网络有向时,$m_{i j}^{k}(t)=1$ 表示$t$ 时刻节点$x_{i}$ 指向节点$x_{j}$ 由$k$ 条边相连,$m_{i j}^{k}(t)= m_{j i}^{k}(t)$ 不一定成立。进一步研究
$t+1$ 时刻的动态网络形式背景的构造时,我们发现动态形式背景分为两类:一类是$t$ 时刻的节点、节点之间的结构关系、节点的属性取值都有可能改变,例如社交营销网络;另一类是随着时间变化,$t$ 时刻的节点、节点之间的结构关系、节点的属性取值都不变,如引文网络。对于第一类,每个时间点的数据都需要更新,于是在进行数据分析时相当于每次都要重新加载所有数据。
对于第二类,以引文网络为例,动态网络形式背景构造的思路如下:随着时间变化,已知
$t$ 时刻的动态网络形式背景,构造$t+1$ 时刻和$t+s$ 时刻的动态网络形式背景(图 1)。在$t+1$ 时刻,$t$ 时刻之前的网络形式背景都不变,如引文网络,$t$ 时刻之前的文献之间的引用、被引用关系和文献的关键词都不变。于是,只要将$t+1$ 时刻新增文献与之前文献之间的邻接矩阵构造出来作为新增的行、列,即可得到$t+1$ 时刻的邻接结构矩阵集$M(t+1)$ ,同时将新增对象的取值添加进右边的属性矩阵即可得到$\boldsymbol{V}_{A(t+1)}$ 。$t$ 时刻的网络形式背景构造如图 1a所示。假设在$t+1$ 时刻,新增了文献$x_{n+1} 、\cdots 、x_{n+r_{1}}$ ,将新增的文献与之前文献之间的邻接矩阵构造出来作为新增的行、列,$m_{(n+1) n}{ }^{k}(t+1)=0$ 表示$t+1$ 时刻从节点$x_{n+1}$ 指向节点$x_{n}$ 不可以通过$k$ 条边相连,如图 1b的左边$M(t+1)$ 所示。假设在$t+1$ 时刻,新增了关键词$a_{n+1} 、\cdots 、a_{n+m_{1}}, r_{\left(n+r_{1}\right) 1}(t+1)=1$ 表示$t+1$ 时刻节点$x_{n+r_{1}}$ 拥有属性$a_{1}$ ,如图 1b的右边$\boldsymbol{V}_{A(t+1)}$ 所示。综合以上两步,得到$t+1$ 时刻的网络形式背景构造。假设在
$t+s$ 时刻,新增了节点$x_{n+r_{2}} 、\cdots 、x_{n+r_{s}}$ ,新增了属性$a_{n+m_{2}} 、\cdots 、a_{n+m_{s}}$ ,同理,可以得到$t+s$ 时刻的网络形式背景构造如图 1c所示。在动态网络中结合形式概念分析方法的思想,从t时刻的某个对象集X(t)出发,研究随时间变化的X*(t),或者从t时刻的某个属性集B(t)出发,研究随时间变化的B*(t),都能够帮助我们进一步了解网络概念及其网络特征值。
-
为了定义动态网络的概念,由定义4进一步给出动态网络概念特征参数的定义。
定义6 动态网络概念特征参数定义为
$\mathscr{M}(t)=\left\{\mathscr{M}_{1}(t), \mathscr{M}_{2}(t)\right\}$ 。$\mathscr{M}_{1}(t)$ 称为$t$ 时刻的平均度,即$t$ 时刻子网络中节点影响力的平均值;$\mathscr{M}_{2}(t)$ 称为$t$ 时刻的平均势,表示$t$ 时刻子网络中节点影响力的差异程度。若考虑有向网络,$\mathscr{M}_{1}^{\text {in }}(t) 、\mathscr{M}_{1}^{\text {out }}(t)$ 分别表示入平均度和出平均度;$\mathscr{M}_{2}^{\text {in }}(t) 、\mathscr{M}_{2}^{\text {out }}(t)$ 分别表示人平均势和出平均势。满足:式中:
$c_{D}(i)^{\text {in }}(t)$ 表示$t$ 时刻节点$x_{i}$ 的人度;$c_{D}(i)^{\text {out }}(t)$ 表示$t$ 时刻节点$x_{i}$ 的出度。定义7 动态网络对象概念定义为
$\left(\mathscr{M}_{1}(t), \mathscr{M}_{2}(t), X(t), X{ }^{*}(t)\right)$ 。其中:$\mathscr{M}_{1}(t)$ 表示$t$ 时刻子网络$X(t)$ 的平均度;$\mathscr{M}_{2}(t)$ 表示$t$ 时刻子网络$X(t)$ 的平均势;$X(t)$ 表示$t$ 时刻子网络中的对象集;$X^{*}(t)$ 表示$t$ 时刻该子网络中对象共同拥有的属性集。考虑有向网络,关于动态有向网络对象概念有以下定义:
定义8
$\left(\mathscr{M}_{1}^{\text {in }}(t), \mathscr{M}_{2}^{\text {in }}(t), X(t), X^{*}(t)\right) 、\left(\mathscr{M}_{1}^{\text {out }}(t), \mathscr{M}_{2}^{\text {out }}(t), X(t), X^{*}(t)\right)$ 分别称为动态有向网络对象人概念和动态有向网络对象出概念。例如在引文网络中,从对象集
$X(t)$ 出发,可以研究$t$ 时刻$X(t)$ 中被引用(本研究中,被引用定义为人关系)的对象构成的子网络的入平均度$\mathscr{M}_{1}^{\mathrm{in}}(t)$ 、入平均势$\mathscr{M}_{2}^{\mathrm{in}}(t)$ ,以及共同拥有的关键词$X^{*}(t)$ 。于是每个时刻都可以在网络中找到相应的对象概念,而且还可以描述出其网络特征值。定义9 动态网络属性概念定义为
$\left(\mathscr{M}_{1}(t), \mathscr{M}_{2}(t), B^{*}(t), B(t)\right)$ 。其中:$\mathscr{M}_{1}(t)$ 表示$t$ 时刻子网络的平均度;$\mathscr{M}_{2}(t)$ 表示$t$ 时刻子网络的平均势;$B(t)$ 表示$t$ 时刻子网络中的属性集;$B^{*}(t)$ 表示$t$ 时刻拥有网络中所有属性的对象构成的集合。例如在学术网络中,从
$t$ 时刻的热门关键词$B(t)$ 出发,可以研究其对应的对象集$B^{*}(t)$ 构成的子网络的平均度$\mathscr{M}_{1}(t)$ 、平均势$\mathscr{M}_{2}(t)$ 。考虑有向网络,关于动态有向网络属性概念有以下定义:
定义10
$\left(\mathscr{M}_{1}^{\text {in }}(t), \mathscr{M}_{2}^{\text {in }}(t), B^{*}(t), B(t)\right), \left(\mathscr{M}_{1}^{\text {out }}(t), \mathscr{M}_{2}^{\text {out }}(t), B^{*}(t), B(t)\right)$ 分别称为动态有向网络属性人概念和动态有向网络属性出概念。其中:$\mathscr{M}_{1}^{\mathrm{in}}(t)$ 表示$t$ 时刻$B^{*}(t)$ 对应的对象中被引用的对象构成的子网络的入平均度,$\mathscr{M}_{2}^{\text {in }}(t)$ 表示以上子网络的入平均势;$\mathscr{M}_{1}^{\text {out }}(t)$ 表示$t$ 时刻$B{ }^{*}(t)$ 对应的对象中引用(本文中引用定义为出关系)的对象构成的子网络的出平均度,$\mathscr{M}_{2}^{\text {out }}(t)$ 表示以上子网络的出平均势。 -
在动态复杂网络分析的研究中,网络特征值动态性的研究是非常重要的,反映了动态网络拓扑结构的变化规律,也让我们能够从网络特征值的变化速率来进一步刻画网络概念。
下面给出一般情形的动态网络对象概念
$\mathscr{M}_{1}(t) 、\mathscr{M}_{2}(t)$ 的动态性定义,$\mathscr{M}_{1}^{\text {in }}(t) 、\mathscr{M}_{2}^{\text {in }}(t) 、\mathscr{M}_{1}^{\text {out }}(t)$ 、$\mathscr{M}_{2}^{\text {out }}(t)$ 的动态性定义同理可得。定义11 已知动态网络对象概念
$\left(\mathscr{M}_{1}(t), \mathscr{M}_{2}(t), X(t), X^{*}(t)\right)$ ,则对象集$X(t)$ 的特征值$\mathscr{M}_{1}(t)$ 的变化速率为:式中:
$\mathscr{M}_{1}^{\prime}(t)=0$ 表示对象集$X(t)$ 的平均度呈现稳定趋势;$\mathscr{M}_{1}^{\prime}(t)>0$ 表示对象集$X(t)$ 的平均度呈现增强趋势;$\mathscr{M}_{1}^{\prime}(t)<0$ 表示对象集$X(t)$ 的平均度呈现减弱趋势。定义12 已知动态网络对象概念
$\left(\mathscr{M}_{1}^{\prime}(t), \mathscr{M}_{2}^{\prime}(t), X(t), X^{*}(t)\right)$ ,则对象集$X(t)$ 的特征值$\mathscr{M}_{2}^{\prime}(t)$ 的变化速率为:式中:
$\mathscr{M}_{2}^{\prime}(t)=0$ 表示对象集$X(t)$ 的平均势呈现稳定趋势;$\mathscr{M}_{2}^{\prime}(t)>0$ 表示对象集$X(t)$ 的平均势呈现增强趋势;$\mathscr{M}_{2}^{\prime}(t)<0$ 表示对象集$X(t)$ 的平均势呈现减弱趋势。定义13 已知动态网络对象概念
$\left(\mathscr{M}_{1}^{\prime}(t), \mathscr{M}_{2}^{\prime}(t), X(t), X^{*}(t)\right)$ ,则对象概念$X^{*}(t)$ 的变化速率为:若
$\sigma\left(X^{*}(t)\right)=0$ ,则称该网络中属性个数稳定;若$\sigma\left(X^{*}(t)\right)>0$ ,则称该网络中属性个数递增;若$\sigma\left(X^{*}(t)\right)<0$ ,则称该网络中属性个数减少。在实际研究中,对象概念
$X^{*}(t)$ 的研究总是要从一个有代表性的对象集$X(t)$ 出发。下面考虑网络中节点度排名前10的节点,分别构造其邻接集,将这些邻接集构造成对象集$X(t)$ 。定义14 节点
$x_{i}$ 的一阶指人邻接节点集定义为$N e b^{i n}\left(x_{i}\right)=\left\{x_{j} \mid m_{j i}^{1}=1\right\}$ ,节点$x_{i}$ 的一阶指出邻接节点集定义为$N e b^{\text {out }}\left(x_{i}\right)=\left\{x_{j} \mid m_{i j}^{1}=1\right\}$ 。式中:$m_{j i}^{1}=1$ 表示节点$x_{j}$ 指向节点$x_{i} ; m_{i j}^{1}=1$ 表示节点$x_{i}$ 指向节点$x_{j}$ 。下面通过网络对象集
$X(t)$ 和网络对象概念$X^{*}(t)$ 的网络特征值的变化来反映其动态性。算法1(网络对象概念动态性分析算法)
输入:动态网络形式背景
$\operatorname{DNFC}(t), t=1 、2 、\cdots 、s, h \quad / / h$ :度排名前$h$ 。输出:
$\mathscr{M}_{1}^{\prime}\left(x_{j}, t\right) 、\mathscr{M}_{2}^{\prime}\left(x_{j}, t\right) 、\sigma\left(X_{j}^{*}(t)\right)$ ,网络对象变化图,网络对象特征值变化图。步骤1 令
$t=1$ ,载人$\operatorname{DNFC}(t)$ 数据。计算所有节点$x_{i}$ 的一阶人邻阶节点数$\left|N e b^{\text {in }}\left(x_{i}\right)\right|$ ,并进行降序排列,取排名前$h$ 的节点集,记为$X_{1}$ 。步骤2 遍历集合
$X_{1}$ 中的每个元素$x_{j}$ ,计算$x_{j}$ 的一阶入邻接节点集$N e b^{\text {in }}\left(x_{j}(t)\right)$ ,并将节点$x_{j}$ 和节点集$N e b^{\text {in }}\left(x_{j}(t)\right)$ 构成一个子网络,记为$X_{j}(t)$ ,并计算$X_{j}^{*}(t)$ 。步骤3 计算
$X_{j}(t)$ 的网络特征值:以及
输出:
$\mathscr{M}_{1}^{\prime}\left(x_{j}, t\right) 、\mathscr{M}_{2}^{\prime}\left(x_{j}, t\right)$ 。步骤4 计算对象概念
$X_{j}^{*}(t)$ 的变化速率:输出:
$\sigma\left(X_{j}^{*}(t)\right)$ 。步骤5
$ t \leftarrow t+1$ ,如果$t \leqslant s$ ,载入$\operatorname{DNFC}(t)$ 数据,返回步骤2。步骤6 画出
$X_{1}$ 中的所有元素对应$\left|N e b^{\text {in }}\left(x_{j}(t)\right)\right|$ 随时间的网络对象变化图。步骤7 画出各子网络
$X_{j}(t)$ 的特征值$\mathscr{M}_{1}^{\prime}\left(x_{j}, t\right) 、\mathscr{M}_{2}^{\prime}\left(x_{j}, t\right)$ 随时间的网络对象特征值变化图,算法1结束。同理,可以研究网络属性概念的动态性。
-
定义15 已知动态网络属性概念
$\left(\mathscr{M}_{1}(t), \mathscr{M}_{2}(t), B^{*}(t), B(t)\right)$ ,则属性集$B(t)$ 的变化速率为:若
$\delta B(t)=0$ ,则称属性内涵稳定;若$\delta B(t)>0$ ,则称属性内涵扩展;若$\delta B(t)<0$ ,称属性内涵收缩。事实上,动态网络属性概念
$\left(\mathscr{M}_{1}(t), \mathscr{M}_{2}(t), B^{*}(t), B(t)\right)$ 中$B^{*}(t)$ 对应的子网络的特征值变化速率的分析方法同定义11和定义12,不再赘述。在实际研究中,对象概念
$B^{*}(t)$ 的研究总是要从一个有代表性的属性集$B(t)$ 出发。下面考虑网络中属性度排名前10的属性,分别构造其属性概念。定义16 给定一个动态网络形式背景,若
$a_{k} \in A(t)$ ,则$D\left(a_{k}, t\right)=\left|a_{k}^{*}(t)\right|$ 称为$t$ 时刻$a_{k}$ 的属性度,式中:$D\left(a_{k}, t\right)$ 表示$t$ 时刻拥有属性$a_{k}$ 的对象个数。$D\left(a_{k}, t\right)$ 越大,说明$t$ 时刻拥有属性$a_{k}$ 的对象越多,即$t$ 时刻属性$a_{k}$ 在网络中越普遍。定义17 属性
$a_{k}$ 在$t$ 时刻的密度可表示为:式中:
$N$ 表示$t$ 时刻网络中节点的个数。特别地,若$\rho\left(a_{k}, t\right) \rightarrow 1$ ,说明$t$ 时刻网络中几乎所有的节点都具有属性$a_{k}$ ;若$\rho\left(a_{k}, t\right) \rightarrow 0$ ,说明$t$ 时刻网络中几乎所有的节点都不具有属性$a_{k}$ 。例如在引文网络中,
$\rho\left(a_{k}, t\right)$ 越大说明$t$ 时刻该网络中拥有关键词$a_{k}$ 的文献所占比例越大,该关键词在网络中就越重要。下面通过网络属性集
$B(t)$ 和网络属性概念$B^{*}(t)$ 的网络特征值的变化来反映其动态性。算法2(网络属性概念动态性分析算法)
输入:动态网络形式背景
$\operatorname{DNFC}(t), t=1 、2 、\cdots 、s$ 。输出:
$\mathscr{M}_{1}^{\prime}\left(a_{i}, t\right) 、\mathscr{M}_{2}^{\prime}\left(a_{i}, t\right)$ ,网络属性变化图、网络属性特征值变化图。步骤1 令
$t=1$ ,计算各属性的密度$\rho\left(a_{k}\right)$ ,取排名前10的属性集,记为$B_{1}$ 。步骤2 遍历集合
$B_{1}$ 中的每个属性$a_{i}$ ,计算$\rho\left(a_{i}, t\right)$ 。计算每个属性$a_{i}$ 对应的对象集,并记为$X\left(a_{i}, t\right)$ 。步骤3 计算
$X\left(a_{i}, t\right)$ 的网络特征值:以及
输出:
$\mathscr{M}_{1}^{\prime}\left(a_{i}, t\right) 、\mathscr{M}_{2}^{\prime}\left(a_{i}, t\right)$ 。步骤4
$ t \leftarrow t+1$ ,如果$t \leqslant s$ ,载入$\operatorname{DNFC}(t)$ 数据,返回步骤2。步骤5 画出
$B_{1}$ 中的所有元素对应$\rho\left(a_{i}, t\right)$ 随时间的网络属性变化图。步骤6 画出网络属性概念对应子网络的特征值
$\mathscr{M}_{1}^{\prime}\left(a_{i}, t\right), \mathscr{M}_{2}^{\prime}\left(a_{i}, t\right)$ 随时间的网络属性特征值变化图,算法2结束。
3.1. 动态网络的概念
3.2. 网络对象概念的动态性
3.3. 网络属性概念的动态性
-
下面利用Web of Science核心期刊库中的数据,通过算法1和算法2,得到随着时间变化的网络对象概念和网络属性概念,并对其网络特征值进行分析。
-
首先,从Web of Science核心期刊库获取数据。将检索年限定于1998-2022年,以“formal concept analysis”为主题在数据库中进行检索。论文类型的文献按照相关性排序选取1 000篇,并删除没有DOI的文献,最终选取的文献数目为817篇。
接着,提取上述文献的标题、摘要、关键词作为实验数据集,并对该数据集进行预处理。具体操作为:利用python对数据集进行单词分割、去除停用词、词形还原、词干提取等自然语言处理,最终获得6 862个词汇。
最后,对以上数据集根据时间进行切片,将其分为4个时间段:T1(1998-2007年)、T2(2008-2012年)、T3(2013-2017年)、T4(2018-2022年),并按此时间段对网络动态形式背景进行构造,得到4个时期的动态形式背景DNFC-1、DNFC-2、DNFC-3、DNFC-4。
预处理后的数据集的基本描述如表 3所示。
-
根据时间切片,求解每个时间切片内对象概念的网络特征值参数,结果如表 4、图 2。
由表 4和图 2可知,子网络的入平均度、出平均度和入平均势、出平均势均逐渐降低,即子网络的平均影响力随着时间的变化逐渐降低,子网络内部节点的影响力的差异逐渐减小。结果表明,随着时间发展,文章研究内容的差距逐渐减少,即学者们关注的研究重点最终趋向于统一。
接下来,进行网络的动态性分析。
对于算法1,有以下结果:①反映出初始阶段节点度排名前10的节点的度随时间的变化情况;②计算出初始阶段节点度排名前10的节点,在各个时刻
$t$ 的人邻接集的特征值及特征值的变化率;③计算初始阶段节点度排名前10的节点,在各个时刻$t$ 的人邻接集共同拥有的属性数的变化率。具体的运行结果如表 5、表 6和图 3所示。为了文章简洁,表 5、表 6中分别只给出人度排名最大的点$X_{1}(t)$ 随时间变化$\mathscr{M}_{1}^{\prime}(t) 、 \mathscr{M}_{2}^{\prime}(t) 、 \sigma\left(X_{1}^{*}(t)\right)$ 的值。由表 5可知,
$\mathscr{M}_{1}^{\prime}\left(\mathrm{T}_{1}\right)>\mathscr{M}_{1}^{\prime}\left(\mathrm{T}_{2}\right)>0$ ,说明该网络平均度的增长速率呈现先增强后减弱的变化趋势,即该子网络的平均影响力在2012年之前呈上升的趋势,且$\mathrm{T}_{1}$ 时间段的增长速率是$\mathrm{T}_{2}$ 时间段的10.2倍,但整体变化不大。$0>\mathscr{M}_{1}^{\prime}\left(\mathrm{T}_{3}\right)>\mathscr{M}_{1}^{\prime}\left(\mathrm{T}_{4}\right)$ ,说明该网络平均度的增长速率为负增长,且负增长趋势增强,即2012年以后该子网络的平均影响力增长速率有所减少。$\mathscr{M}_{2}^{\prime}\left(\mathrm{T}_{1}\right)=0, \mathscr{M}_{2}^{\prime}\left(\mathrm{T}_{2}\right)>\mathscr{M}_{2}^{\prime}\left(\mathrm{T}_{3}\right)>\mathscr{M}_{2}^{\prime}\left(\mathrm{T}_{4}\right)$ 说明动态网络对象概念平均势呈现先稳定后增强的变化趋势,且在$T_{2}$ 时间段增长速率最大,即该子网络内文献间的影响力差异在2007年之前比较稳定,2007年之后该子网络内文献间的影响力增长速率均大于0,但增长速率逐渐变缓。由表 6可知,
$\sigma\left(X_{1}^{*}\left(\mathrm{~T}_{1}\right)\right)>\sigma\left(X_{1}^{*}\left(\mathrm{~T}_{2}\right)\right)>\sigma\left(X_{1}^{*}\left(\mathrm{~T}_{3}\right)\right)>0>\sigma\left(X_{1}^{*}\left(\mathrm{~T}_{4}\right)\right)$ ,对象概念$X^{*}(t)$ 的变化速率呈现先增长后减弱的变化趋势,且整体的变化速率呈降低趋势,$T_{1}$ 时间段的变化速率最大,即该子网络中文献共同拥有的关键词数量在2017年之前呈现上升的趋势,且上升缓慢。2017年以后该子网络中文献共同拥有的关键词数量有所减少。图 3a反映了随着时间变化,期初被引次数前10的文献的被引次数的变化情况。总体来看,期初被引次数比较多的点,一直都保持比较大的被引次数。文献27一直保持最大的被引次数,应该是该领域最基础的一篇论文。文献13在2012年以后被引次数超过了文献14,其被引次数从2017年起接近文献27的被引次数,成为被引次数增长幅度最大的文献,说明是近年来最热门的被引论文。
从图 3b可以看出,随着时间变化,期初被引次数最大的文献27与各个时期引用它的文献构成的子网络的特征值的变化。
$\mathscr{M}_{1}^{\mathrm{in}}(t)$ 表示$t$ 时刻子网络的平均影响力,2012年以前的变化比较平缓,表示该子网络中各篇文献的影响力变化不大。2012年以后$\mathscr{M}_{1}^{\mathrm{in}}(t)$ 呈现下降趋势,结合图 3a,文献27的被引量一直在快速增长,这表明,随着时间变化,更多的影响力不太大的文献引用了文献27。$\mathscr{M}_{2}^{\mathrm{in}}(t)$ 表示$t$ 时刻子网络的平均影响力差异,从图 3b看出$\mathscr{M}_{2}^{\mathrm{in}}(t)$ 一直保持很大的增长幅度,说明引用文献27的文献之间的影响力差异一直在增加。这与之前对$\mathscr{M}_{1}^{\mathrm{in}}(t)$ 的分析一致。对于算法2,有以下结果:①反映出初始阶段属性密度排名前10的属性随着时间变化,属性密度的变化情况;②计算出对应的子网络的特征值及特征值的变化率。具体运行结果如表 7和图 4所示。为了简洁,表 7只给出属性密度最大的属性ap对应子网络ap*在各个时期的特征值变化速率。
由表 7可知,所有值均大于0,说明该属性概念(子网络)的平均影响力增长速率和平均势增长速率均为正。
$\mathscr{M}_{1}^{\prime}\left(\mathrm{T}_{2}\right)=0.12>\mathscr{M}_{1}^{\prime}\left(\mathrm{T}_{3}\right)=0.09>\mathscr{M}_{1}^{\prime}\left(\mathrm{T}_{1}\right)=0.03>\mathscr{M}_{1}^{\prime}\left(\mathrm{T}_{4}\right)=0.01>0$ ,说明该属性概念(子网络)的平均影响力增长速率不大。在$\mathrm{T}_{2}$ 时间段变化速率最大,是$\mathrm{T}_{4}$ 时间段变化速率的12倍。说明2008-2012年文献引用常用关键词$a_{p}$ 的数量增长最快,而且达到2018—2022年间增长速率的12倍。$\mathscr{M}_{2}^{\prime}\left(\mathrm{T}_{4}\right)=1.15>\mathscr{M}_{2}^{\prime}\left(\mathrm{T}_{2}\right)=0.93>\mathscr{M}_{2}^{\prime}\left(\mathrm{T}_{3}\right)=0.84>\mathscr{M}_{2}^{\prime}\left(\mathrm{T}_{1}\right)=0.03$ ,表明该属性概念(子网络)的平均影响力差异增速整体呈上升趋势,在$T_{4}$ 时间段取得最大值。2018-2022年该子网络的差异增速是2007年前的38.33倍,说明2018-2022年该子网络文献影响力差异最大。图 4a显示出初始阶段属性密度前10的关键词随着时间变化被引的情况。总体上,初始阶段属性密度前10的关键词随着时间变化,其属性密度排序及变化趋于平稳。关键词56在2007-2012年,属性密度大幅度增长,超过了排在它之前的关键词158,在此之后属性密度变化保持平稳趋势。这表明2007-2012年关键词56是一个引用热词。而关键词31从期初开始属性密度有一直减少的趋势,从2009年起一直处于最后一位,说明该关键词渐渐变得不再热门。
图 4b表示属性密度最大的关键词对应的属性概念(子网络)的网络特征值随时间变化情况。
$\mathscr{M}_{1}^{\mathrm{in}}(t)$ 平稳增长,说明引用期初最热的被引关键词的文献,在各个时期的影响力稳中有升。$\mathscr{M}_{2}^{\mathrm{in}}(t)$ 呈现较大的增长趋势,说明引用该关键词的文献的影响力差异越来越大,即有越来越多的影响力较小的文献引用了该关键词。综上可知,结合引文数据,不仅可以在动态网络形式背景中找到动态的网络概念,而且可以分析随着时间变化,这些网络概念的网络特征值的变化情况,同时还可以分析引文网络研究内容的发展状况及其未来趋势。这对网络概念的认知非常有意义。
4.1. 数据预处理
4.2. 实验结果分析
-
本研究提出了动态网络形式背景的框架,在该框架的基础上定义了动态网络概念,从网络属性集、网络概念的平均度以及平均势等方面详细研究了网络概念的动态性,并基于网络概念的动态性提出了网络对象概念动态性分析算法和网络属性概念动态性分析算法,旨在通过网络特征值的动态变化分析网络中对象集和属性集的详细变化,捕捉网络中节点和属性的动态变化趋势,分析其对网络整体发展的影响。同时,本研究还进行了一些实验,将前面的讨论应用到实际引文网络中,从而研究了引文网络中节点和属性重要性的变化趋势,以及网络特征值的变化情况,用来分析选定主题的引文网络中重要文献节点及关键词属性对网络发展影响的动态变化趋势以及其冷热门变化情况。
在本研究提出的动态网络形式背景的框架下,今后可以进一步研究:①在动态网络形式背景下,对网络中对象的传播和追踪进行研究,如舆情网络中重要节点的识别、传染病网络中疾病传播路径的追踪等;②基于网络结构,对动态网络数据进行预测和分析,如引文网络新兴主题的预测、舆情发展趋势预测等。
下载: