Feature Selection Method of Intrusion Detection System Based on Modified Pigeon-Inspired Optimization Algorithm

WU Feng

doi:10.13718/j.cnki.xsxb.2021.05.021

Aiming at the problems of low detection accuracy, long modeling time, and slow convergence in the current Intrusion Detection System (IDS), a method of feature selection for intrusion detection system based on modified pigeon-inspired optimization algorithm has been proposed. In this method, pigeon-inspired optimization algorithm is used to optimize the uncorrelated features in the data, and to select the best subset of the features by considering the three indicators of true positive rate (TPR), false positive rate (FPR) and the number of features. The experimental results show that, compared with the existing feature selection algorithms, the proposed algorithm has more advantages, and it can reduce the number of features required to build a robust IDS while ensuring a high detection rate and a low false alarm rate.

HTML

随着计算机网络科技的迅猛发展，网络安全越来越受到人们的重视，入侵检测系统(intrusion detection system，IDS)作为当前网络安全领域内的热点问题受到研究人员的广泛关注^[1]. 系统执行入侵检测时，IDS处理大量的数据，包括误报、不相关及冗余的特性. 这些特点不仅降低检测速度，而且消耗大量的计算资源. 特征选择通过对携带重要信息的相关特征进行识别，有助于解决IDS中遇到的常见问题^[2-3].

由于特征选择是一个机器学习的概念，可以通过各种技术实现，包括智能模式、群体智能、人工神经网络、确定算法以及模糊和粗糙集^[4]. 在入侵检测系统中，常常选择元启发式算法作为搜索最佳特征的方法. 目前，科研人员将多种群智能优化算法用于IDS的特征选择^[5]. Acharya等^[6]提出一种基于智能水滴算法的特征选择方法，通过智能水滴算法来选择入侵检测系统的特征，提高分类效果和检测率. Mohammadi等^[7]提出一种基于特征选择和聚类的IDS过滤包装算法，利用线性相关系数技术和墨鱼算法对检测系统中的特征进行滤波、包装和分类. Selvakumar等^[8]采用萤火虫算法对高维网络流量特征进行降维，降低误报率和计算时间. Alzubi等^[9]为了提高入侵检测系统的性能，提出一种基于二值灰狼优化的入侵检测算法，该特征选择算法选取了最佳的特征数目，提高了IDS检测攻击的性能. 尽管上述方法能够在一定程度上完成基于特征选择的IDS检测，但是也存在检测准确率低和收敛速度慢等问题.

针对上述入侵检测系统中存在的问题，本文提出一种基于鸽群优化算法的入侵检测系统特征选择方法，该方法使用全局收敛最优的鸽群优化算法，通过考虑真阳性率(true positive rate，TPR)、假阳性率(false positive rate，FPR)和特征个数3个指标来选择特征的最佳子集. 为了加快算法的收敛速度，本文还采用一种基于余弦相似性的连续问题离散化方法，对元启发式算法进行二值化处理，使其更好地适用于离散问题.

1. 鸽群优化算法

鸽群优化算法(pigeon-inspired optimization，PIO)是胡春鹤等^[10]根据鸽子回巢行为提出的一种新的群体智能优化算法，具有全局最优性和收敛速度快等优势. 鸽群优化算法通过模拟鸽群在不同阶段依据太阳高度、地磁场方向和地标等不同导航工具完成归巢的行为，来实现优化模型在解空间中的寻优过程. PIO算法大致分为磁场算子和地标算子2个阶段. 在磁场算子阶段，由于鸽群远离目的地，鸽群归巢行为采用太阳高度和地磁场作为导航工具；在地标算子阶段，由于鸽群离目的地较近时，可以观测到地表物体，因而采用地标作为归巢导航工具.

在D维搜索空间中，初始化鸽子种群数量为N_p，在t次迭代中第i只鸽子的位置X_i(t)和速度V_i(t)可以表示为

在磁场算子阶段，所有鸽子在下一次迭代(t+1)时的位置X_i(t+1)和速度V_i(t+1)可以由下式更新为

式(3)中：R表示磁场因子，rand是[0, 1]范围内的均匀随机数，X_g表示当前迭代的全局最优解. 所有鸽子根据磁场因子来调整它们的飞行位置，并且其位置均由一个特定的目标函数来评估. 假定磁场算子阶段的最大迭代次数为nc₁，如果当前迭代t > nc₁时，中止磁场算子阶段，进入地标算子阶段.

在地标算子阶段，所有鸽子都是根据它们的适应值进行排序. 在每次迭代中，鸽子的数量由式(5)更新，其中只有一半的鸽子被考虑到计算中心鸽子的期望位置，而其他鸽子通过跟随期望的目标位置来调整它们的目的地. 理想目的地的位置由式(6)计算，而所有其他鸽子则通过式(7)更新位置.

式(5)中：N_p(t)表示当前迭代t时的鸽子数量.

式(6)、式(7)中：X_c是中心鸽子的期望位置，Fitness(·)表示鸽群个体的适应度函数. 假定地标算子阶段的最大迭代次数为nc₂，如果当前迭代t>nc₂时，中止地标算子阶段. 通过每次迭代时最优位置的更新，获得全局最优解X_g.

2. 基于鸽群优化的IDS特征选择

本文采用一种基于鸽群优化算法的IDS特征选择算法，在PIO算法中采用两种不同的函数来定义鸽群个体的速度. 第一种是采用sigmoid函数(S函数)来离散鸽子的速度；第二种是对改进的二进制版本的基本PIO使用余弦相似度来定义鸽子的速度. 两种方式使用相同的适应度函数，但是每个版本都有不同的解决方案表达方式. 表 1显示了PIO到特征选择优化问题的映射过程.

2.1. 适应度函数

适应度函数或目标函数是评价解的适应度的函数，适应度函数根据真阳性率(TPR)、假阳性率(FPR)和特征个数来评价作为所选特征子集的解. 特征数量包含在适应度函数中，如果存在任何特征但不影响TPR或FPR(解的质量)，则倾向于消除它. 评估鸽群个体适应度表示为

式(8)中：SF和NF分别表示所选特征和总特征的数目，ω_i(i=1，2，3)表示权重系数，本文权重值设置为ω₁=0.1，ω₂=ω₃=0.45.

2.2. 基于S函数的PIO特征选择

基于S函数的PIO特征选择通过一个长度等于特征数目的向量来定义鸽群数量，首先使用S函数将鸽子的速度转化为速度向量，然后使用式(10)将鸽子的位置二元化为位置向量，其中位置和速度向量的值最初是介于[0, 1]之间的随机数.

式(10)中：r表示一个均匀随机数.

使用传统方法通过式(3)计算每只鸽子的速度，然后使用一个S函数将速度转换为式(9)提出的二进制形式. 对于二值化的群智能算法，每只鸽子的位置将根据S函数值和(10)给出的在[0, 1]之间随机分布的概率进行更新. 除了在地标算子中更新位置，算法的其余部分将作为传统PIO的工作，进行最优位置的更新，获取全局最优解X_g.

2.3. 基于余弦相似度的PIO特征选择

第二种方式是利用余弦相似性计算鸽子的速度，由于该方式采用的是二值化，与基于S函数的PIO有3点不同之处：即鸽群个体的表示、新位置和速度的计算、允许鸽群在特定条件下加入新的个体，从而增加了达到最优解的机率.

2.3.1. 鸽群个体的表示

基于余弦相似度的PIO方法中的解是一个具有特征数目长度的向量，解的值由随机二进制值0或1初始化. 值0表示当前解中没有对应的特征，值1表示解中存在对应的特征.

2.3.2. 改进的磁场因子

磁场因子是根据群中最佳鸽子的速度和位置更新鸽子位置的主要参数. PIO的工作原理是从式(3)所述的鸽群中全局最优位置减去当前鸽子的位置X_i. 但是，在二进制PIO中，需要采用新的方程模拟上述过程，更新鸽的位置X_p和速度，使之向全局最优位置X_g的方向移动. 鸽子速度的计算取决于解之间的相似度，所以每个鸽子都有不同的速度值. 速度的计算基于余弦相似度公式，通过求解局部解X_p与整体解X_g之间的相似比获得. 二进制PIO中的鸽子速度和位置更新由式(11)、式(12)给出

根据式(12)，如果解不是全局解邻居，则向全局解更新其位置的概率高于当前解是全局解邻居的概率.

2.3.3. 改进的地标因子

地标因子第一部分是计算鸽子的目的地，该部分与基本PIO算法的计算相同. 所有鸽子根据各自的适应度值来排列，在每次迭代中鸽子的数量由式(5)更新，其中只有一半的鸽子被认为是计算中心鸽子的期望位置，其他鸽子通过跟随期望目的地位置来调整它们的目的地. 期望目的地的位置由式(6)计算.

地标因子第二部分，所有鸽子都向所需目的地更新它们的位置，由于所需目的地是一个二进制向量，因此所有鸽子都会通过式(11)计算各自的速度，然后利用式(12)更新位置.

2.3.4. 引入新鸽子

另一个二元PIO特征选择的改进之处是在鸽群中引入新的个体. 这个过程的灵感来源于二进制PIO中很可能存在重复的解或鸽子，新个体的加入在磁场算子阶段完成.

4. 结语

本文提出了一种基于改进鸽群优化算法的入侵检测系统特征选择方法，用于解决当前入侵检测系统中存在的检测准确率低、建模时间长以及收敛速度慢等问题. 该方法采用鸽群优化算法对数据中的不相关特征进行优化，在保证高检测率、低误报率的前提下，通过减少构建鲁棒IDS所需的特征数目来降低模型建立所需的训练时间. 在对连续群智能算法进行离散化处理时，通过引入基于余弦相似性的二值化技术，提高了算法的收敛速度. 实验结果表明，与其他算法相比本文方法对真阳性率、假阳性率、F-分数和准确率等指标的测试效果更佳，能够有效处理IDS的检测问题.

Figure (2) Table (6) Reference (14)

Name
	Name cannot be empty!
E-mail
	Mailbox cannot be empty! Mailbox cannot be empty!
Telephone
	Mobile number cannot be empty! Please enter a valid mobile number!
Title

Content
Verification Code

[1]	KESHTGARY M, RIKHTEGAR N. Intrusion detection based on a novel hybrid learning approach[J]. Journal of AI and Data Mining, 2018, 6(1): 157-162. Google Scholar
[2]	TOO J, ABDULLAH A R, MOHD SAAD N. Binary Competitive Swarm Optimizer Approaches for Feature Selection [J]. Computation, 2019, 7(2): 31-47. doi: 10.3390/computation7020031 CrossRef Google Scholar
[3]	MAZA S, TOUAHRIA M. Feature Selection Algorithms in Intrusion Detection System: a Survey [J]. KSⅡ Transactions on Internet and Information Systems, 2018, 12(10): 5079-5099. Google Scholar
[4]	TANG X C, DAI Y S, XIANG Y P. Feature Selection Based on Feature Interactions with Application to Text Categorization [J]. Expert Systems With Applications, 2019, 120: 207-216. doi: 10.1016/j.eswa.2018.11.018 CrossRef Google Scholar
[5]	HAJISALEM V, BABAIE S. A Hybrid Intrusion Detection System Based on ABC-AFS Algorithm for Misuse and Anomaly Detection [J]. Computer Networks, 2018, 136: 37-50. doi: 10.1016/j.comnet.2018.02.028 CrossRef Google Scholar
[6]	ACHARYA N, SINGH S. An IWD-Based Feature Selection Method for Intrusion Detection System [J]. Soft Computing, 2018, 22(13): 4407-4416. doi: 10.1007/s00500-017-2635-2 CrossRef Google Scholar
[7]	MOHAMMADI S, MIRVAZIRI H, GHAZIZADEH-AHSAEE M, et al. Cyber Intrusion Detection by Combined Feature Selection Algorithm [J]. Journal of Information Security and Applications, 2019, 44: 80-88. doi: 10.1016/j.jisa.2018.11.007 CrossRef Google Scholar
[8]	SELVAKUMAR B, MUNEESWARAN K. Firefly Algorithm Based Feature Selection for Network Intrusion Detection [J]. Computers & Security, 2019, 81: 148-155. Google Scholar
[9]	ALZUBI Q M, ANBAR M, ALQATTAN Z N M, et al. Intrusion Detection System Based on a Modified Binary Grey Wolf Optimisation [J]. Neural Computing and Applications, 2020, 32(10): 6125-6137. doi: 10.1007/s00521-019-04103-1 CrossRef Google Scholar
[10]	胡春鹤, 王依帆, 朱书豪, 等. 基于鸽群优化算法的图像分割方法研究[J]. 郑州大学学报(工学版), 2019, 40(4): 42-47. Google Scholar
[11]	SIDDIQUE K, AKHTAR Z, ASLAM KHAN F, et al. KDD Cup 99 Data Sets: a Perspective on the Role of Data Sets in Network Intrusion Detection Research [J]. Computer, 2019, 52(2): 41-51. doi: 10.1109/MC.2018.2888764 CrossRef Google Scholar
[12]	SOUHAIL ET AL M. Network Based Intrusion Detection Using the UNSW-NB15 Dataset [J]. International Journal of Computing and Digital Systems, 2020, 8(5): 477-487. Google Scholar
[13]	WATSON T, KAMARUDIN M H, MAPLE C. Hybrid Feature Selection Technique for Intrusion Detection System [J]. International Journal of High Performance Computing and Networking, 2019, 13(2): 232-240. doi: 10.1504/IJHPCN.2019.097503 CrossRef Google Scholar
[14]	TAMA B A, COMUZZI M, RHEE K H. TSE-IDS: a Two-Stage Classifier Ensemble for Intelligent Anomaly-Based Intrusion Detection System [J]. IEEE Access, 2019, 7: 94497-94507. doi: 10.1109/ACCESS.2019.2928048 CrossRef Google Scholar

Message Board

Feature Selection Method of Intrusion Detection System Based on Modified Pigeon-Inspired Optimization Algorithm

Abstract

References

Access History

通讯作者: 陈斌, bchen63@163.com

Article Metrics

Access History

Other Articles By Authors