基于密度聚类的数据库入侵检测系统研究

曹德胜

doi:10.13718/j.cnki.xsxb.2019.05.017

基于密度聚类的数据库入侵检测系统研究

曹德胜

华北科技学院计算机学院, 北京 065201

基金项目: 中央国家机关支持项目（2011B026）

详细信息

作者简介:
曹德胜(1971-), 男, 硕士, 副教授, 主要从事软件工程及数据库研究 .

中图分类号: TP392

On Database Intrusion Detection System Based on Density Clustering

De-sheng CAO

School of Computer Science, North China Institute of Science and Technology, Beijing 065201, China

摘要: 针对现有数据库入侵检测系统高误报率的问题，提出了一种基于密度聚类数据库入侵检测系统，其检测系统过程分为2个部分，①数据训练阶段：执行事务属性的数据预处理，然后将数据集划分为训练集和测试集，使用点排序识别聚类结构（Ordering of Points To Identify Clustering Structure，OPTICS）来构建用户的正常配置文件；②入侵检测阶段：每个传入行为有2种状态，位于群集内或是集群外，根据其局部异常因子（Local Outlier Factor，LOF）值来确定事务的异常程度，对于LOF < 1的行为允许访问数据库，其他行为通过采用不同的监督机器学习技术进一步验证是正常值或异常值，实现入侵检测.实验结果表明，与其他现有数据库入侵检测系统相比，本文系统性能优于其他2种系统.
- 入侵检测 /
- 密度聚类 /
- 点排序识别聚类结构 /
- 局部异常因子 /
- 监督学习
Abstract: Aiming at the problem of high false positive rate of existing database intrusion detection systems, a database intrusion detection system based on density clustering was proposed in this paper. The intrusion detection system is divided into two parts. ①Data training stage:in this stage, data preprocessing of transaction attributes is executed, and then the data set is divided into training set and testing set. And ordering of points to identify clustering structure (OPTICS) is used to construct the user's normal configuration file; ②Intrusion detection stage:each incoming behavior has two states, located within or outside the cluster, and the degree of abnormality of the transaction is determined by its local outlier factor (LOF) value. For LOF < 1 behavior allows access to the database, for other behaviors, through the use of different supervised machine learning technology to further verify that the normal/abnormal value, to achieve intrusion detection. The experimental results show that compared with other existing database intrusion detection systems, the performance of this system is better than the other two systems.
- intrusion detection /
- density clustering /
- ordering points to identify clustering structure /
- local outlier factor /
- supervised learning .

图 1 本文数据库入侵检测系统

下载: 全尺寸图片幻灯片

图 2 不同分类器在本文系统中的Acc性能

下载: 全尺寸图片幻灯片

图 3 不同分类器在本文系统中TPR性能

下载: 全尺寸图片幻灯片

图 4 不同分类器在本文系统中FPR性能

下载: 全尺寸图片幻灯片

表 1 训练事物属性

user_id	用于识别每个用户的唯一标识号
querytype	指定事物请求中涉及的查询类型
tablelist	为数据库中的每个表分配一个唯一的ID
attlist	表示在特定事务中访问的属性ID列表
timeslot	表示在一天中执行事物的时间段，一天24 h被划分为每30 min的48个隙
timegap	描述同一用户在几分钟内连续两次访问数据库之间的时间差
loc	提供了有关事物执行地点的信息，本文已将其映射为数字，例如1代表办公室，2代表家庭.

下载: 导出CSV

表 2 不同ε和P组合的算法分类性能

%
参数组合	性能指标
参数组合	Acc	TPR	FPR
P=10，ε=0	56.34	58.79	34.73
P=10，ε=0.9	56.24	58.69	35.09
P=50，ε=0	58.37	60.12	34.94
P=50，ε=0.9	58.27	60.02	35.53
P=100，ε=0	62.58	64.3	37.11
P=100，ε=0.9	62.48	64.2	38.46

下载: 导出CSV

表 3 不同系统的性能比较

%
方法	Acc	TPR	FPR
文献[10]	91.2	90.1	4.76
文献[13]	90.5	89.2	6.33
本文	92.1	91.7	3.95

下载: 导出CSV

[1]	李洋, 吕家恪.基于Hadoop与Storm的日志实时处理系统研究[J].西南师范大学学报(自然科学版), 2017, 42(4):119-126. doi: http://xbgjxt.swu.edu.cn/jsuns/jscnuhhse/ch/reader/view_abstract.aspx?file_no=x201704019&flag=1
[2]	曾强, 缪力, 秦拯.面向大数据处理的Hadoop与MongoDB整合技术研究[J].计算机应用与软件, 2016, 33(2):21-24, 37. doi: 10.3969/j.issn.1000-386x.2016.02.005
[3]	ASHFAQ R A R, WANG X Z, HUANG J Z, et al.Fuzziness Based Semi-Supervised Learning Approach for Intrusion Detection System[J]. Information Sciences, 2017, 378:484-497. doi: 10.1016/j.ins.2016.04.019
[4]	张礼哲, 顾兆军, 何波, 等.多源攻击模式图入侵检测方法[J].计算机工程与设计, 2016, 37(11):2909-2916. doi: http://d.old.wanfangdata.com.cn/Periodical/jsjgcysj201611010
[5]	陈虹, 万广雪, 肖振久.基于优化数据处理的深度信念网络模型的入侵检测方法[J].计算机应用, 2017, 37(6):1636-1643, 1656. doi: 10.3969/j.issn.1001-3695.2017.06.008
[6]	LAI S F, SU H K, HSIAO W H, et al.Design and Implementation of Cloud Security Defense System with Software Defined Networking Technologies[C]//2016 International Conference on Information and Communication Technology Convergence (ICTC).Jeju: IEEE, 2016.
[7]	doi: http://d.old.wanfangdata.com.cn/NSTLQK/NSTL_QKJJ0229887238/ DAWLE Y, NAIK M, VANDE S, et al.Database Security Using Intrusion Detection System[J]. Database, 2017, 2(3):1-6.
[8]	SURYAWANSHI S S, MULANI T, ZANJURNE S, et al.Database Intrusion Detection and Protection System Using Log Mining and Forensic Analysis[J]. IntJComput SciInfTechnol, 2015, 6:5059-5061.
[9]	doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=1e0bb0a575ef698a0584aed3e2502cc0 BUCZAK A L, GUVEN E.A Survey of Data Mining and Machine Learning Methods for Cyber Security Intrusion Detection[J]. IEEE Communications Surveys & Tutorials, 2016, 18(2):1153-1176.
[10]	RAO U P, SINGH N K.Weighted Role Based Data Dependency Approach for Intrusion Detection in Database[J]. IJ Network Security, 2017, 19(3):358-370.
[11]	ELAZIZ P E A, MOHAMED H K.Database Intrusion Detection Using Sequential Data Mining Approaches[C]//20149th International Conference on Computer Engineering & Systems (ICCES).Cairo: IEEE, 2014.
[12]	WANG N, LI Y, YUAN L M.Simulation on Optimized Intrusion Detection of Multi-Layer, Distributed and Large Differences Database[J]. Applied Mechanics and Materials, 2014, 556-562:2886-2889. doi: 10.4028/www.scientific.net/AMM.556-562
[13]	YI M.On the Research of Force into Computer Database Intrusion Detection Technology[J]. R Risti Iberian Journal on Information Systems & Technologies, 2016, 18:80-89.
[14]	doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=c3013e4cf4985bbc5c18825a667e2d04 PANIGRAHI S, SURAL S, MAJUMDAR A K.Two-Stage Database Intrusion Detection by Combining Multiple Evidence and Belief Update[J]. Information Systems Frontiers, 2013, 15(1):35-53.

图( 4) 表( 3)

计量

文章访问数: 1415
HTML全文浏览数: 1288
PDF下载数: 150
施引文献: 0

全文HTML

随着大数据时代的到来^[1-2]，收集和存储在数据库中的数据量也以惊人的速度快速增长，随之增长的是入侵活动和安全攻击^[3-5].标准数据库安全机制以及基于网络和基于主机的入侵检测系统已经无法检测专门针对数据库的恶意攻击.数据库系统中的入侵攻击可分为外部攻击和内部攻击，外部人为获取数据库而进行的恶意交易称为外部攻击，组织内用户发生的攻击意识到安全性设置并具有某些资源的访问权限称为内部攻击^[6].

每个用户的数据库使用模式都与他人不同，每个用户行为中存在的唯一性可以通过适当的事务属性来表示，这有助于构建其行为配置文件^[7]，并识别攻击者执行的任何恶意尝试.通常，当入侵者试图通过提交各种非法事务查询来破坏数据库时，通过日志挖掘和犯罪学程序研究的内部入侵检测与防护系统，用于显示和区分普通行为和入侵者的客户端配置文件，从而达到侵入活动的识别^[8].随着数据价值的增加，数据库系统遭受攻击从未停止，因此数据库入侵检测系统(database intrusion detection system，DIDS)方面的研究不断深入^[9].

Rao等^[10]提出一种基于角色访问控制的数据库恶意行为检测方法，设计了基于加权角色的数据依赖性规则挖掘算法，从数据库日志中挖掘出基于加权角色的数据依赖规则，违反数据依赖规则的事务被检测为恶意事务. Elaziz等^[11]提出了增强顺序数据挖掘数据库入侵检测模型，所提出的算法对用户正常历史数据进行挖掘，并对产生的规则进行归并更新，通过训练学习生成异常检测模型，并利用此模型实现基于数据挖掘的异常检测. Wang等^[12]提出了一种基于粗糙概念的多层数据库入侵检测模型，提取计算机数据库的入侵特征，建立粒子群鉴别树进行节点分层处理.通过不同层次数据库入侵检测的概率操作，实现了多层次、分布式、大型差异数据库的入侵检测. Yi^[13]提出了一种利用数据挖掘技术的数据库入侵检测系统，根据相关系统数据提取特定行为特征和规则，利用误用检测和异常检测方法实现入侵检测.现有数据库入侵检测系统在保证数据库不受入侵的同时，误报率也会上升.

针对这个问题，本文提出了一种新的数据库入侵检测系统，该系统创新性地将密度聚类技术的点排序识别聚类结构(Ordering Points to Identify Clustering Structure，OPTICS)引入到数据库入侵检测系统，在数据训练阶段，使用OPTICS从用户历史数据库中提取用于构建正常用户配置文件的事务特征.然而，数据库用户工作职能的转移可能会导致数据库活动出现偏差，这些数据库活动显示为异常值，但不一定是恶意的.因此，本文系统进一步单独使用多个监督分类器来加强聚类模块的初步结果，学习组件的结合最大限度地减少了数据库所有者因入侵而遭受的损失.在本文工作中，已经应用了5种不同的监督算法，说明本文系统的可用性和普适性.

1. OPTICS聚类算法理论

OPTICS是一种基于密度的聚类技术，用于发现不同密集区域的聚类，是具有噪声的基于密度聚类方法(Density-Based Spatial Clustering of Applications with Noise，DBSCAN)的扩展，OPTICS的基本思想是：对于簇C_i中的每个对象k，其ε邻域(N_ε(k))中至少存在P个点，其中ε表示半径，P表示创建群集所需的数据点数量.此外，OPTICS计算数据集中每个数据点的核心距离(dis_c)和可达性距离(dis_r).

可以将对象k的核心距离dis_c(k)定义为实例k与其邻域N_ε(k)中对象之间的最小距离，表示为

k到另一个核心对象q对应的可达性距离dis_r(k)被定义为使得k从q直接密度可达的最小距离，如果在N_ε(k)中找到至少P个数的实例，则数据点k可以被称为核心点.

从式(2)可以推导出点k的本地可达性距离dis_lr(k)，其可以被描述为与k的P最近邻居的平均可达性距离的倒数.

其中，o是k的邻居，N_P(k)表示P邻域，偏离集群的点可以看作是异常值.为了确定对象k是否是离群值，针对每个对象计算局部离群因子(Local Outlier Factor，LOP_p(k))，其被定义为P最近邻居和k的dis_lr的比率平均值.

据观察，位于集群内实例的LOF值接近1. OPTICS算法能够在变化密集的地区识别出有意义的群集，群集方法将类似的数据库访问特征分组到群集中.本文将OPTICS引入到数据库入侵检测系统中，在数据训练阶段使用OPTICS生成用户配置文件，并根据局部离群因子LOF的值对用户行为进行判断.

4. 结论

本文提出了一种新的数据库入侵检测系统，该系统引入基于密度的聚类OPTICS算法构建数据库用户配置文件，入侵检测方法包括两个阶段：训练和入侵检测.在训练阶段，对输入数据集的特征进行预处理，并将OPTICS聚类建立行为配置文件特征以及监督分类器的训练.在入侵检测阶段，每个传入事务都由集群模块处理，用于过滤合法模式，并将不一致和错误的事务传递给每个单独受过训练的监督模型以进行最终决策.使用随机模型进行大规模实验来验证本文系统的有效性，使用的分类器有NB，DT，RI，k-NN和RBFN.结果表明，本文系统能够使用不同机器学习技术进行入侵检测.另外，通过与现有数据库入侵检测系统对比，本文系统的性能优于其他系统，说明本文系统的可行性和有效性.

参考文献 (14)

姓名
	姓名不能为空！
邮箱
	邮箱不能为空！非法的邮箱地址。
手机号码
	电话不能为空！请输入有效手机号!
标题
	标题不能为空！
留言内容
	内容不能为空！
验证码
	验证码不能为空！验证码错误！

留言板

基于密度聚类的数据库入侵检测系统研究

华北科技学院计算机学院, 北京 065201

作者简介:
曹德胜(1971-), 男, 硕士, 副教授, 主要从事软件工程及数据库研究 .

On Database Intrusion Detection System Based on Density Clustering

School of Computer Science, North China Institute of Science and Technology, Beijing 065201, China

计量

基于密度聚类的数据库入侵检测系统研究

作者简介: 曹德胜(1971-), 男, 硕士, 副教授, 主要从事软件工程及数据库研究
华北科技学院计算机学院, 北京 065201

English Abstract

On Database Intrusion Detection System Based on Density Clustering

全文HTML

2.1. 训练阶段

2.2. 入侵检测过程

目录

留言板

基于密度聚类的数据库入侵检测系统研究

华北科技学院 计算机学院, 北京 065201

作者简介: 曹德胜(1971-), 男, 硕士, 副教授, 主要从事软件工程及数据库研究 .

On Database Intrusion Detection System Based on Density Clustering

School of Computer Science, North China Institute of Science and Technology, Beijing 065201, China

计量

出版历程

基于密度聚类的数据库入侵检测系统研究

作者简介: 曹德胜(1971-), 男, 硕士, 副教授, 主要从事软件工程及数据库研究 华北科技学院 计算机学院, 北京 065201

English Abstract

On Database Intrusion Detection System Based on Density Clustering

全文HTML

2.1. 训练阶段

2.2. 入侵检测过程

目录

华北科技学院计算机学院, 北京 065201

作者简介:
曹德胜(1971-), 男, 硕士, 副教授, 主要从事软件工程及数据库研究 .

作者简介: 曹德胜(1971-), 男, 硕士, 副教授, 主要从事软件工程及数据库研究
华北科技学院计算机学院, 北京 065201