您的当前位置:首页正文

基于类图像处理与向量化的大数据脚本攻击智能检测

2023-10-23 来源:汇智旅游网
第46卷第3期Voi. 46 No. 3-网络空间安全-计算机工程Computer Engineering文章编号:1000-3428(2020)03-0129-09文献标志码:A2020 年 3 月March 2020中图分类号:TP391基于类图像处理与向量化的大数据脚本攻击智能检测张海军c,陈映辉b(嘉应学院a.计算机学院;b.数学学院,广东梅州514015)摘要:通过类图像处理与向量化方法对访问流量语料库大数据进行词向量化处理,实现面向大数据跨站脚本攻 击的智能检测#利用类图像处理方法进行数据获取、数据清洗、数据抽样和特征提取,设计一种基于神经网络的词 向量化算法,得到词向量化大数据#在此基础上,提岀多种不同深度的DCNNs智能检测算法#设置不同的超参数 进行实验得到算法的识别率均值、方差和标准差,结果表明,该算法具有较高的识别率和稳定性#

关键词:Web入侵检测;跨站脚本攻击;自然语言处理;大数据;网络空间安全开放科学(资源服务)标志码(OSID) : gm中文引用格式:张海军,陈映辉.基于类图像处理与向量化的大数据脚本攻击智能检测[J).计算机工程,2020,

46 ( 3) :129-137,143.英文引用格式:ZHANG Haijun,CHEN Yinghul. Intelligent detection for big data scripting attack based on image processing inspired method and vectorization [ J ] . Computer Engineering,2020,46 (3) : 129-137,143.Intelligeet Detection for Big Data Scrinting Attack BaseG on

Image Processing InspireG MethoG anG VectorizationZHANG Haijunc,CHEN YinghuF(a. College of Computer Science; b. School of Mathematics,Jiaying University,Methou,Guangdong 514015,China)+ Abstract] In this paper,the methods similar to image processing and vectorization arc used for the verctorization of access traffic corpus big data, and the intelligent detection for big data cross-site scripting attack it achieved. Besides,this paper uses methods similar to image pro cessing for data a cquisition, data cleaning, datasampling and feature extra ction. Then, aword vectoriaation algorithm based on neuralnetwork isdesigned to obtain thebig dataofword vectoriaation.On this basis,the DCNNs intelligent detection algorithm with dtferent depth it proposed. Finally,experiments with dWferent hyper-parameter arc conducted,and the obtained average recognition rate,variance and standard deviation show that the propos+d algorithm hashigh r+cognition rat and stability .+ Key wois] Web intrusion detection ; Cross-Site Scripting ( XSS ) attack; natural language processing ; big data;cyberspacesecurityDOI: 10. 19678/」.issn. 1000-3428.00533600概述随着互联网、云计算、物联网、大数据等技术的 快速发展以及数以万计网络接入点、移动终端和网 络应用的出现,产生了大量蕴含较高价值的大数据,

据等,使得基于Web应用的攻击逐渐成为网络中的 主要攻击,如跨站脚本(Cross-Site Scripting,XSS)攻 击[1],其表现为:网络钓鱼,盗取用户的账号和密码; 盗取用户Cookie数据,获取用户隐私,或者利用用 户身份进行进一步操作;劫持浏览器会话,从而冒充 用户执行任意操作,如非法转账、强制发表博客;强 制弹出页面广告,刷流量;进行恶意操作,如纂改页 面信息、删除文章、传播跨站蠕虫脚本、网挂木马;进 行基于大量客户端的攻击,如DDOS攻击;联合其他

这给网络空间安全带来了前所未有的挑战#从服务 器交易系统的数据库数据到各终端业务的系统数 据,如各种流水操作、网购记录、网络浏览历史、播放 的音视频、微博和微信等基于移动或Web应用的数基金项目:国家自然科学基金(61171141,61573145 );广东省自然科学基金重点项目(2014 B010104001,2015 A030308018);广东省普通高 等学校人文社会科学省市共建重点研究基地课题(18KYKT11 );广东省嘉应学院自然科学基金重点项目(2017KJZ02)。作者简介:张海军(1978 ―),男,讲师、博士,主研方向为智能计算、自然语言处理、模式识别;陈映辉(通信作者),讲师。收稿日期:2018-12-10

修回日期:2019-03-26 E-mail: nihaoba_456+ 163. com13 0计 算 机 工 程2020年3月15日漏洞(如CSRF);进一步渗透网站#传统的计算机病毒检测方法主要利用病毒特征

即对访问流量语料大数据进行分析。首先,进行自然 语言处理,由于当前基于安全防护的语料样本比较缺 乏,标注好标签的样本更少,因此需要进行数据处

库中的已有特征,通过提取相应样本的特征,在病毒

库中搜索并比较是否存在相匹配的特征,从而确定病

理和建模,具体为:1)语料获取;2 )语料预处理,包

毒是否存在。这种方法主要基于已知的病毒进行检

括清洗、分词、词性标注、去停用词;3 )初级数据分 析,如URL参数个数、字符分布、访问频率等分析#

测,难以发现新的病毒,特别是对于变形病毒其更加 无能为力,而且针对大数据问题时效率较低。当前安

其次,进行词向量化,将词映射到向量空间,在计算 机中,任何信息都是以0和1的二进制序列表示, 如所有的字符(包括字母、汉字、英语单词等语言文 字)都有一个编码。本文将大数据日志文本转换成 数值数据并以矩阵表示,再基于词向量方法进行数 据处理和分析,即将攻击报文转换成类似于图像数

全防护措施已经由过去的“80%防护+20%检测及响 应”变成了“20%防护+80%检测及响应”。深度学习 以其强大的自适应性、自学习能力在语音、图像、自然 语言处理等方面取得了比传统机器学习方法更好的

效果,特别是在解决大数据问题时,其效果更好。本文借鉴类图像处理过程,设计一种基于神经 网络的词向量化算法,对访问流量语料库大数据进 行词向量化处理,通过理论分析和推导实现多种不 同深度的深层卷积神经网络算法,从而对大数据跨

据(像素)的矩阵,也将字符串序列样本转换成具 有一定维度值的向量,再对词向量进行数值化的特 征提取和分析,如数据抽样、矩阵相关性维数约减、

特征提取、降维、聚类等运算。最后,进行模型训练 与数值分析,实现用户行为分析、网络流量分析和

站脚本攻击进行智能检测。1语料大数据处理及向量化Web入侵检测本质上是基于日志文本的分析(2],欺诈检测等。上述过程原理如图1所示,向量化处

理过程详见3. 1节实验部分,其实现了语料大数据 的获取、处理、建模、分词和词向量化等(3 -目标图片

训练阶段(a)通过区域性方案策略及深度学习实现图像处理(如目标检测)Day访问流量语料大数据卜日志数据向量(MxN维){username,张三,. pageviews, N,ip, 198.21.221.18,page, https://www.x.edu/-• •, time,090920178.30AM}训练样本集{ “username\": “张三\" \"page views” : \"N” , “ip\" : “198.21.221.18\" “page” : “https ://www. x.edu/…\",\"time\":“09092017:8.30AM' …儿期” J{2,0,1,3”3,3,3,2,1,1,1,123,2,2,1,1,1}词向量化, 映射到向量空间测试阶段访问流量语料大数据{ \"username” : “李四” \"page views\" : \"M\", “ip” : “168.21.22.38” “page” : “https ://www.x.com/•••^^ , \"time\": \"01012017:9.30AM\"{username,李四, . pageviews,M,…•••ip,168.21.22.38,Page,https://www.x.com/time,010120179.30AM}日志数据向量(MxN维){1,0丄1,丄3,3,2,1丄1,1,2,33,1,0,0,1}测试样本集MonthWeek\\测试 分类器攻击「性能评测Day•••}{\"郭冉” •••}••*J自然. 语言处理词向量化,映射到向量空间(b)语义情景分析及向量化过程测试标签集图1大数据跨站脚本攻击智能检测原理Fig. 1 Intelligent detection princinle of big data cross-site scrinting attack第 46 卷 第 3 期张海军,陈映辉:基于类图像处理与向量化的大数据脚本攻击智能检测1 312算法设计2.1词向量化算法设计利用CBOW实现词向量,即已知上下文词语来 预测当前词语出现的概率#为此,需要最大化对数

似然函数:J=N#lg 4 ( w|C( w))

(\"1)其中,N表示语料库C中的词#式(1 )可以看作多分 类问题,因为多分类是由二分类组合而成,所以可以 使用Hierarchicai Softmax方法进行求解#先计算w 的条件概率,如下:4 ( n|C( n)) _7n = 2 4 ('/R Ow,$Z/1)

(2)其中,x”表示输入,4w表示路径,\"表示节点个数,4N,

4N,…,4N表示各节点,'N,'N,…,'N \" 20,13表示词N的编码,'表示路径中第j个节点对应的编码,$N,

$N,i,$二1 \"应”表示路径上非叶子节点对应的参数向量。式(2)右边的每一项都是一个逻辑斯特回归:

( 'r)(oN4 $N 1),町=0R \"1)_{1_)( 0X1; '; =1(3)其中,)(:)为sigmoid函数。由于'只取0和1,因 此式(3 )可以以指数的形式表示为:4 ( 'R 0N,$一1) _()(0©1)]1-R -[1 -)( xT$Z1))

(4)将式(4)代入式(1)可得:j_ N#\"C# jn =2 {I ()(xT$/R1)]1呷-[1-)(0T$J窗 _# lw# 2( 1 _';)- ig [)(xT$Z1)) +';-ig (1 -)(oN$Z1))}

(5)式(5 )中的每一项可以记为:J( nJ) _(1 _';) - lg ()( ON$Z1 ))+';-lg (1-)(0T$N1)] (6)要最大化由多项式之和构成的式(5),可以分别 最大化每一项,即式(6 )。对每个节点的参数向量$7-1和输出层的输入0”两个参数使用随机梯度法, 分别求偏导数得:_丄{(1-';)・ig()(0X1)] +';-# (1 -)(0N$Z1))}

(7)令)'(:)=)(5)[1 -)(:)],代入式(7)可得:

(1 -';) (1 -)(0N$_1)]0” -';)(0N$_1) 0N _ [1-'; -)(xNei)]0w (8)对$R1进行迭代求值:: =$;_1+,1-';-)(0:$;_1)] 0N ( 9 )

其中,,为学习率#由式(6)可知0N和$-1对称,因

此,可以得到关于 0N 的偏导数为:J0,R _[ 1 -'; -)(0N$7-1))$-1

(10)由于 0N 是上下文的词向量之和,在处理时将整 个更新值应用到上下文每个单词的词向量上#,(N): _,(N) +,# 9J0,R,N\" C( n) (11)

丿 _2 9^n其中,”(N)表示上下文单词词向量#基于上述算法建立模型,将原始语料作为输入, 即可实现语料数据的词向量化#2.2深度卷积神经网络算法设计在计算机视觉⑷、自然语言处理[5]等领域,相对于

传统神经网络或其他ML算法,深度卷积神经网络 (Deep Convolutional Neural Networks, DCNNs)具有更 高的识别率、更强的鲁棒性以及更好的泛化性能[6] #为 此,本文设计多种DCNNs算法,构建基于“输入层+卷 积层+卷积层+池化层+卷积层+卷积层+池化层+ 全连接层+全连接层+ Sofmax层” 10层深度的结构, 以实现大数据安全防护检测,并通过模型训练进行大数 据智能检测。为减轻梯度消失等问题[7'8],本文选择

Relu函数作为激活函数,其定义为:f(:) = max(0 ,:) (12)通过式(( 13 \"可以求得卷积层的相应输出值,如下:«i” =_■”# =0 ”# =0 W”,”: + ” + ” +nk )

( 13 )其中,:””表示向量的第i行第j列元素值,N”,”表示

卷积核第”行第”列的权值,Nk表示卷积核的偏置 项,F是卷积核的大小(宽度或高度,两者相同)。卷 积运算后得到下一特征层,其宽度和高度分别为: {B2 _ ( B1 - F + 2-)/S + 1A2 B_ (A]-F+2-)/S + 1 (

14\"其中1 和 A1 分别表示卷积前向量的宽度和高度

B2 和 A2 分别表示卷积后 FeatureMap 的宽度和高 度,-表示在向量周围补0的圈数值,S表示卷积运 算时的步幅值#卷积前向量的深度可以大于1,如表 示为D ,则相应卷积核的深度也必须为D ,可以求得 卷积后的相应输出值#D — 1 F — 1 F — 1+ nk )(15)对于池化层和全连接层,输出运算相对简单。在DCNNs进行训练时,先利用链式求导计算损 失函数对每个权重的梯度 然后根据梯度下降公式 更新权重。具体过程如下:1)对于卷积层误差项的传递,假设步长S、输入 深度D和卷积核个数均为1 ,它们间的关系如下:{-「3=conv, 二( ( 3二@、 1) + wK(16)@”” _3” )其中,/表示层数,3-1表示加权输入,ai-1表示输出,

conv表示卷积操作#假设第/层中的每个误差项% 值已知 根据链式求导法则可得:

13 2计 算 机 工 程2020年3月15日其中,8表示均方误差#通过上述卷积运算过程可

知,计算\"@—相当于将第I层的sensitive map周围,,补一圈0再与180。度翻转后的卷积核进行交叉相关 cross-coirF/Tn 运算:@\"T , ,•

二# # *m,n% + mj + n

( 18 \"m n由于@ \"-1 =( 3,-1 \",因此由式(17)和式(18)可得:尹1=

=竺述=% _叫_3 @ \"-1 % 叫一# # *\"n%+m,j+”f = 3- )

( 19 )可以将式\"(19)写成如下的卷积形式:%\"-1 二%\" * $。广!3\"-1) (20)其中,符号。表示将矩阵中的每个对应元素相乘。当步 长S、输入深度D和卷积核个数均大于1时,同理可得:%\"-1 = #%* Bd= = 3-1) (21)d = 02) 对于卷积核权重梯度,由于权值共享,根据全

导数公式可得:=# # %m, n @ ,-mj + n ( 22 )即用sensitive map作卷积核,对输入进行交叉 才目关 cmss-coirF/Tn 运算°3) 基于上述分析计算,得出偏置项的梯度:严=##%, (23)即偏置项的梯度是sensitive map所有误差项之和。 获得所有的梯度之后,根据梯度下降法可以更新每 个权值%从而实现卷积层训练°对于池化层,一般有 max pooling 和 mean pooling 2种,它们不用计算梯度,只需将误差项传递到上一层。 通过分析可知,对于max pooling池化,下一层的误差项 会按原值传递到上一层最大值对应的神经元,其他神经 元的误差项为0;对于mean pooling池化,下一层的误差 项会平均分配到上一层对应区块的所有神经元,即可以 用克罗内克积实现池化:其中,n表示池化层核的大小°由此,利用已实现的卷积层和池化层结合全连接 层,可以堆叠形成DCNNs(/,从而完成大数据脚本攻击 的智能检测(10)°3实验结果与分析3.1实验大数据3iC 语料大数据获取用于本文实验的大数据包括两类(11-2]:正样本 大数据(带有攻击行为),利用爬虫工具从网站 http://xssed. com/爬取获得,由Payload数据组成;负样

本大数据(正常网络请求),为体现特殊性和普遍性,共收

集了 2份数据,一份来自嘉应学院网络中心2017年 5月一12月的访问日志大数据,另一份是从各网络平台 通过网络爬虫获得,它们都是未经处理的语料大数据。3.1.2语料大数据处理及向量化本文利用基于神经网络的词向量化工具连续词 袋模型(Continous Bag of Words Model,CBOW)( 13:实 现大数据语料处理,进行文本切割、清洗、分词、词性 标注、去停用词、词向量化,将独热编码的词向量映射 为分布形式的词向量,从而降低维数和稀疏性,同时 通过求向量间的欧氏距离或夹角余弦值得出任意词 间的关联度(14二 具体处理过程如下:1) 首先遍历数据集,将数字都用“0 ”替换,将 http/、HTTP/、https/、HTTPS 用 “ http: //” 替换;其次 按照html标签、JavaOcript函数体、http://和参数规 则进行分词;接着基于日记文档构建词汇表,对单词 进行独热编码°2) 构建基于神经网络的词向量化模型,包括输

入层、投射层和输出层(15-6-其结构及训练过程如 图2所示°然后输入样本,最小化损失函数并改变权 值,训练模型并获得分布式词向量°3) 统计正样本词 集%用 词频最高的 3 000 个词

构成词库,其他标记为“ COM”。本文设定分布式特

征向量的维数为128 ,当前词与预测词最大窗口距离 为5,含64个噪声词,共进行5次迭代°图2 词向量化CBOW模型及训练过程Fig. 2 Word vectorized CBOW model and training process第46卷第3期张海军,陈映辉:基于类图像处理与向量化的大数据脚本攻击智能检测1 33因为每条数据所占字符长度不同,所以本文以所 占字符长度最大为标准,不足则以-1填充,在为数据 集设计标签时,使用独热编码,正样本标签(即属于攻 击样本)以1表示,负样本标签(即正常网络请求)以0 表示。经过上述处理之后,共获得正样本数据集 40 637条,负样本数据集分别为105 912条和 200 129条,它们数量大、计算复杂性高,均为大数 据(17-9-为提高训练效果,将正样本集和两类负样本 集分别进行合并,随机划分为训练集和测试集,数量

比为7: 3,并记为第I类大数据集和第%类大数据集# 3.2实验检测与结果为验证算法的有效性,设计多种DCNNs算 法(20:,构建基于“输入层+卷积层+卷积层+池化

层+卷积层+卷积层+池化层+全连接层+全连接 层+ Softmax层” 10层深度的结构,并设计不同的超 参数,包括样本块大小、学习率1以及卷积层深度 等(21-2],然后输入大数据集词向量样本进行训练和 测试。为检验系统的稳定性,对每类数据分别进行 20次实验,结果及分析如下:1)基于各深层DCNNs设计不同的超参数,学习率 1为0.001,0.01和0.1,对第I类大数据集进行20次实 验得到的识别率结果如表1所示。表1各深层DCNNs基于不同学习率对第I类大数据集的

识别率结果Table 1 Recognition rate resulte of each Geep DCNNs for type Ibng GatasetbaseGonGnferentlearnnng rates识别率实验次数1为 0. 0011为 0. 011为 0. 110. 981 40. 993 40. 831 320. 991 20. 994 20. 830 830. 992 00. 994 20. 831 040. 992 80. 994 50. 830 950. 993 50. 994 80. 830 560. 993 60. 994 90. 830 570. 994 00. 995 10. 830 680. 994 00. 994 90. 830 390. 994 30. 995 30. 830 1100. 994 50. 992 20. 830 1110. 994 50. 994 90. 830 0120. 994 70. 994 70. 830 4130. 995 00. 994 80. 830 7140. 994 90. 994 80. 831 4150. 994 70. 994 90. 829 8160. 995 50. 994 70. 826 9170. 995 80. 994 80. 829 4180. 995 80. 994 90. 830 1190. 995 30. 995 00. 829 7200. 995 80. 995 00. 829 8从表1可以看出,当学习率为0.001和0.01时, 算法都有很高的识别率,其中,最低识别率为0.9814, 最高识别率为0. 995 8,且识别率随着训练次数的增加 一直保持较高水平并趋于稳定;而当学习率为0.1时,

算法识别率稍低,平均为0. 830 2左右,原因是学习率 设置过大,导致训练时梯度下降过快从而越过了最优 值,相比而言,当学习率较小时能得到全局最优或接 近最优。识别率的曲线图表示如图3所示。-B-学习率为0.001-e-学习率为o.oi图3 基于不同学习率对第I类大数据集进行20次实验

得到的识别率曲线Fig. 3 Recognition rate curve obtaineG from 20 experiments

for type I big Gataset baseG on Giffereet learning rates2)基于不同的学习率,对第%类大数据集进行 20次实验得到的识别率结果如表2所示。从表2可 以看出,当学习率为0.001时,算法一直有稳定的高 识别率,学习率为0.01时除了中间几次稍低外其他 都是高识别率,且识别率随着训练次数的增加总体 上都保持增长状态并趋于稳定;同样当学习率为0• 1 时,识别率相对更低,平均为0.8310左右。识别率 的曲线图表示如图4所示。表2 各深层DCNNs基于不同学习率对第\"类大数据集

的识别率结果Table 2 Recognition rate results of each Geep DCNNs for type II

big Gataset basee on diGerent leamLig rates识别率实验次数1为 0. 0011为 0. 011为 0. 110. 980 80. 983 30. 830 820. 996 70. 994 80. 830 930. 997 30. 993 60. 831 440. 997 60. 985 70. 830 950. 997 70. 975 30. 831 060. 997 90. 988 30. 831 070. 998 10. 989 10. 831 180. 998 20. 989 20. 830 990. 998 40. 989 40. 831 1100. 998 30. 947 00. 831 1110. 998 50. 836 20. 830 8120. 998 50. 824 80. 831 1130. 998 70. 806 80. 831 3140. 998 80. 898 40. 831 1150. 998 70. 924 90. 831 2160. 998 70. 926 60. 831 0170. 998 80. 926 70. 830 9180. 999 00. 926 50. 831 2190. 998 80. 927 30. 831 1200. 998 60. 941 20. 831 013 4计 算 机 工 程2020年3月15日1.0000.9750.9500.9250.900-B--e-学习率为学习皋舟0.0010.01 0.875丛-学习率为0.10.8500.825A4 A―A―4—40.800 0------ 2- -----4----- -6----- -8----- -10----- -12----- -14----- -16------- 18- -----20实验次数图4基于不同学习率对第\"类大数据集进行20次实验

得到的识别率曲线Fig. 4 Recognition rate ccrve obtaineS from 20 experiments for

type II big dataset baseS on differest learning rates3)基于各深层DCNNs设计不同的超参数,样本

块大小(BatchSizz )分别为50、100和500,对 第I类大数据集进行20次实验得到的识别率结 果如表3所示#从表3可以看出,BatchSizz为100

和500时算法都有很高的识别率,其中,最低识别 率为 0. 988 6, 最高识别 率为 0. 995 5, 且随着训 练

次数的增加都保持稳定的高识别率;当BatchSizz 为50时,识别率相对较低,平均为0.734 5 #识别 率的曲线图表示如图5所示。表3 各深层DCNNs基于不同BatchSiee对第I类大数据集

的识别率结果Table 3 Recognition rate results of each dees DCNNs for type Ibng datasetbasedondnferentBatchSnees识别率实验次数BatchSizz 为 50BatchSizz 为 100BatchSizz 为 50010. 951 10. 988 60. 993 420. 748 90. 991 60. 994 230. 721 70. 992 10. 994 240. 721 70. 992 60. 994 550. 721 70. 993 10. 994 860. 721 70. 993 40. 994 970. 721 70. 993 90. 995 180. 721 70. 993 90. 994 990. 721 70. 994 20. 995 3100. 721 70. 994 40. 992 2110. 721 70. 994 60. 994 9120. 721 80. 994 50. 994 7130. 721 70. 994 60. 994 8140. 721 60. 994 90. 994 8150. 721 70. 995 10. 994 9160. 721 70. 995 30. 994 7170. 721 70. 995 00. 994 8180. 721 70. 995 40. 994 9190. 721 70. 995 20. 995 0200. 721 70. 995 50. 995 0图5 基于不同BatchSiee对第I类大数据集进行20次

实验得到的识别率曲线Fig. 5 Recognition rate ccrve obtaineS from 20 experimests fortypeIbng datasetbasedondnferentBatchSnees4)基于不同的BatchSizz,对第%类大数据集 进行20次实验得到的识别率结果如表4所示。从 表4可以看出,当BatchSizz为500时算法有最好 的平均识别率, 其中 , 最低识别 率为 0. 806 8, 最高 识别率为0.994 8 ;当BatchSizz为50时,识别率稍 有下降,平均值约为0.832 0 ;当BatchSizz为100 时,前6次识别率均接近0.912 1 ,之后下降幅度较 大,仅为0.169 0左右。识别率的曲线图表示如图6 所示。表4 各深层DCNNs基于不同BatchSiee对第\"类大数据集

的识别率结果Tabee4 RecognntnonrateresuetsofeachdeepDCNNsfortype I

bng datasetbasedondnferentBatchSnees识别率实验次数一BatchSizz 为 50

BatchSizz 为 100 BatchSizz 为 50010. 850 80. 908 80. 983 320. 830 90.917 80. 994 830. 831 40.912 10. 993 640. 830 90. 909 50. 985 750. 831 00. 909 50. 975 360. 831 00. 899 90. 988 370. 831 10.168 90. 989 180. 830 90.169 10. 989 290. 831 10.168 90. 989 4100. 831 10.168 90. 947 0110. 830 80.169 20. 836 2120. 831 10.168 90. 824 8130. 831 30.168 70. 806 8140. 831 10.168 90. 898 4150. 831 20.168 80. 924 9160. 831 00.169 00. 926 6170. 830 90.169 10. 926 7180. 831 20.168 80. 926 6190. 831 10.168 90. 927 3200. 831 00.169 00. 941 2第46卷第3期张海军,陈映辉:基于类图像处理与向量化的大数据脚本攻击智能检测1 35图6 基于不同BatchSize对第\"类大数据集进行20次

实验得到的识别率曲线Fig. 6 Recognition rate curve obtaineG from 20 experiments

fortype Ibng GatasetbaseGonGnferentBatchSnees5)为进一步验证系统的相关特性,基于各深层 DCNNs设计不同的卷积层深度,对第I类大数据集 进行20次实验得到的识别率结果如表5所示。从 表5可以看出,算法总体都保持高识别状态,其中, 最低识别率为0.976 0 ,最高识别率为0.993 0。识

别率的曲线图表示如图7所示。表5深层DCNNs对第I类大数据集的识别率结果Table 5 Recognition rate results of Geep DCNNs on type Ibig Gataset实验次数识别率实验次数识别率10.990 0110. 981 820.992 0120. 981 930.993 0130. 981 940.976 0140. 981 950.979 0150. 981 960.980 0160. 981 970.981 0170. 981 980.981 4180. 982 090.981 6190. 982 0100.981 7200. 982 0图7 DCNNs对第I类大数据集进行20次实验

得到的识别率曲线Fig. 7 Recognition rate Chrve obtainee from 20 expekmeetsofDCNNsfortypeIbng Gataset6)基于不同的卷积层深度,对第%类大数据集进 行20次实验得到的识别率结果如表6所示。从表6

可以看出,随着训练的进行,算法识别率不断提高,其

中,最低识别率为0• 980 8 ,最高识别率为0• 999 0,最 后趋于稳定。识别率的曲线图表示如图8所示。表6深层DCNNs对第\"类大数据集的识别率结果Table 6 Recognition rate results of Geep DCNNs for type IIbng Gataset实验次数识别率实验次数识别率10.980 8110. 998 520.996 7120. 998 530.997 3130. 998 740.997 6140. 998 850.997 7150. 998 760.997 9160. 998 770.998 1170. 998 880.998 2180. 999 090.998 4190. 998 8100.998 3200. 998 61.000 00.997 50.995 0槪0.992 50.990 00.987 50.985 00.982 50.980 0实验次数图8 DCNNs对第\"类大数据集进行20次实验

得到的识别率曲线Fig. 8 Recognition rate curve obtaineG from 20 experimentsofDCNNsfortypeIIbng Gataset通过实验可以看出,各深层DCNNs基于不同学习 率1对第I类大数据集的平均识别率为99. 366 5%,方

差为0.000 001,标准差为0. 000 944,如表7所示。各深 层DCNNs基于不同学习率1对第%类大数据集的平均

识别率为93.875 5% ,方差为0. 000 015,标准差为

0.003 952,如表8所示。通过实验也可以看出,各深层

DCNNs基于不同BatchSize对第I类大数据集的平均 识别率为99.389 5% ,方差为0.000 003,标准差为 0.001 670,如表9所示。各深层DCNNs基于不同

BatchSize对第%类大数据集的平均识别率为83.204 5% , 方差为0.003 258,标准差为0.058 559,如表10所示。另

外,通过实验可以得到,各深层DCNNs基于不同卷积 层深度对第I类大数据集的平均识别率为98. 274 5% ,

方差为0.000 016,标准差为0.004 133,如表11所示。 各深层DCNNs基于不同卷积层深度对第%类大数据集 的平均识别率为99.740 5%,方差为0.000 015,标准差

为0.003 952,如表12所示。13 6计算机工程2020年3月15日表7 各深层DCNNs基于不同学习率对第I类大数据

集的平均识别率、方差和标准差Table 7 Average recognition rate, variancc and standarddeviation of each dees DCNNs for type I big dataset

based on different learning rates学习率平均识别率/%方差标准差0.00199.366 50. 000 0090.003 1390.01099.460 00. 000 0000.000 6970. 10083.021 50. 000 0010. 000 944表8 各深层DCNNs基于不同学习率对第\"类

大数据集的平均识别率、方差和标准差Table 8 Average recognition rate,variancc and standarddeviation of each dees DCNNs for type II big dataset

based on different learning rates学习率平均识别率/%方差标准差0. 00199.740 50.000 0150. 003 9520.01093.875 50. 003 2580. 058 5600. 10083.104 50. 000 0000.000 157表9 各深层DCNNs基于不同BatchSize对第I类

大数据集的平均识别率、方差和标准差Table 9 Average recognition rate,variancc and standard

deviation of each dees DCNNs for type I big dataset

based on different BatchSizesBatchSizz平均识别率/%方差标准差5073.453 00. 002 5040. 051 33610099.389 50. 000 0030. 001 67050099.460 00. 000 0000. 000 697表10 各深层DCNNs基于不同BatchSize对第\"类大数据

集的平均识别率、方差和标准差Table 10 Average recognition rate,variancc and standarddeviation of each dees DCNNs for type II bic dataset based on different BatchSizesBatchSizz平均识别率/%方差标准差5083.204 50.000 0190.004 41710039.113 50.115 2110. 348 24550093.876 00. 003 2580. 058 559表11 深层DCNNs对第I类大数据集的平均识别率%

方差和标准差Table 11 Average recognition rate,variancc and standarideviation of dees DCNNs for type I big dataset卷积深度平均识别率/%方差标准差1098.274 50.000 0160.004 133表12 深层DCNNs对第\"类大数据集的平均识别率%

方差和标准差Table 12 Average recognition rate,variancc and standarideviation of dees DCNNs for type II big dataset

卷积深度平均识别率/%方差标准差1099.740 50.000 0150. 003 952对于第I类和第%类大数据集,基于不同学习率1 的识别率均值如图9所示,标准差均值如图10所示。 对于第I类和第%类大数据集,基于不同BatchSizz的 识别率均值如图11所示,标准差均值如图12所示。图9 基于不同学习率对第I类和第\"类大数据集的

识别率均值Fig. 9 Average recognition rate for type I and type II big

datasets baseS on diLerept leareing rates

0.06―I □第I类大数据集0.05r0.040.030.02 -0.01 -0.00 ■­

0.0010.01 0.1

学习率图10基于不同学习率对第I类和第\"类大数据集的

标准差均值Fig. 10 Mean standard deviation for type I and type II

big datasets baseS on diLerest learning rates图11基于不同BatchSize对第I类和第\"类大数据集的

识别率均值Fig. 11 Average recognition rate for type I and type II big

datasets baseS on differest BatchSizes图12 基于不同BatchSize对第I类和第\"类大数据集的

标准差均值Fig. 12 Mean standard deviation for type I and type II big

datasets based on different BatchSizes系统识别率变化过程曲线图如图13所示,可以

第46卷第3期张海军,陈映辉:基于类图像处理与向量化的大数据脚本攻击智能检测1 37看出,识别率随着训练的进行逐渐提高,随后降低然 后又不断提咼并趋于稳定,总体识别率较咼。损失

函数误差变化曲线图如图14所示,可以看出,随着 训练的进行,损失函数误差先减少后增加然后不断 地减小并趋于稳定,其与识别率的变化过程相一致。 词向量样本余弦距离变化曲线图如图15所示,可以 看出,随着训练的进行,余弦距离先减小后增加然后 不断地减小并趋于稳定,这反映了词向量样本的相 关性先增强后变小然后越来越强,其同识别率变化 过程也一致。平均绝对误差变化过程曲线图如图16 所示,可以看出,随着训练的进行,平均绝对误差先 减小后增加然后不断地减小并趋于最小的稳定值。实验次数图13识别率变化曲线Fng.13 C lrve of recogn nt non rate change图14损失函数误差变化曲线Fig. 14 Curve of loss frnction error change图15余弦距离变化曲线Fng.15 Curve of cos nne G nstance change图16平均绝对误差变化曲线Fng.16 Curve of average absolute error change4结束语传统的计算机病毒检测方法主要依据病毒特征 库中的已有特征,通过特征匹配来确定病毒是否存 在,其难以检测新出现的病毒以及变形病毒,而且检 测效率较低。为解决该问题,本文通过类图像处理及 向量化方法对访问流量语料库大数据进行词向量化 处理,从而实现了面向大数据跨站脚本攻击的智能检 测。实验结果表明,该方法具有识别率高、稳定性好、 总体性能优良等优点。下一步将探讨小样本数据的 智能检测问题,以更全面地进行入侵智能检测。参考文献[1 ] NAIR A. Prevention of cros s site s cripting and securing

Web application atclieni side[ EB/OL]. [ 2018-11 -20 ].

http://www. ijaerd. com/papee/ special _ papers/RTD E021 .pdf.[2 ] GERMAN E R, BENAVIDES D E, TORRES J, ei al.

Cookie s cou*: an analy i cmodel for preven ion ofcross- site scripting using a cookie classifier [ C ] ///roccedings of Int rnational Conf+r+n c+ on Information Th+or+ti c Security. Berlin, Germany: Springer ,2018 *497-507.[3 ] WANG Guihua, QIN Xiangqing, CHEN Li, ei al. A

query re commendation algorithm for professional sear ch engines [ J ]. Computer Engineering and Applications,

2013 ,49(9) *144-149. (in Chinese)王桂华,秦湘清,陈黎,等• 一种面向专业搜索引擎的

查询推荐算法[J] •计算机工程与应用,2013,49 (9):

144-149.[4 ] ZHANG Haijun, ZHANG Nan, XIAO Nanfeng. Fire

detection and identibcation method based on visual attention mechanism[ J]. OptiO,2015,126 *5011 -5018.[5 ] LIU Quan, LIANG Bin, XU Jin, ei al. A deephierarchical neural network model for aspe ct-based sentiment analysis [ J ]. Chinese Journal of Computers, 2018 ,41 (12) *2637-2652. (in Chinese)刘全,梁斌,徐进,等• 一种用于基于方面情感分析的

深度分层网络模型[J] •计算机学报,2018,41 ( 12 )*

2637-2652.[6 ] REHMAN YAU, MAN P L, LIU M. LiveNeI*

improving features generalization for face liveness detection using convolution neural networks [ J ]. Experi Systems with Applications ,2018,108 *159-169.[7 ] ZHU Z A, LI Y Z, SONG 乙 On the convergence rate of

training recuireni neural networks[EB/OL]. [ 2018-11 -20 ]. https://www. microsofi. com/en-us/esearch/uploads/prod/ 2018/12/on-thc-convergence-rate. pdf.[8 ] DU S S,ZHAI X,POCZOS B,ci l Gradient descent provablp

optimizes over-parameteszed neural networks [ EB/OL ].[2018-11 -20 ]. https ://arxW. org/abs/1810. 02054 ? coni ext _ cs. LG.[9 ] LEVINE S, PASTOR P, KRIHEVSKY A, ei al.

Learning hand-eye coordinaion forrobo i cgrasping wih deep learning and large-scale data collection [ J ]. Inter­national Journal of Roboti cs Research, 2016 ( 10 ) * 421 -436$(下转第143页)第 46 卷 第 3 期金 叶,丁晓波,龚国强,等:基于节点分类的k度匿名隐私保护方法1 43贾俊杰,闫国蕾.一种个性化(P,k)匿名隐私保护算 法[J] •计算机工程,2018 ,44(1 ):176-81.[6 ] MACHANAVAJJHALA A, GEHRKE J, KIER D,

et al. L-diversity: privacy beyond k-nonymTy [ C ] //

Proceedings of*he 22nd In ernaional Conference on Data Engineering. Washington D.C. , USA: IEEE Pre s, 2006: 1 -24.[7 ] JIANG Wenhuo, ZHAN QWghua, LIU Wenjuan, et aU

Clusteeng-nonymTy approach for privacy preservation of graph data-pubPshing] J]. Journal of Software, 2017 , 28(9) :2323-2333. (in Chinese)姜火文,占清华,刘文娟,等.图数据发布隐私保护的 聚类匿名方法[J] •软件学报,2017 ,28(9) :2323-2333.[ 8 ] REN Xiangmin , JIA Boxuan, WANG Kechao , etal.

Research on K-nonymTy privacy protection of social network [ J]. Applied Mechanics and Materials, 2014 , 530-531 : 701 -704.[ 9 ] LIU K, TERZI E.TowardJ identity anonymieation on

graphs[ C]///roceedings of ACM SIGMOD International Conference on ManagementofData.New York, USA: ACM PreJ,2008:93-106.[10 ] CASAS-ROMA J, HERRERA-OANCOMARTI J. k-Degree

reducesdistancesbetween nodes [ C ] //Proceedingsof the 33 rd International Symposium on Reliable Distributed Systems Workshops. Washington D.C. , USA:IEEE Press,2014:76-81.[ 14] WATTSD J.Networks, dynamics, and thesmal-world

phenomenon[ J] .American Journal of Sociology, 1999, 105 (2) :1 -10.[15 ] NEWMAN M EJ. Modularity and community structura

in networks[ J] $ProceedingsoftheNationalAcademy of Sciences,2006,103(23) :8577-8582$[ 16] CLAUSETA, NEWMAN M E J, MOORE C$Finding community structura in very large networks[ J]. Physical Review E,2004 ,70(6) :1 -14.[17 ] Lt YWong,SHEN Hong, LANG Congyan, et al. Practical

anonymity models on protecting private weighted graphs[ J]. Neurocomputing ,2016 ,218 :359-370.[18 ] Stnford largenetwork datset collection [ EB/OL]. [2019­

02-13 ] . h *p : //snap. s anford. edu /da a /index. h ml.[ 19] LIM, LIU Z, DONG K.Privacy preservaion in social

nework agains*public neighborhood aacks [ C ] // Proceedingsof 2016 IEEE Truscom /BigDaaSE /ISPA. Washing*on D.C. ,USA:IEEE Press,2016:1-5.[ 20] TAIC H, YU PS, YANG D N, e*al. Privacy-preserving

anonymiW and edge selection: improving date utility in large networks [ J] .Knowledge 2nd Inform2tion Systems, 2017, 50( 2):447-474.[11 ] YU F, CHEN M, YU B , et al. Privacy preservation based

on clustering peiurbation algorithm for social network[ J]. Multimedia Tools and Applications, 2018 , 77(9):11241-11258.[12 ] LU Y,MA T, TANG M, et al. An effcWnt and scalable

density-based clustering algorithm for datasets with complex structures[ J]. Neurocomputing,2016,171 :9-22.[ 13] OKADA R, WATANABE C, KITAGAWA H.A k-

anonymizetion algorithm on social network date thatsocial network publication against friendship aacks[ C] //Proceedings of *he 17*h ACM SIGKDD In ernaional Conference on Knowledge Discovery and Daa Mining. Washing*on D.C. , USA: IEEE Press,

2011:1262-1273.[ 21 ] ZHANG X K, FEIS, SONG C, e*al.Labelpropagaion

algorithm based on local cycles for communOy detection[ J]. International Journal of Modern Physics B , 2015,29(5):5-29.编辑陆燕菲(上接第137页)[ 10 ] WANG Lei, ZHOU Qing, HE Dongaie, etal.Multi-

source taint analysis technique for privacy #ek detection of Android Apps[ J] . Journal of Software,2019,30(2): 211-230. (in Chinese)

王蕾,周卿,何冬杰,等•面向Android应用隐私泄露检 测的多源污点分析技术[J] •软件学报,2019,30 ( 2): 211-230.[11 ] GAO Yanjun, ZHANG Xueying, Lt Fengltn, et al. Date

Hocetion algorithm for large date with aU-to-aU comp2rison b2sed on gr2ph covering [ J ] .Computer Engineering,2018,44(4):17-22,27. (in Chinese)

高燕军,张雪英,李凤莲,等.基于图覆盖的大数据全比较数

据分配算法[J]计算机工程,2018 ,44 (4) :17-22 ,27.[ 12] KWON O, LEE N, SHIN B.D2t qu2lity m2n2gement,

[16 ] SURBHt G,ADAM K,RAGHU M. Beseing one convo#/onU

layer wiW overlapping patches [ EB/OL]. [ 2018-11-20 ].

d2t us2ge experience 2nd 2cquisition intention ofbig date analytics [ J ]. International Journal of Information Management,2014 ,34( 3) :387-394.[ 13 ] CHEN Q, SOKOLOVA M.Word2Vecand Doc2Vec in

unsupervised sentiment analysis of clinical discharge summaries [ EB/OL ]. [ 2018-11 -20 ]. https: //arxiv. org/ftp/arxW/papee/1805/1805. 00352. pdf.[14 ] Deep learning for Java [ EB/OL]. [ 2018-11 -20 ].

https://deepParning4j. org/.[ 15 ] CELESTIF, CELESTIA, WAN J, etal Why deep

learning is changing the way to approach NGS date proce sing: areview [ J] $IEEE Reviewsin Biomedical Engineering,2018,11:68-76$

htt//proceedings. mSr. pess/v80/goeL8a/goeL8 a. pdf.[ 17 ] YUYanwei, JIA Zhaofei , CAOLei, etalFastdensity-based

clustering algorithm for location bio date [ J ]. Journal of Softwara,2018 ,29(8) :2470-2484. (in Chinese)

于彦伟,贾召飞,曹磊,等•面向位置大数据的快速密 度聚类算法[J] •软件学报,2018 ,29( 8) :2470-2484.[18 ] ZHANG Haijun,XIAO Nanfeng. Parallel implementation

of multilayered neural networks based on map-reduce on c#oud computing c#usters [ J] . Soft Computing, 2016, 20(4):1471-1483.[ 19] TRIGUERO I, PERALTA D, BACARDIT J, et a.

MRPR: a MapReduce solution for prototype reduction in big date classification [ J ]. Neurocomputing, 2015,150 : 331-345.[ 20] DU SS, LEEJD, TIAN Y, et2l.Gr2dientdescentle2rns

one-hidden-#yer CNN:don't be afraid of spurious local minima [ EB/OL]. [ 2018-11 -20 ]. https://arxiv. org/ pdf/1712. 00779.pdf.[21 ] JAEGUL C, SHIXIA L. Visual analytics for explainable

deep learning [ J ] . IREE Computer Graphics and Applications,2018,38(4):84-92.[22] MICHAEL G, CHEN J, BARRON J T, et al. Deep

bilateral learning for real-time image enhancement [ J ]. ACM Transactionson Graphics,2017 ,36(4) :118-120.编辑吴云芳

因篇幅问题不能全部显示,请点此查看更多更全内容