关键词不能为空

当前您在: 主页 > 英语 >

kdd99数据集详解-数据挖掘

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-03-03 20:02
tags:

-

2021年3月3日发(作者:aeea)


KDD


是数据挖掘与知识发现



Data Mining and Knowledge Discovery



的简称,


KDD CUP


是由


ACM


< br>Association for Computing Machiner


)的



SIGKDD



Special Interest Group on Knowledge Discovery and Data Min ing



组织的年度竞赛。



赛主页在


这里




下面是历届


KDDCUP


的题目:



KDD-Cup 2008


, Breast cancer


KDD-Cup 2007


, Consumer recommendations


KDD-Cup 2006


, Pulmonary embolisms detection from image data


KDD-Cup 2005


, Internet user search query categorization


KDD-Cup 2004


, Particle physics; plus Protein homology prediction


KDD-Cup 2003


, Network mining and usage log analysis


KDD-Cup 2002


, BioMed document; plus Gene role classification


KDD-Cup 2001


, Molecular bioactivity; plus Protein locale prediction.


KDD-Cup 2000


, Online retailer website clickstream analysis


KDD-Cup 1999


, Computer network intrusion detection


KDD-Cup 1998


, Direct marketing for profit optimization


KDD-Cup 1997


, Direct marketing for lift curve optimization


”KDD


CUP 99 dataset

< br>”


就是


KDD


竞赛在

< p>
1999


年举行时采用的数据集。从


这里


下载


KDD99


数据集。



1998


年美国国防部高级规划署(


DARPA


)在


MIT


林肯实验室进 行了一项入侵检测评估项


目。林肯实验室建立了模拟美国空军局域网的一个网络环境,收 集了


9


周时间的



TCPdump(*)


网络连接和系统审计数据,仿真各种用 户类型、各种不同的网络流量和攻击


手段,使它就像一个真实的网络环境。这些


TCPdump


采集的原始数据被分为两个部分:


7


周时间的训练数据



(**) < /p>


大概包含


5,000,000


多个网络连 接记录,剩下的


2


周时间的测试数


据大 概包含


2,000,000


个网络连接记录。

< br>


一个网络连接定义为在某个时间内从开始到结束的


TC P


数据包序列,并且在这段时间内,


数据在预定义的协议下(如


TCP



UDP


)从源


IP


地址到目的


IP


地址的传递。每个网络连


接被标记为正常



normal



或异常


attack




异常类型被细分为


4


大类共


39


种攻击类型,


其中


22

< p>
种攻击类型出现在训练集中,另有


17


种未知攻击 类型出现在测试集中。



4


种异常类型分别是:



1.


DOS, denial-of-service.


拒绝服务攻击,例如


ping-of-death, syn flood, smurf


等;



2.


R2L, unauthorized access from a remote machine to a local machine.


来自远程主


机的未授权访问,例如


guessing password




3.


U2R, unauthorized access to local superuser privileges by a local unpivileged user


.


未授权的本地超级用户特权访问,例如


buffer overflow attacks




4.


PROBING, surveillance and probing,


端口监视或扫描,例如


port- scan, ping-sweep


等。



随后来自哥伦比亚大学的


Sal Stolfo


教授和来自北卡罗莱纳州立大学的



Wenke Lee


教授


采用数据挖 掘等技术对以上的数据集进行特征分析和数据预处理,形成了一个新的数据集。


该数据集 用于


1999


年举行的


KDD CUP


竞赛中,成为著名的


KDD99


数据集 。虽然年代有


些久远,



KDD99< /p>


数据集仍然是网络入侵检测领域的事实


Benckmark



为基于计算智能的


网络入侵检测研究奠定基 础。




数据特征描述



KDD99


数据集中每个连接(


*


)用


41


个特征来描述:



2, tcp, smtp, SF, 1684, 363, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0.00, 0.00,


0.00, 0.00, 1.00, 0.00, 0.00, 104, 66, 0.63, 0.03, 0.01, 0.00, 0.00, 0.00, 0.00, 0.00,


normal.



0, tcp, private, REJ, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 38, 1, 0.00, 0.00,


1.00, 1.00, 0.03, 0.55, 0.00, 208, 1, 0.00, 0.11, 0.18, 0.00, 0.01, 0.00, 0.42, 1.00,


portsweep.



0, tcp, smtp, SF, 787, 329, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0.00, 0.00,


0.00, 0.00, 1.00, 0.00, 0.00, 76, 117, 0.49, 0.08, 0.01, 0.02, 0.00, 0.00, 0.00, 0.00,


normal.



上面是数据集中的


3


条记录,



CSV


格式写成,


加上最后的标记


(< /p>


label




一共有


42


项,


其中前


41


项特征分为


4


大类,下面 按顺序解释各个特征的含义:



1. TCP

< br>连接基本特征(共


9


种)



基本连接特征包含了一些连接的基本属性,


如连续时间,

< p>
协议类型,


传送的字节数等。


< br>(


1



duration.



连接持续时间,以秒为单位,连续类型。范围是



[0, 58329]


。它的


定义是 从


TCP


连接以


3

次握手建立算起,到


FIN/ACK


连接结束为止的时间; 若为


UDP


协议类型,则将每个


UDP


数据包作为一条连接。数据集中出现大量的


duration = 0


的情况,是因为该条连接的持续时间不足


1

< p>
秒。




2



protocol_type.



协议类型,离散类型,共有


3


种:

TCP, UDP, ICMP





3



service.

< p>


目标主机的网络服务类型,离散类型,共有


70


种。


’aol’, ‘auth’, ‘bgp’,


‘courier’, ‘csnet_ns’, ‘ctf’, ‘daytime’, ‘discard’, ‘domain’, ‘domain_u’, ‘echo’, ‘eco_i’,


‘ecr_i’, ‘efs’, ‘exec’, ‘finger’, ‘ftp’, ‘ftp_data’, ‘gopher’, ‘harvest’, ‘hostnames’, ‘http’,


‘http_2784′, ‘http_443′, ‘http_8001′, ‘imap4′, ‘IRC’, ‘iso_tsap’, ‘klogin’, ‘kshell’, ‘ldap’,


‘link’, ‘login’, ‘mtp’, ‘name’, ‘netbios_dgm’, ‘netbios_ns’, ‘netbios_ssn’, ‘netstat’,


‘nnsp’, ‘nntp’, ‘ntp_u’, ‘other’, ‘pm_dump’, ‘pop_2′, ‘pop_3′, ‘printer’, ‘private’, ‘red_i’,


‘remote_job’, ‘rje’, ‘shell’, ‘smtp’, ‘sql_net’, ‘ssh’, ‘sunrpc’, ‘supdup’, ‘systat’, ‘telnet’,


‘tftp_u’, ‘tim_i’, ‘time’, ‘urh_i’, ‘urp_i’, ‘uucp’, ‘uucp_path’, ‘vmnet’, ‘whois’, ‘X11′,


‘Z39_50′





4



fla g.



连接正常或错误的状态,离散类型,共

< br>11


种。


’OTH’, ‘REJ’, ‘RSTO’,


‘RSTOS0′, ‘RSTR’, ‘S0′, ‘S1′, ‘S2′, ‘S3′, ‘SF’, ‘SH’


。它表示该连接是否按照协议要求

< br>开始或完成。


例如


SF


表示连接 正常建立并终止;


S0


表示只接到了


S YN


请求数据包,


而没有后面的


SYN /ACK


。其中


SF


表示正常,其他< /p>


10


种都是


error

< br>。




5



src_bytes.



从源主机 到目标主机的数据的字节数,连续类型,范围



[0, 1379963888]





6



dst_bytes.

< br>


从目标主机到源主机的数据的字节数,连续类型,范围



[0. 1309937401]





7



land.


< /p>


若连接来自


/


送达同一个主机

< p>
/


端口则为


1


,否则为< /p>


0


,离散类型,


0



1





8



wrong_fragment.



错误分段的数量,连续类型,范围是


[0, 3]




< br>9



urgent.



加急包的个数,连续类型,范围是


[0, 14]




2. TCP


连接的内容特征(共


13


种)



对于


U2R


R2L


之类的攻击,由于它们不像


DoS

< br>攻击那样在数据记录中具有频繁序列模


式,


而一般都是嵌 入在数据包的数据负载里面,


单一的数据包和正常连接没有什么区别。

< br>为


了检测这类攻击,


Wenke Lee


等从数据内容里面抽取了部分可能反映入侵行为的内容特征,


如登录失败的次数 等。




10



hot.


访问系统敏感文件和目录的次数,连续,范围是



[0, 101]


。例如访问系统


目录 ,建立或执行程序等。




11



num_failed_logins.


登录尝试失败的次数。连续,


[0, 5]





1 2



logged_in.



成功登录则为


1


,否则为


0


,离散,


0


1





13



num_compromised.

compromised


条件(


**

)出现的次数,连续,


[0, 7479]




14



root_shell.



若获得


root shell


则为< /p>


1


,否则为


0


, 离散,


0



1



root_shell



指获得超级 用户权限。




15

< br>)


su_attempted.


若出现


”su root”


命令则为


1


,否则为


0


,离散,


0



1





16



num_root.


root


用户访问次数,连续,


[0, 7468]




17



num_file_creations.



文件创建操作的次数,连续,


[0, 100]





18



num_shells.


< /p>


使用


shell


命令的次数,连续,


[0, 5]





19



num_access_fi les.


访问控制文件的次数,连续,


[0, 9]


。例如对



/etc/passwd



.rhosts


文件的访问。



(< /p>


20



num_outbound_cm ds.


一个


FTP


会话中出站连接的 次数,连续,


0


。数据集


中这一特征出 现次数为


0





21



is_hot_login .


登录是否属于


“hot”


列表



***




是为


1



否则为


0



离散,


0



1



例如超级用 户或管理员登录。




22

< p>


is_guest_login.



若是


guest


登录则为

< p>
1


,否则为


0


,离散,< /p>


0



1




3.


基于时间的网络流量统计特征



(共< /p>


9


种,


23


~< /p>


31




由于网 络攻击事件在时间上有很强的关联性,


因此统计出当前连接记录与之前一段时间内的


连接记录之间存在的某些联系,


可以更好的反映连接之间的关系。< /p>


这类特征又分为两种集合:


一个是



“same host”


特征,


只观察 在过去两秒内与当前连接有相同目标主机的连接,


例如相


同的连 接数,在这些相同连接与当前连接有相同的服务的连接等等;另一个是



“same


service”


特征,


只观察过去两秒内与当前连接有相同服务的连接,


例如这样的连 接有多少个,


其中有多少出现


SYN


错 误或者


REJ


错误。




23



count.



过去两秒内,


与当前连接具有相同的目标主 机的连接数,


连续,


[0, 511]





24



srv_count.



过去两秒内,


与当前连接具有相同服务的连接数,

< br>连续,


[0, 511]



< /p>



25



ser ror_rate.


过去两秒内,


在与当前连接具有相同目标 主机的连接中,


出现


“SYN”


错误的连接的百分比,连续,


[0.00, 1.00]




26



srv_serror_rate.



过去两秒内,


在与当前连接具有相同服务的连接中,


出现


“SYN”


错误的连接的百分比,连续,


[0.00, 1.00]




27



rerror_rate.



过去两秒内,


在与当前连接具有相同目标主机的连接中,


出现


“REJ”


错误的连接的百分比,连续,


[0.00, 1.00]




28



srv_rerror_rate.



过去两秒内,


在与当前连接具有相同服务的连接中,


出现


“REJ”


错误的连接的百分比,连续,


[0.00, 1.00]



-


-


-


-


-


-


-


-



本文更新与2021-03-03 20:02,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/702786.html

kdd99数据集详解-数据挖掘的相关文章