-
KDD
是数据挖掘与知识发现
(
Data Mining and Knowledge
Discovery
)
的简称,
KDD
CUP
是由
ACM
(
< br>Association for Computing Machiner
)的
SIGKDD
(
Special
Interest Group on Knowledge Discovery and Data Min
ing
)
组织的年度竞赛。
竞
赛主页在
这里
。
p>
下面是历届
KDDCUP
的题目:
KDD-Cup 2008
, Breast
cancer
KDD-Cup 2007
,
Consumer recommendations
KDD-Cup
2006
, Pulmonary embolisms detection
from image data
KDD-Cup
2005
, Internet user search query
categorization
KDD-Cup 2004
,
Particle physics; plus Protein homology prediction
KDD-Cup 2003
, Network mining
and usage log analysis
KDD-Cup
2002
, BioMed document; plus Gene role
classification
KDD-Cup 2001
,
Molecular bioactivity; plus Protein locale
prediction.
KDD-Cup 2000
,
Online retailer website clickstream analysis
KDD-Cup 1999
, Computer
network intrusion detection
KDD-Cup
1998
, Direct marketing for profit
optimization
KDD-Cup 1997
,
Direct marketing for lift curve optimization
”KDD
CUP 99 dataset
< br>”
就是
KDD
竞赛在
1999
年举行时采用的数据集。从
这里
下载
KDD99
数据集。
1998
年美国国防部高级规划署(
DARPA
)在
MIT
林肯实验室进
行了一项入侵检测评估项
目。林肯实验室建立了模拟美国空军局域网的一个网络环境,收
集了
9
周时间的
TCPdump(*)
网络连接和系统审计数据,仿真各种用
户类型、各种不同的网络流量和攻击
手段,使它就像一个真实的网络环境。这些
TCPdump
采集的原始数据被分为两个部分:
7
周时间的训练数据
(**) <
/p>
大概包含
5,000,000
多个网络连
接记录,剩下的
2
周时间的测试数
据大
概包含
2,000,000
个网络连接记录。
< br>
一个网络连接定义为在某个时间内从开始到结束的
TC
P
数据包序列,并且在这段时间内,
数据在预定义的协议下(如
TCP
、
UDP
)从源
IP
地址到目的
IP
地址的传递。每个网络连
接被标记为正常
(
p>
normal
)
或异常
(
attack
)
,
异常类型被细分为
4
大类共
39
种攻击类型,
其中
22
种攻击类型出现在训练集中,另有
17
种未知攻击
类型出现在测试集中。
4
种异常类型分别是:
1.
DOS, denial-of-service.
拒绝服务攻击,例如
ping-of-death, syn
flood, smurf
等;
2.
R2L, unauthorized access from a remote
machine to a local machine.
来自远程主
机的未授权访问,例如
guessing
password
;
3.
U2R, unauthorized access to local
superuser privileges by a local unpivileged
user
.
未授权的本地超级用户特权访问,例如
buffer
overflow attacks
;
4.
PROBING, surveillance and
probing,
端口监视或扫描,例如
port-
scan, ping-sweep
等。
随后来自哥伦比亚大学的
Sal Stolfo
教授和来自北卡罗莱纳州立大学的
Wenke Lee
教授
采用数据挖
掘等技术对以上的数据集进行特征分析和数据预处理,形成了一个新的数据集。
该数据集
用于
1999
年举行的
KDD CUP
竞赛中,成为著名的
KDD99
数据集
。虽然年代有
些久远,
但
KDD99<
/p>
数据集仍然是网络入侵检测领域的事实
Benckmark
,
为基于计算智能的
网络入侵检测研究奠定基
础。
数据特征描述
KDD99
数据集中每个连接(
*
)用
41
个特征来描述:
2, tcp, smtp, SF, 1684, 363, 0, 0, 0,
0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0.00,
0.00,
0.00, 0.00, 1.00, 0.00, 0.00,
104, 66, 0.63, 0.03, 0.01, 0.00, 0.00, 0.00, 0.00,
0.00,
normal.
0,
tcp, private, REJ, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 38, 1, 0.00, 0.00,
1.00, 1.00, 0.03, 0.55, 0.00, 208, 1,
0.00, 0.11, 0.18, 0.00, 0.01, 0.00, 0.42, 1.00,
portsweep.
0,
tcp, smtp, SF, 787, 329, 0, 0, 0, 0, 0, 1, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0.00, 0.00,
0.00, 0.00, 1.00, 0.00, 0.00, 76, 117,
0.49, 0.08, 0.01, 0.02, 0.00, 0.00, 0.00, 0.00,
normal.
上面是数据集中的
3
条记录,
以
CSV
格式写成,
加上最后的标记
(<
/p>
label
)
,
一共有
42
项,
其中前
41
项特征分为
4
大类,下面
按顺序解释各个特征的含义:
1. TCP
< br>连接基本特征(共
9
种)
p>
基本连接特征包含了一些连接的基本属性,
如连续时间,
协议类型,
传送的字节数等。
< br>(
1
)
duration.
p>
连接持续时间,以秒为单位,连续类型。范围是
[0, 58329]
。它的
定义是
从
TCP
连接以
3
次握手建立算起,到
FIN/ACK
连接结束为止的时间;
若为
UDP
协议类型,则将每个
UDP
数据包作为一条连接。数据集中出现大量的
duration
= 0
的情况,是因为该条连接的持续时间不足
1
秒。
(
2
)
protocol_type.
协议类型,离散类型,共有
3
种:
TCP, UDP, ICMP
。
(
3
)
service.
目标主机的网络服务类型,离散类型,共有
70
种。
’aol’, ‘auth’, ‘bgp’,
‘courier’, ‘csnet_ns’, ‘ctf’,
‘daytime’, ‘discard’, ‘domain’, ‘domain_u’,
‘echo’, ‘eco_i’,
‘ecr_i’, ‘efs’,
‘exec’, ‘finger’, ‘ftp’, ‘ftp_data’, ‘gopher’,
‘harvest’, ‘hostnames’, ‘http’,
‘http_2784′, ‘http_443′, ‘http_8001′,
‘imap4′, ‘IRC’, ‘iso_tsap’, ‘klogin’, ‘kshell’,
‘ldap’,
‘link’, ‘login’, ‘mtp’, ‘name’,
‘netbios_dgm’, ‘netbios_ns’, ‘netbios_ssn’,
‘netstat’,
‘nnsp’, ‘nntp’, ‘ntp_u’,
‘other’, ‘pm_dump’, ‘pop_2′, ‘pop_3′, ‘printer’,
‘private’, ‘red_i’,
‘remote_job’,
‘rje’, ‘shell’, ‘smtp’, ‘sql_net’, ‘ssh’,
‘sunrpc’, ‘supdup’, ‘systat’, ‘telnet’,
‘tftp_u’, ‘tim_i’, ‘time’, ‘urh_i’,
‘urp_i’, ‘uucp’, ‘uucp_path’, ‘vmnet’, ‘whois’,
‘X11′,
‘Z39_50′
。
(
4
)
fla
g.
连接正常或错误的状态,离散类型,共
< br>11
种。
’OTH’, ‘REJ’, ‘RSTO’,
‘RSTOS0′, ‘RSTR’, ‘S0′, ‘S1′, ‘S2′,
‘S3′, ‘SF’, ‘SH’
。它表示该连接是否按照协议要求
< br>开始或完成。
例如
SF
表示连接
正常建立并终止;
S0
表示只接到了
S
YN
请求数据包,
而没有后面的
SYN
/ACK
。其中
SF
表示正常,其他<
/p>
10
种都是
error
< br>。
(
5
)
src_bytes.
从源主机
到目标主机的数据的字节数,连续类型,范围
是
[0,
1379963888]
。
(
6
)
dst_bytes.
< br>
从目标主机到源主机的数据的字节数,连续类型,范围
是
[0.
1309937401]
。
(
7
)
land.
<
/p>
若连接来自
/
送达同一个主机
/
端口则为
1
,否则为<
/p>
0
,离散类型,
0
或
1
。
(
8
)
wrong_fragment.
错误分段的数量,连续类型,范围是
[0, 3]
。
(
< br>9
)
urgent.
加急包的个数,连续类型,范围是
[0,
14]
。
2. TCP
连接的内容特征(共
13
种)
对于
U2R
和
R2L
之类的攻击,由于它们不像
DoS
< br>攻击那样在数据记录中具有频繁序列模
式,
而一般都是嵌
入在数据包的数据负载里面,
单一的数据包和正常连接没有什么区别。
< br>为
了检测这类攻击,
Wenke Lee
等从数据内容里面抽取了部分可能反映入侵行为的内容特征,
如登录失败的次数
等。
(
10
)
hot.
访问系统敏感文件和目录的次数,连续,范围是
[0, 101]
。例如访问系统
目录
,建立或执行程序等。
(
11
)
num_failed_logins.
登录尝试失败的次数。连续,
[0,
5]
。
(
1
2
)
logged_in.
成功登录则为
1
,否则为
0
,离散,
0
或
1
。
(
13
)
num_compromised.
compromised
条件(
**
)出现的次数,连续,
[0,
7479]
。
(
14
)
root_shell.
若获得
root shell
则为<
/p>
1
,否则为
0
,
离散,
0
或
1
。
root_shell
是
指获得超级
用户权限。
(
15
< br>)
su_attempted.
若出现
”su root”
命令则为
1
,否则为
0
,离散,
0
或
1
。
(
16
)
num_root.
root
用户访问次数,连续,
[0,
7468]
。
(
17
)
num_file_creations.
文件创建操作的次数,连续,
[0,
100]
。
(
18
)
num_shells.
<
/p>
使用
shell
命令的次数,连续,
p>
[0, 5]
。
(
19
)
num_access_fi
les.
访问控制文件的次数,连续,
[0,
9]
。例如对
/etc/passwd
或
.rhosts
文件的访问。
(<
/p>
20
)
num_outbound_cm
ds.
一个
FTP
会话中出站连接的
次数,连续,
0
。数据集
中这一特征出
现次数为
0
。
(
21
)
is_hot_login
.
登录是否属于
“hot”
列表
(
***
)
,
是为
1
,
否则为
p>
0
,
离散,
0
p>
或
1
。
例如超级用
户或管理员登录。
(
22
)
is_guest_login.
若是
guest
登录则为
1
,否则为
0
,离散,<
/p>
0
或
1
。
3.
基于时间的网络流量统计特征
(共<
/p>
9
种,
23
~<
/p>
31
)
由于网
络攻击事件在时间上有很强的关联性,
因此统计出当前连接记录与之前一段时间内的
p>
连接记录之间存在的某些联系,
可以更好的反映连接之间的关系。<
/p>
这类特征又分为两种集合:
一个是
“same host”
特征,
只观察
在过去两秒内与当前连接有相同目标主机的连接,
例如相
同的连
接数,在这些相同连接与当前连接有相同的服务的连接等等;另一个是
“same
service”
特征,
只观察过去两秒内与当前连接有相同服务的连接,
例如这样的连
接有多少个,
其中有多少出现
SYN
错
误或者
REJ
错误。
(
23
)
count.
过去两秒内,
与当前连接具有相同的目标主
机的连接数,
连续,
[0,
511]
。
(
24
)
srv_count.
p>
过去两秒内,
与当前连接具有相同服务的连接数,
< br>连续,
[0, 511]
。
<
/p>
(
25
)
ser
ror_rate.
过去两秒内,
在与当前连接具有相同目标
主机的连接中,
出现
“SYN”
错误的连接的百分比,连续,
[0.00,
1.00]
。
(
26
)
srv_serror_rate.
过去两秒内,
在与当前连接具有相同服务的连接中,
出现
“SYN”
错误的连接的百分比,连续,
[0.00,
1.00]
。
(
27
)
rerror_rate.
过去两秒内,
在与当前连接具有相同目标主机的连接中,
出现
“REJ”
错误的连接的百分比,连续,
[0.00,
1.00]
。
(
28
)
srv_rerror_rate.
过去两秒内,
在与当前连接具有相同服务的连接中,
出现
“REJ”
错误的连接的百分比,连续,
[0.00,
1.00]
。
-
-
-
-
-
-
-
-
-
上一篇:中级商务英语词汇Word版
下一篇:国际贸易实务 (1)