[TOC]

0. 写在前面

1. AI + 安全势在必行

2. 课题1:恶意代码

2.1 恶意代码图像

  1. 2011年由加利福尼亚大学的Nataraj和Karthikeyan在他们的论文Malware Images:Visualization and Automatic Classification中提出来的,思路非常新颖,把一个二进制文件以灰度图的形式展现出来,利用图像中的纹理特征对恶意代码进行聚类。

2.2 n-gram

  1. 将n-gram应用于恶意代码识别的想法最早由Tony等人在2004年的论文N-gram-based Detection of New Malicious Code中提出,不过他们的方法是基于ByteCode的。2008年Moskovitch等人的论文Unknown MalcodeDetection Using OPCODE Representation中提出利用OpCode代替ByteCode更加科学

3.安全数据集

3.1 KDD99 数据集

  1. KDD是知识发现与数据挖掘(Knowledge Discovery and DataMining)的简称,KDDCUP是由ACM组织的年度竞赛如图3-1所示。KDD99数据集就是KDD竞赛在1999年举行时采用的数据集。这是基于计算机智能的网络入侵检测奠定了基础.
![QOFeRq](<https://raw.githubusercontent.com/errolyan/tuchuang/master/uPic/QOFeRq.jpg>)
  1. 41个特征分别的含义:
    1. TCP连接基本特征:9个 1.

       ![gJE1HS](<https://raw.githubusercontent.com/errolyan/tuchuang/master/uPic/gJE1HS.jpg>)
      
    2. TCP连接的内容特征:13个 1.

       ![oqTPyj](<https://raw.githubusercontent.com/errolyan/tuchuang/master/uPic/oqTPyj.png>)
      
    3. 基于时间的网络流量统计分析:9个 1.

       ![kevRth](<https://raw.githubusercontent.com/errolyan/tuchuang/master/uPic/kevRth.png>)
      
    4. 基于主机的网络流量统计特征 1.

       ![hfuppP](<https://raw.githubusercontent.com/errolyan/tuchuang/master/uPic/hfuppP.png>)
      

3.2 HTTP DATASET CSIC 2010