[TOC]
0. 写在前面
- 安全的算法开发人员需要:精通算法,了解攻防,理解数据.
- 人工智能在各个领域得到了广泛的应用,特别是图像识别,自然语言处理,语音合成和语义识别等.但是在网络安全方向的应用显得相对较少.
- 近期很火爆的ChatGPT也再次证明了,人工智能的强大之处.
1. AI + 安全势在必行
- 安全的很多难题需要借助AI的工具来实施;
- AI在其他领域得到了广泛的应用;
2. 课题1:恶意代码
2.1 恶意代码图像
- 2011年由加利福尼亚大学的Nataraj和Karthikeyan在他们的论文Malware Images:Visualization and Automatic Classification中提出来的,思路非常新颖,把一个二进制文件以灰度图的形式展现出来,利用图像中的纹理特征对恶意代码进行聚类。
2.2 n-gram
- 将n-gram应用于恶意代码识别的想法最早由Tony等人在2004年的论文N-gram-based Detection of New Malicious Code中提出,不过他们的方法是基于ByteCode的。2008年Moskovitch等人的论文Unknown MalcodeDetection Using OPCODE Representation中提出利用OpCode代替ByteCode更加科学
3.安全数据集
3.1 KDD99 数据集
- KDD是知识发现与数据挖掘(Knowledge Discovery and DataMining)的简称,KDDCUP是由ACM组织的年度竞赛如图3-1所示。KDD99数据集就是KDD竞赛在1999年举行时采用的数据集。这是基于计算机智能的网络入侵检测奠定了基础.

- 41个特征分别的含义:
-
TCP连接基本特征:9个
1.

-
TCP连接的内容特征:13个
1.

-
基于时间的网络流量统计分析:9个
1.

-
基于主机的网络流量统计特征
1.

3.2 HTTP DATASET CSIC 2010
- HTTP DATASET CSIC 2010包含大量标注过的针对Web服务的36000个正常请求以及25000个攻击请求,攻击类型包括sql注入、缓冲区溢出、信息泄露、文件包含、xss等,被广泛用于WAF类产品的功能评测。