背景

互联网迅速发展,根据google的公布数据,目前索引的独立页面超过一万亿,并且这个数字还在不断的刷新.互联网成为人学习和娱乐的主要工具,目前每个人上网时间达到2小时以上,分析和监控用户的上网类型,称为一个新的趋势.

依据人工方式来分类显然不可能的,因为网站数量大,人工分类主观意识强,影响分类的准确性与真实性.因此有必要建立依据自然语言处理的和爬虫技术对海量的网站进行自动化分类,并保存分类结果.分类结果供其他场景使用.

基于分类的数目又可以分成二元分类和多级分类。基于分配给每个例子的分类的数目，又可分为单标签分类和多标签分类。如果是多级分类，比如一个四级分类，艺术，商业，计算机和运动，它可以为单标签，同时也可以是多标签，即一个例子可以属于一个，两个或所有的类别。

需求

客户用防火墙想控制墙内用户访问哪些方面的网页进行监控管理,这就意味着要对存量的网站进行分类,方便客户对某一类站点进行阻断,比如,对色情网站进行阻断. 实现的思路:通过爬虫的方式对存量的网页进行信息获取,采用自然语言处理的技术,对爬取的url进行分类,并存储.将分类好的站点文件,预制到防火墙内部.

采集信息:主动与被动.主动收集:主要是网络爬虫技术,从互联网中定向抓取网页集合.被动收集通过访问的流量进行采集分析.
1. 基于文本块密度和标签路径覆盖率的网页正文抽取算法,对于web网页分类有作用的信息是文本的正文.
2. DOM，全称 Document Object Modle，是一种专门用来处理HTML与XML文档的标准协议。 DOM可以读取HTML或者XML文档，并结构化展示出来，也可以使用DOM将HTML或XML文档解析成一颗树，并进行增删改查等基本操作。
采集的信息: 静态特征(网页今年刚泰信息,主机信息,URL信息,网页内容);动态特征:浏览器行为,网页跳转关系,注册表,文件夹

iYLIGR

t7hqNx