背景

互联网迅速发展,根据google的公布数据,目前索引的独立页面超过一万亿,并且这个数字还在不断的刷新.互联网成为人学习和娱乐的主要工具,目前每个人上网时间达到2小时以上,分析和监控用户的上网类型,称为一个新的趋势.

依据人工方式来分类显然不可能的,因为网站数量大,人工分类主观意识强,影响分类的准确性与真实性.因此有必要建立依据自然语言处理的和爬虫技术对海量的网站进行自动化分类,并保存分类结果.分类结果供其他场景使用.

基于分类的数目又可以分成二元分类和多级分类。基于分配给每个例子的分类的数目, 又可分为单标签分类和多标签分类。如果是多级分类,比如一个四级分类,艺术,商业, 计算机和运动,它可以为单标签,同时也可以是多标签,即一个例子可以属于一个,两个 或所有的类别。

需求

客户用防火墙想控制墙内用户访问哪些方面的网页进行监控管理,这就意味着要对存量的网站进行分类,方便客户对某一类站点进行阻断,比如,对色情网站进行阻断. 实现的思路:通过爬虫的方式对存量的网页进行信息获取,采用自然语言处理的技术,对爬取的url进行分类,并存储.将分类好的站点文件,预制到防火墙内部.

方案一: 通过正文分类

  1. 采集信息:主动与被动.主动收集:主要是网络爬虫技术,从互联网中定向抓取网页集合.被动收集通过访问的流量进行采集分析.
    1. 基于文本块密度和标签路径覆盖率的网页正文抽取算法,对于web网页分类有作用的信息是文本的正文.
    2. DOM,全称 Document Object Modle,是一种专门用来处理HTML与XML文档的标准协议。 DOM可以读取HTML或者XML文档,并结构化展示出来,也可以使用DOM将HTML或XML文档解析成一颗树,并进行增删改查等基本操作。
  2. 采集的信息: 静态特征(网页今年刚泰信息,主机信息,URL信息,网页内容);动态特征:浏览器行为,网页跳转关系,注册表,文件夹

iYLIGR

t7hqNx

  1. 词向量构建

  2. 词语是语义的最小单位,如何构建词向量是语义分析和文本分类的关键.

  3. 算法方法

    1. 基于有监督的分类算法
    2. 基于聚类的识别算法

URL分类技术

  1. 一种基于文本分类与URL主域名主题词结合的URL分类;
  2. 噪声处理,网页的正文文本中有很多的噪声需要处理,这个时候需要处理噪声,比如去除停用词等操作;注释去除;
  3. 词向量采用word2vec来处理,可以采用开源的预训练的模型来处理词向量;