互联网迅速发展,根据google的公布数据,目前索引的独立页面超过一万亿,并且这个数字还在不断的刷新.互联网成为人学习和娱乐的主要工具,目前每个人上网时间达到2小时以上,分析和监控用户的上网类型,称为一个新的趋势.
依据人工方式来分类显然不可能的,因为网站数量大,人工分类主观意识强,影响分类的准确性与真实性.因此有必要建立依据自然语言处理的和爬虫技术对海量的网站进行自动化分类,并保存分类结果.分类结果供其他场景使用.
基于分类的数目又可以分成二元分类和多级分类。基于分配给每个例子的分类的数目, 又可分为单标签分类和多标签分类。如果是多级分类,比如一个四级分类,艺术,商业, 计算机和运动,它可以为单标签,同时也可以是多标签,即一个例子可以属于一个,两个 或所有的类别。
通过浏览网页快速获取信息已经深入你我的工作和生活。但是互联网本身是不安全的,网络资源在带给我们便利的同时,也带给我们前所未有的威胁。威胁包括网络安全层面的,也包括随意使用网络对业务造成的影响:
因此必须对上网行为进行管控,URL过滤就是解决以上问题的方法之一,可通过限制用户访问的URL达到限制网页访问的目的。管理员可以按网站分类禁止访问钓鱼、社交、视频类网站;还可以指定禁止或允许访问的具体URL。
客户用防火墙想控制墙内用户访问哪些方面的网页进行监控管理,这就意味着要对存量的网站进行分类,方便客户对某一类站点进行阻断,比如,对色情网站进行阻断. 实现的思路:通过爬虫的方式对存量的网页进行信息获取,采用自然语言处理的技术,对爬取的url进行分类,并存储.将分类好的站点文件,预制到防火墙内部.
您可以使用 URL 筛选功能来检测和实施合规性策略,以阻止违反公司合规性的站点。这些站点可能是成人、流媒体、社交网络等站点,它们可能被视为非生产力或在企业网络中消耗过多的互联网带宽。阻止访问这些网站可以提高员工的生产力,降低带宽使用的运营成本,并降低网络消耗的开销。
