网络抓取系统

我们基于Drupal+Feeds模块实现的网络信息采集(网络爬虫)工具,包括对图片、新闻、报纸、期刊、Rss、XML等多种数据源的抓取功能。

网络抓取系统简介

本产品可以抓取互联网资讯,包括图片、问答、新闻等相关内容,也可以支持XML、CSV、RSS、JSON等任何数据源的采集和导入工作。此外,我们的平台也支持分布式扩展、水平扩展,通过对Drupal的集群,来满足大数据的应用,另外,包括容错、报警、多任务、分布式、易于扩展等优点。实现了对互联网相关信息的采集与组合,提供丰富的信息来源。

网络抓取软件解决了信息单纯依靠人工进行所生产的工作效率低、采集内容有限、错误率高等问题。

在技术实现上,我们采用统一的技术架构,分为:数据采集器、内容分析器、内容处理器和数据管理展示,四个部分。信息采集流程如下图所示:

 
 

网络抓取系统应用场景

网络抓取系统正广泛应用于多媒体数据库平台的建设、文化类网站平台的建设、公共图书馆门户网站、各行业资讯平台建设等等。在案例方面,我们先后开发过多个基于网络抓取系统的成功案例:

“广东省文化E站”文化资讯平台

在广东省文化E站项目中,我们对互联网上400多个站点进行了数据抓取及数据加工。经后台统计,已采集到并发布的资源类信息共计6百多万条;广东文化类信息共计1百多万条;报纸类信息共计20多条。目前,广东省文化E站中的资讯依然在持续更新,采集获得的有效信息仍在持续增值中。

 
广东省文化E站部分资源采集列表:
 
 
 
广东省文化E站资源展示案例

资讯展示

报纸展示

 

“报图览粤—清末明初画报中的广东”多媒体数据库

我们将网络抓取系统应用于“报图览粤”项目,从互联网上采集了数万条相关补充数据,丰富了“报图览阅”多媒体数据库的内容。采集到的数据展示效果,如下所示:

 
 

“阳江图书馆”门户网站

我们为阳江图书馆门户网站建设阳江资讯栏目,有针对性的采集了大量最新的阳江要闻、阳江资讯,并进行了数据分类、加工。呈现给读者:

 

网络抓取系统主要功能

采集源管理

可对需采集信息的站点进行统一管理,可添加新站点、删除过时的采集站点。可对采集源进行参数设置,如:采集时间、采集数量、关键词、地址、采集数据格式设置等。目前,我们支持抓取HTML、XML/RSS、CSV、JSON等多种通用数据格式,也支持自定义数据格式。

采集信息管理

可对采集到的信息进行加工,包含对采集结果进行分类、编辑、审核、发布、删除、存储位置设置等操作。我们还提供采集结果测试功能,可对采集到的数据信息进行测试,便于快速检查采集到的内容是否正确。

产品主要优势

  • 可对站点的配置内容进行快速导出、导入,能对个站点进行快速配置。
  • 易于集成:可集成在任何系统上。
  • 基于Drupal结构的扩展,因此包含海量的开源模块。
 

集群抓取系统拓扑图