文化E站资源抓取中心系统

为广东省文化E站项目搭建资源服务中心管理系统,通过对互联网信息进行采集、数据整理与发布,以获得丰富的数字资源展示。

 

案例介绍

为广东省文化E站项目搭建资源服务中心管理系统,通过对互联网信息进行采集、数据整理与发布,以获得丰富的数字资源展示。该项目共对400多个站点进行信息采集,经后台统计,已采集到并已发布的资源类信息共计400,000多条;广东文化类信息共计100,000多条;报纸内信息共计170,000多条。资源服务中心具体内容如图表所示:

 
 
互联网资讯采集内容如图所示:
 
目前,文化E站中的资讯依然在持续更新,采集获得的有效信息仍在持续增长中。
 

文化E站资源服务中心管理系统主要功能及特点包括:

  • 采集源管理、采集信息管理功能。(含添加、删除、设置等功能)
  • 配置管理功能模块(包含对采集站点、采集信息的配置)
  • 采集结果测试功能
  • 信息采集配置的导出与迁移
  • 抓取来源:包含HTML、XML/RSS、CSV、JSON等。
  • 采集结果加工(对结果进行分类、审核等)
  • 基于Drupal结构的扩展(含海量的开源模块)
  • 易于集成(可集成到任何系统上)
 

案例图示