案例介绍

中山大学Drupal网站项目是通过Drupal抓取技术实现了对中山大学校内超过90个学院、机关单位代码的抓取、网站内容更新、网站内容的同步。

本项目实现了中山大学校内网站通过静态化确保网络安全和信息安全,确保了网站内容以及源站的安全。

 

Drupal抓取技术

我们的技术团队具备丰富的数据采集经验,可实现包括图片、问答、新闻等相关内容的数据抓取,也可以支持XML、CSV、RSS、JSON等任何数据源的采集和导入工作。此外,我们的平台还支持分布式扩展、水平扩展,通过对Drupal的集群,来满足大数据的应用,另外,包括容错、报警、多任务、分布式、易于扩展等优点。实现了对互联网相关信息的采集与组合,提供丰富的信息来源。

网络抓取技术解决了信息单纯依靠人工进行所生产的工作效率低、采集内容有限、错误率高等问题。

在技术实现上,我们采用统一的技术架构,分为:数据采集器、内容分析器、内容处理器和数据管理展示,四个部分。信息采集流程如下图所示:

 

分类