网络抓取系统 | 晓安科技

网络抓取系统

我们基于Drupal+Feeds模块实现的网络信息采集（网络爬虫）工具，包括对图片、新闻、报纸、期刊、Rss、XML等多种数据源的抓取功能。

网络抓取系统简介

本产品可以抓取互联网资讯，包括图片、问答、新闻等相关内容，也可以支持XML、CSV、RSS、JSON等任何数据源的采集和导入工作。此外，我们的平台也支持分布式扩展、水平扩展，通过对Drupal的集群，来满足大数据的应用，另外，包括容错、报警、多任务、分布式、易于扩展等优点。实现了对互联网相关信息的采集与组合，提供丰富的信息来源。

网络抓取软件解决了信息单纯依靠人工进行所生产的工作效率低、采集内容有限、错误率高等问题。

在技术实现上，我们采用统一的技术架构，分为：数据采集器、内容分析器、内容处理器和数据管理展示，四个部分。信息采集流程如下图所示：

网络抓取系统应用场景

网络抓取系统正广泛应用于多媒体数据库平台的建设、文化类网站平台的建设、公共图书馆门户网站、各行业资讯平台建设等等。在案例方面，我们先后开发过多个基于网络抓取系统的成功案例：

“广东省文化E站”文化资讯平台

在广东省文化E站项目中，我们对互联网上400多个站点进行了数据抓取及数据加工。经后台统计，已采集到并发布的资源类信息共计6百多万条；广东文化类信息共计1百多万条；报纸类信息共计20多万条。目前，广东省文化E站中的资讯依然在持续更新，采集获得的有效信息仍在持续增值中。

广东省文化E站部分资源采集列表：

广东省文化E站资源展示案例

“报图览粤—清末明初画报中的广东”多媒体数据库

我们将网络抓取系统应用于“报图览粤”项目，从互联网上采集了数万条相关补充数据，丰富了“报图览阅”多媒体数据库的内容。采集到的数据展示效果，如下所示:

“阳江图书馆”门户网站

我们为阳江图书馆门户网站建设阳江资讯栏目，有针对性的采集了大量最新的阳江要闻、阳江资讯，并进行了数据分类、加工。呈现给读者：

网络抓取系统主要功能

可对需采集信息的站点进行统一管理，可添加新站点、删除过时的采集站点。可对采集源进行参数设置，如：采集时间、采集数量、关键词、地址、采集数据格式设置等。目前，我们支持抓取HTML、XML/RSS、CSV、JSON等多种通用数据格式，也支持自定义数据格式。

可对采集到的信息进行加工，包含对采集结果进行分类、编辑、审核、发布、删除、存储位置设置等操作。我们还提供采集结果测试功能，可对采集到的数据信息进行测试，便于快速检查采集到的内容是否正确。

可对站点的配置内容进行快速导出、导入，能对个站点进行快速配置。
易于集成：可集成在任何系统上。
基于Drupal结构的扩展，因此包含海量的开源模块。

集群抓取系统拓扑图

点击这里给我发消息

QQ交谈客服1

点击这里给我发消息

QQ交谈客服2

联系我们

合作伙伴

相关产品