晓安网络抓取系统操作指南

晓安网络抓取软件主要以抓取互联网资讯为主,基于Drupal系统,目前已经开放源代码,请大家到drupal官方网站查看:https://www.drupal.org/project/ccloud_feeds

晓安网络抓取系统主要包括以下四大主要功能栏目,分别为:用户管理栏目、信息采集及管理栏目、抓取信息配置栏目已经测试采集结果栏目。各栏目功能及操作流程如下:

  • 一、用户管理栏目 

① 用户登录:管理系统必须使用系统管理员账号登录方能使用,在系统首页左侧用户登录面板或者访问“/user”路径均可登录。登录成功,页面显示如下:

<图1>

② 添加用户:用户登录成功后,点击页面上方系统菜单中的“人员”,“添加用户”即可进入添加用户界面,如下图所示:

<图2>

在<图2>页面,填写相关信息后,点击“创建新账号”即可成功添加用户。

③ 用户权限管理:在<图2>页面,点击页面右上角的“权限”权限按钮,即可对用户权限进行管理,具体的用户权限请按需要进行设置。用户权限管理界面如下:

<图3>

  • 二、信息采集及管理栏目 

信息采集的过程主要分为:创建内容类型及导入器、配置内容类型、配置导入器,创建导入源信息、测试采集结果,首先,如果创建内容类型及导入器的具体操作步骤如下:(注:采集软件内已附带一个配置好的例子(第一新闻网 – 要闻)供测试及参考)

用户登录成功后,点击系统菜单的“创建”即可进入快速创建内容类型及导入器的界面。填写名称及关键字,点击“创建”即可。本操作页面如下图所示:

<图4>

内容类型创建成功,页面显示如下:

<图5>

  • 三、配置抓取信息栏目 

① 配置内容内心:在内容类型及导入器创建成功后,点击内容类型的链接即可跳转到相应页面,页面如下图所示:

<图6>

在<图6>页面上,可以按需要进行配置,如对字段进行编辑、新增字段、删除字段等。

② 配置导入器(importer):在内容类型及导入器创建成功后,点击导入器的链接即可跳转到相应页面。如下图所示

<图7>

以新闻类为例,共有两个importer,其中一个为新闻列表获取的importer,另一个为单个新闻内容采集的importer,两者的设置步骤类似。下面以新闻列表importer为例解释配置步骤:

第一步:在<图7>中,点击左侧“基本设置”区块下的“设置”按钮,配置基本设置。主要为“关联到内容类型”及“周期性导入”两项。

第二步:在<图7>中,点击左侧“提取器”右边的“更改”,可选择获取数据来源的方法:通过文件上传、通过HTTP请求。选择不同的方法,其“设置”页面会相应显示不同的配置项。如下图所示:

<图8>

注意:请使用HTTP Fetcher (CCloud),它基于 HTTP Fetcher,增加了针对中文编码、正文内容翻页等功能。

第三步:在<图7>中,点击左侧“提取器”右边的“更改”,可选择解析提取器获取到的数据的方法。选择不同的方法,其“设置”页面会相应显示不同的配置项。

第四步:在<图7>中,点击左侧“处理器”右边的“更改”,可选择数据使用方法(保存成内容、用户、术语)。选择不同的方法,其“设置”页面会相应显示不同的配置项。点击“映射”,可对保存字段的对应关系进行配置。

第五步:在<图7>中,页面右方的菜单“Tamper”,可对保存前的数据进行预处理