采集管理 —— 添加新机器人

Discuz!使用问题、建议、BUG等请到论坛反馈以便获得及时帮助，大型问题建议走付费途径。

机器人即是采集器，是用来采集其他网站上的新闻用的。SupeSite 采集器功能强大，但初次接触会感觉难以上手，本文将讲解 SupeSite 的采集器，让您可根据自己的情况做采集器。

以采集 http://news.21cn.com/world/guojisaomiao/list1.shtml 为例。

一、首先简单说一下制作采集器的基本原理和思路

1、确定采集页面到 “列表页面链接” 。

2、确定在这些页面要采集的内容区域，也就是 “列表区域识别规则” 。

3、确定要采集的文章链接，也就是 “文章链接 url 识别规则” 。

4、现在真正您需要采集的范围，就是 “文章标题识别规则” 和 “文章内容识别规则” 。

5、以上 4 个步骤已经确定了采集的范围，如果您需要过滤标题和内容，请根据您的要求设置 “过滤规则” 。

以上几个步骤确定范围都是通过查看页面源码，进行设置的，截取的方法需要一些经验，建议多点右边的 “测试” 看看是否成功。

二、接下来介绍采集器的基本原理和步骤

1、后台 => 采集管理 => 添加新机器人，如图：

基本设置:

机器人名：机器人的名称。

采集总个数：采集数据最大条数。因为对方网站的网页源码不规则，很难达到这个数字。

单次采集个数：尽量设置较小的数字，以免超时。

自动导入到：可将采集到的数据导入到资讯或复制频道中。

预定义发布时间：可自定义采集数据的发布时间,不设置则以当前时间为准。

2、列表页面采集设置：

1）采集页面的 url 地址设置

采集页面的 url 地址有两种设置方法：手动输入和自动增长。手动输入需要您自己将所需采集的地址逐行输入。自动增长只需填入采集页面的地址和页面页码。用 [page] 代替分页变量。以手动输入为例，如下图所示：

2）采集页面编码

如果采集的页面和网站的不一样，需要填写下编码，你只需要点击【程序辅助识别】，把识别出来的填写到下图位置。如下图所示：

3）列表区域识别规则

在你要采集的页面中点击鼠标右键 => 查看源代码 => 找到文章链接URL区域。

文章链接 URL 区域用 [list] 表示

左边 div 或者其他标签一定要选好，这里一定要注意，文章链接 URL 区域一定要在这个 div 内，而且是最近的，独一无二的。比如：

<table width="100%" border="0" cellpadding="0" cellspacing="1" bgcolor="#FFFFFF" class="block">[list]<td height="20" colspan="3"><table width="100%" border="0" cellspacing="0" cellpadding="5">

4）文章链接 URL 识别规则

现在需要的连接，如图：

链接地址用 [url] 表示，比如：

5）文章链接 URL 补充前缀

因为连接地址中没有域名，所以要补上，比如：

http://news.21cn.com

3、内容页面采集设置

1）文章标题识别规则

点一个文章链接 => 在新打开的页面中点击鼠标右键 => 查看源代码 => 找到这篇文章的标题左右最近的标签

标题用 [subject] 表示，比如：

<h2>[subject]</h2>

2）文章内容识别规则

点一个文章链接 => 在新打开的页面中点击鼠标右键 => 查看源代码 => 找到这篇文章的内容左右最近的标签

内容用 [message] 表示，比如：

<!-- google_ad_section_start(name=content) -->[message]<!-- google_ad_section_end(name=content) -->

这样采集规则就写好了，点击提交保存。页面跳转后，点击开始采集，如下图所示：

采集的过程，如下图所示：

4、采集完毕之后，还需要更新下缓存，如下图所示：

5、如果您的采集规则正确，打开首页就可以看到你刚刚采集到的内容，如下图所示：

[1314]应用中心 Beta 版