SiteFactory版本如何进行文章采集

作者:WASLEE 来源:动易官方论坛 点击数: 发布时间:2008年05月30日

 

1.登陆后台 点击 ”内容管理” 在选择 “采集管理”。

图片点击可在新窗口打开查看此主题相关图片如下:


2.在“采集管理向导”中选择 “添加采集项目”。

图片点击可在新窗口打开查看此主题相关图片如下:


3.采集项目设置 这里我们以采集亿讯网络学院中的c#板块为例子

 

图片点击可在新窗口打开查看此主题相关图片如下:
 

注:编码选择 为我们提供了三种编码方式(指的是将要采集的网站的编码)。怎么样才能知道将要采集网站的编码方式呢?答案是查看对方的源代码。

亿讯网络 >> 学院 >> 程序开发 >> C#语言


上面的代码一看就明白对方采用的是GB2312那么我在这里也选择GB2312。

 

4.列表页采集设置 

  4.1获取列表页


图片点击可在新窗口打开查看此主题相关图片如下:

点击“测试列表”按钮 左边的源码文本框中按照规则截取相应的源代码。

图片点击可在新窗口打开查看此主题相关图片如下:


  4.2获取连接


图片点击可在新窗口打开查看此主题相关图片如下:
 

图片点击可在新窗口打开查看此主题相关图片如下:

 

点击“测试连接”按钮 左边的源码文本框中按照规则截取相应的源代码

 

4.3分页设置

图片点击可在新窗口打开查看此主题相关图片如下:


5.内容页采集设置 我在这里只举例设置文章标题跟文章内容其他选项大家可以根据自己的需要自行设置。

   5.1 获取文章的标题


图片点击可在新窗口打开查看此主题相关图片如下:


图片点击可在新窗口打开查看此主题相关图片如下:

 

在列表中选择 “标题”列 使用采集规则 点击“设置采集规则”按钮设置好字段开始结束代码后 点击 测试字段 左边的源代码文本框中 显示结果 标题设置完毕。

 

5.2获取文章内容设置

在列表中选择 “文章内容”列 使用采集规则 点击“设置采集规则”按钮


图片点击可在新窗口打开查看此主题相关图片如下:


图片点击可在新窗口打开查看此主题相关图片如下:


设置好字段开始结束代码,大家可以根据自己网站的需要选择过滤参数。点击 测试字段 左边的源代码文本框中 显示结果 文章内容设置完毕。

注:在匹配获取文章内容时可以通过选择左方下拉列表中的网页列表来分析文章内容选择合适的字段开始结束标记。以求达到完美。


图片点击可在新窗口打开查看此主题相关图片如下:


6.项目采集

在采集管理向导中 选择“开始采集” 选中要采集的项目 点击“开始采集”按钮 采集系统就开始运行了。


图片点击可在新窗口打开查看此主题相关图片如下:


图片点击可在新窗口打开查看此主题相关图片如下: