SiteFactory版本如何进行文章采集
1.登陆后台 点击 ”内容管理” 在选择 “采集管理”。
此主题相关图片如下:
2.在“采集管理向导”中选择 “添加采集项目”。
此主题相关图片如下:
3.采集项目设置 这里我们以采集亿讯网络学院中的c#板块为例子
此主题相关图片如下:
注:编码选择 为我们提供了三种编码方式(指的是将要采集的网站的编码)。怎么样才能知道将要采集网站的编码方式呢?答案是查看对方的源代码。
上面的代码一看就明白对方采用的是GB2312那么我在这里也选择GB2312。
4.列表页采集设置
4.1获取列表页
此主题相关图片如下:
点击“测试列表”按钮 左边的源码文本框中按照规则截取相应的源代码。
此主题相关图片如下:
4.2获取连接
此主题相关图片如下:
此主题相关图片如下:
点击“测试连接”按钮 左边的源码文本框中按照规则截取相应的源代码
4.3分页设置
此主题相关图片如下:
5.内容页采集设置 我在这里只举例设置文章标题跟文章内容其他选项大家可以根据自己的需要自行设置。
5.1 获取文章的标题
此主题相关图片如下:
此主题相关图片如下:
在列表中选择 “标题”列 使用采集规则 点击“设置采集规则”按钮设置好字段开始结束代码后 点击 测试字段 左边的源代码文本框中 显示结果 标题设置完毕。
5.2获取文章内容设置
在列表中选择 “文章内容”列 使用采集规则 点击“设置采集规则”按钮
此主题相关图片如下:
此主题相关图片如下:
设置好字段开始结束代码,大家可以根据自己网站的需要选择过滤参数。点击 测试字段 左边的源代码文本框中 显示结果 文章内容设置完毕。
注:在匹配获取文章内容时可以通过选择左方下拉列表中的网页列表来分析文章内容选择合适的字段开始结束标记。以求达到完美。
此主题相关图片如下:
6.项目采集
在采集管理向导中 选择“开始采集” 选中要采集的项目 点击“开始采集”按钮 采集系统就开始运行了。
此主题相关图片如下:
此主题相关图片如下: