找回密码
 注册
广告投放 虚位以待【阿里云】2核2G云新老同享 99元/年,续费同价做网站就用糖果主机-sugarhosts.comJtti.com-新加坡服务器,美国服务器,香港服务器
查看: 2673|回复: 24

火车头采集图文教程.因为有人要.所以做了下.

[复制链接]
发表于 2006 年 3 月 29 日 13:05:29 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
首先说一下我对于采集器工作的原理认识(不一定正确.但这是我自己的理解~)

我认为采集器工作的原理是这样的:

一、获取采集地址

二、进行源代码分析

三、提取所需部分

四、导出所需内容到相应地方

上面就是我对于采集器的认识.大家也可以自己理解下工作原理.了解工作原理对于使用起来绝对有好处~

下面就开始进入正题.首先是火车头的下载.火车头的官方地址是: http://www.locoy.com

在那里下载最新版本吧~我使用的是最新版本 V1.2.0

下载完成后解压到任何一个文件夹.

然后打开火车头开始进行采集之路~

首先要确定目标~偶本来想用金光做为教程目标的...但是又怕被XX...所以..就不用金光了..

就俺的站吧: http://bbs.ayiy.com (也就顺便AD下啦...)

首先分析一下我的站.其中有三个版块是认证版块.也就是需要登陆才可以看到.有一个版块是版主版块.那要版主

以上才可以进去~所以那个版块就不用想了.

我先说下游客可看的版块采集方法.这是最简单的采集方法.

首先打开采集器.按照我刚才分析的采集器工作原来来进行采集.

一、获取采集地址
确定要采集的版块.比如"在线电影".版块地址为: http://bbs.ayiy.com/forum-18-1.html

在火车头里填上版块地址,并设置连接参数.首先是连接地址中必须包含: 我填: thread-

不得包含: 这里不填   页面内选定区域采集网址从: 论坛主题    到: Powered by


                               
登录/注册后可看大图


现在来分析下参数设置.网页地址: 也就是版块地址.填上这个以后火车头就会在所填的网页中分析提取所需要采

集的地址.连接地址中必须包含: 这个是为了分析提取而定的.因为论坛里所有帖子其中都包括了thread-这段URL.

所以我填了这个.也许你会说.为为什么不填http://bbs.ayiy.com呢?原因是后面还有用户名也

包含了http://bbs.ayiy.com.不得包含中我没有填.因为没必要填.大家可以根据实际情况来填写不包含的内容.

页面内选定区域采集网址从: 这里的意思是提取区域是从哪里开始?因为我并不想提取到置顶贴子.

所以我选定区域从填为: 论坛主题 大家仔细看下就知道了.论坛主题 几个字是在置顶贴下面的.

到我填了 Powered by 也就是提取区域一直提取到 Powered by 这几个字那里.

下面点击"采集连接".接着稍等片刻就可以看到连接已经被采集到了


                               
登录/注册后可看大图


在右下角那里有个"保存名称".我们给这些URL取个名字.比如:"在线电影" 然后点击保存全部.

(注意: 保存的名字不可以是数字开头的.否则你保存不了.还有不要有特殊字符.否则可能会出错.)


                               
登录/注册后可看大图


点击保存后会告诉你保存成功


                               
登录/注册后可看大图


现在我们点标签页上的"全局配置"进入下一步

二、设置采集参数属性

进入"全局配置".先加一个采集规则(采集规则就是采集网页时的提取规则).

点击左边的新建规则进入规则编辑窗口.


                               
登录/注册后可看大图



                               
登录/注册后可看大图


标记标题提取参数.

鼠标选中规则编辑页中的标题编辑标签.


                               
登录/注册后可看大图


然后点旁边的修改标签进行标签修改.


                               
登录/注册后可看大图


现在我们打开任何一篇帖子.如: http://bbs.ayiy.com/thread-1710-1-1.html

查看源代码.确定帖子标题所在代码段.


  1. <title>哎呀爱呀娱乐网   - 在线电影 - [06.03.28] 网络红人陆风哥哥之撞鬼 - powered by Discuz!</title>
复制代码


帖子标题就在这里.

回到火车头.进行如下填写:


                               
登录/注册后可看大图


具体意思我就不说了.大家自己分析下吧.

填好后点确定进行保存.

现在我们来测试下标题是否能够正常获取.

在右方有个页面测试.在后面输入帖子地址: http://bbs.ayiy.com/thread-1710-1-1.html 然后点开始.

结果出现在了下面


                               
登录/注册后可看大图


恩,不错.标题已经成功获取了.

现在来设置内容.

同样鼠标选中内容标签.然后点击修改标签.

接着打开帖子源代码.确定内容代码所在范围.

找到如下:


  1. <span class="smalltxt"><span class="bold">[06.03.28] 网络红人陆风哥哥之撞鬼</span></span><br><br>
  2. <span style="font-size: 12px"><object height="400" width="500" classid="CLSID:6BF52A52-394A-11d3-B153-00C04F79FAA6" align="center" border="0"><param name="AutoStart" value="0"><param name="Balance" value="0"><param name="enabled" value="-1"><param name="EnableContextMenu" value="-1"><param name="url" value="http://www.etownshop.com/bbs200603/0B1143355356776.wmv"><param name="PlayCount" value="1"><param name="rate" value="1"><param name="currentPosition" value="0"><param name="currentMarker" value="0"><param name="defaultFrame" value=""><param name="invokeURLs" value="0"><param name="baseURL" value=""><param name="stretchToFit" value="0"><param name="volume" value="100"><param name="mute" value="0"><param name="uiMode" value="mini"><param name="windowlessVideo" value="0"><param name="fullScreen" value="0"><param name="enableErrorDialogs" value="-1"><param name="SAMIStyle" value><param name="SAMILang" value><param name="SAMIFilename" value><param name="captioningID" value></object></span>
复制代码


这就是完整的内容代码.但是..我们并不需要完整的.我们的最主要目的就是得到帖子中的视频地址.

经过分析后我就把代码范围定在了这里:


  1. </span></span><br><br>
  2. <span style="font-size: 12px"><object height="400" width="500" classid="CLSID:6BF52A52-394A-11d3-B153-00C04F79FAA6" align="center" border="0"><param name="AutoStart" value="0"><param name="Balance" value="0"><param name="enabled" value="-1"><param name="EnableContextMenu" value="-1"><param name="url" value="http://www.etownshop.com/bbs200603/0B1143355356776.wmv"><param name="PlayCount" value="1"><param name="rate" value="1"><param name="currentPosition" value="0"><param name="currentMarker" value="0"><param name="defaultFrame" value=""><param name="invokeURLs" value="0"><param name="baseURL" value=""><param name="stretchToFit" value="0"><param name="volume" value="100"><param name="mute" value="0"><param name="uiMode" value="mini"><param name="windowlessVideo" value="0"><param name="fullScreen" value="0"><param name="enableErrorDialogs" value="-1"><param name="SAMIStyle" value><param name="SAMILang" value><param name="SAMIFilename" value><param name="captioningID" value></object></span>
复制代码


现在去修改标签里填上开始字符串为: </span></span><br><br>   结束字符串为: </span>

如果你的论坛支持HTML发贴的话.那么我想这样就可以了..但是如果不支持的话.那么就需要再设置替换及过滤等.

大家自己尝试修改了看下.我就写这种支持HTML的吧..

结果如下:


                               
登录/注册后可看大图


再测试.正确了~


                               
登录/注册后可看大图


现在我们需要的东西都取到了..可以保存规则了~~

左下角给规则取个名字.如: 在线电影 (命名规则和URL命名规则一样)

点击保存添加既可.

保存后关闭标签修改页.

回到全局配置.在规则侧点刷新列表显示出新建的规则.并选中.右侧选中刚才获取的URL列表


                               
登录/注册后可看大图


点击标签页上的"登陆发表"进入发贴页面.

三、发表帖子

选择发表系统类型: 在选择系统代码类型模块中选择你的论坛或者CMS的类型.

如我的是DZ(自己修改的适合我自己的DZ4.1的模块).

若没有适合自己所使用的模块.大家也可以自己制作一个.按照原模块根据需要修改下就可以了~


                               
登录/注册后可看大图


填上页面地址和用户名及密码

页面地址既为论坛地址.不要加任何东西.如你的论坛登陆页为http://yoursite.com/login.php

那么你填的页面地址就应该为: http://yoursite.com  不要加 /

用户名和密码就填大家自己的管理员名和密码

这里有一个问题.就是有的帐号是需要用安全提问和答案才可以进入的.

我的管理号也一样.但是火车头中又没有这个功能.那么就只有修改登陆模块.

我使用的就是自己修改的~其实修改很简单.只要使用工具截取登陆的POST信息来修改下就可以了.

设置后结果如下:


                               
登录/注册后可看大图


设置确定没问题后就点击登陆.

若登陆正常则会出现这样的提示


                               
登录/注册后可看大图


若出现其他请检查设置.

登陆成功后请点击下面的刷新列表


                               
登录/注册后可看大图


刷新成功后可在列表中看到自己的论坛版块


                               
登录/注册后可看大图


若刷新不成功请检查下自己的设置.或者伪造个COOKIE试试.

成功后选择需要发表到的版块.因为我是做教程.所以我就选择版主版块来发.这样不会影响到其他用户正常看贴.


                               
登录/注册后可看大图


选择好后在右上角选择发贴方式.我选择UBB类型发贴.大家也可以选择HTML~按照自己的情况看啦~

如果你想让帖子倒序发表.请选择倒序发表.我选择上.


                               
登录/注册后可看大图


全部设置好...我们就可以点发表了~点击后会弹出一个窗口来显示进度.


                               
登录/注册后可看大图


发表完成后就可以关闭这个进度窗口了.

现在可以去看下自己的成果了~


还有一些其他的情况比如需要登陆才可以获取帖子地址和内容等.这些我会在以后再更新的~现在就先弄到这里~

[ 本帖最后由 伤心♂o○ 于 2006-3-29 13:11 编辑 ]

评分

参与人数 4兑换券 +14 威望 +1 收起 理由
kuangmin + 10
姜运涛 + 1 + 1 原创内容 试下评分功能 呵呵
oghuz + 2

查看全部评分

Jgwy.Com - Free Web Hosting Guide & Directory In China since 2001! Jgwy.Net-Jglt.Net
发表于 2006 年 3 月 29 日 13:05:48 | 显示全部楼层
【腾讯云】2核2G云服务器新老同享 99元/年,续费同价
累啊..
Jgwy.Com - Free Web Hosting Guide & Directory In China since 2001! Jgwy.Net-Jglt.Net
回复

使用道具 举报

发表于 2006 年 3 月 29 日 13:06:07 | 显示全部楼层
没有用过啊!!
Jgwy.Com - Free Web Hosting Guide & Directory In China since 2001! Jgwy.Net-Jglt.Net
回复

使用道具 举报

发表于 2006 年 3 月 29 日 13:09:08 | 显示全部楼层
看都把人看死
Jgwy.Com - Free Web Hosting Guide & Directory In China since 2001! Jgwy.Net-Jglt.Net
回复

使用道具 举报

 楼主| 发表于 2006 年 3 月 29 日 13:12:27 | 显示全部楼层
郁闷...老大没弄自动贴图...害我又重新编辑了一遍
Jgwy.Com - Free Web Hosting Guide & Directory In China since 2001! Jgwy.Net-Jglt.Net
回复

使用道具 举报

发表于 2006 年 3 月 29 日 13:13:56 | 显示全部楼层
不错的文章,收藏了。
Jgwy.Com - Free Web Hosting Guide & Directory In China since 2001! Jgwy.Net-Jglt.Net
回复

使用道具 举报

 楼主| 发表于 2006 年 3 月 29 日 13:17:21 | 显示全部楼层
【腾讯云】2核2G云服务器新老同享 99元/年,续费同价
写得累死我了.....哎...没几人顶...没人加分....哭呀....
Jgwy.Com - Free Web Hosting Guide & Directory In China since 2001! Jgwy.Net-Jglt.Net
回复

使用道具 举报

发表于 2006 年 3 月 29 日 13:18:27 | 显示全部楼层
虽然我不用
给你加1分奖励
Jgwy.Com - Free Web Hosting Guide & Directory In China since 2001! Jgwy.Net-Jglt.Net
回复

使用道具 举报

发表于 2006 年 3 月 29 日 13:19:37 | 显示全部楼层
顶下
Jgwy.Com - Free Web Hosting Guide & Directory In China since 2001! Jgwy.Net-Jglt.Net
回复

使用道具 举报

发表于 2006 年 3 月 29 日 13:31:11 | 显示全部楼层
没意思,累
Jgwy.Com - Free Web Hosting Guide & Directory In China since 2001! Jgwy.Net-Jglt.Net
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|金光论坛

GMT+8, 2025 年 2 月 2 日 11:01 , Processed in 0.023295 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表