快捷導(dǎo)航

batchcollect pagecollect來自官方杰奇jieqi定時(shí)采集配置方法參數(shù)詳解第1/2頁

更新時(shí)間：2008年07月11日 08:44:35 作者：

主要的功能頁面為pagecollect.php和batchcollect.php要實(shí)現(xiàn)采集，默認(rèn)方式是根據(jù)配置好的采集規(guī)則，在瀏覽器提交相應(yīng)的參數(shù)即可完成后面的采集入庫全部動作。

前言

要實(shí)現(xiàn)采集，默認(rèn)方式是根據(jù)配置好的采集規(guī)則，在瀏覽器提交相應(yīng)的參數(shù)即可完成后面的采集入庫全部動作。
而實(shí)現(xiàn)定時(shí)采集，與人工在瀏覽器提交有些區(qū)別，主要分兩大步驟：
一、編寫采集的url和相關(guān)參數(shù)，訪問這個(gè)url即可實(shí)現(xiàn)想要的采集模式。（這個(gè)url直接在瀏覽器提交同樣可以實(shí)現(xiàn)采集）
二、把定時(shí)訪問這個(gè)url的功能加到系統(tǒng)的定時(shí)任務(wù)里面，實(shí)現(xiàn)無人值守的定時(shí)采集。

具體實(shí)現(xiàn)方法請參考下面內(nèi)容：

1、對采集配置文件的解釋

任何一個(gè)采集都會用到兩個(gè)采集配置文件（跟后臺采集規(guī)則配置對應(yīng)），都可以用文本編輯器打開查看。
其中 /configs/article/collectsite.php 是對總的采集站點(diǎn)配置，記錄了一共允許采集哪幾個(gè)站點(diǎn)。
里面包含類似這樣的內(nèi)容：

$jieqiCollectsite['1']['name'] = '采集站點(diǎn)一';
$jieqiCollectsite['1']['config'] = 'abc_com';
$jieqiCollectsite['1']['url'] = 'http://www.abc.com';
$jieqiCollectsite['1']['subarticleid'] = 'floor($articleid/1000)';
$jieqiCollectsite['1']['enable'] = '1';

$jieqiCollectsite['2']['name'] = '采集站點(diǎn)二';
$jieqiCollectsite['2']['config'] = 'def_net';
$jieqiCollectsite['2']['url'] = 'http://www.def.net';
$jieqiCollectsite['2']['subarticleid'] = '';
$jieqiCollectsite['2']['enable'] = '1';

參數(shù)含義解釋如下：
['1'] - 這里的 1 表示采集網(wǎng)站的數(shù)字序號，不同的采集站序號不能重復(fù)。
['name'] - 采集網(wǎng)站名稱。
['config'] - 網(wǎng)站英文標(biāo)識，這個(gè)網(wǎng)站采集規(guī)則配置文件有關(guān)，比如這個(gè)值是 abc_com ，那么采集規(guī)則配置文件就是 /configs/article/site_abc_com.php。
['url'] - 采集網(wǎng)站網(wǎng)址。
['subarticleid'] - 采集網(wǎng)站，文章子序號運(yùn)算方式，本項(xiàng)目主要為了兼容以前程序，新版本里面文章子序號可以通過采集獲得。
['enable'] - 是否允許采集，1 表示允許，0 表示禁止，默認(rèn)為 1。

如前面所說，每個(gè)采集網(wǎng)站有個(gè)專門的采集規(guī)則配置文件，/configs/article/ 目錄下以 site_ 開頭的php文件，如 /configs/article/site_abc_com.php。

里面內(nèi)容都與后臺采集規(guī)則設(shè)置相對應(yīng)，具體細(xì)節(jié)不一一解釋。需要了解的是本文件里面內(nèi)容分兩大部分，前面內(nèi)容都是對網(wǎng)站內(nèi)容采集規(guī)則的配置，而最后面 $jieqiCollect['listcollect']['0']，$jieqiCollect['listcollect']['1'] 這樣的設(shè)置是對網(wǎng)站"批量采集規(guī)則"的配置，比如按最近更新采集、按排行榜采集，可以設(shè)置多個(gè)。['0'] 這里的數(shù)字 0 表示批量采集類別的數(shù)字序號，同一個(gè)網(wǎng)站也不能重復(fù)。

2、編寫采集內(nèi)容的url及參數(shù)

這里的采集是針對多篇文章批量采集，分兩種模式：
一、按頁面批量采集，比如采集最新更新列表或者排行榜列表，每個(gè)鏈接采集一頁。
鏈接格式如下：

http://chabaoo.cn/modules/article/admin/pagecollect.php?action=collect&siteid=1&collectname=0&startpageid=1&maxpagenum=1&notaddnew=0&jieqi_username=admin&jieqi_userpassword=1234

參數(shù)含義解釋如下：
chabaoo.cn - 是指您的網(wǎng)址。
action - 字符串，程序執(zhí)行的動作命令，固定值為 collect。
siteid - 數(shù)字類型，要采集的網(wǎng)站序號，具體哪個(gè)網(wǎng)站對應(yīng)什么序號見配置文件collectsite.php。
collectname - 數(shù)字類型，按頁面批量采集的類別序號，見配置文件site_xxxx.php里面下面的。$jieqiCollect['listcollect']['0'] 這樣配置的數(shù)字。
startpageid -- 頁碼標(biāo)志，表示從列表的第幾頁開始采集。一般是數(shù)字類型，有些網(wǎng)站也可能是字符串。
maxpagenum -- 數(shù)字類型，表示表示一共采集幾頁。（默認(rèn)為 1 ，如果要采集多頁，是需要瀏覽器跳轉(zhuǎn)的，只有在windows環(huán)境下調(diào)用瀏覽器時(shí)候有效，linux下調(diào)用wget時(shí)候最多只能采集一頁，需要采集多頁可設(shè)置多個(gè)采集命令。）
notaddnew -- 數(shù)字類型，0-表示采集全部文章，1-表示只更新本站已有的文章。
jieqi_username - 字符串，用戶名(這個(gè)用戶必須是本站有權(quán)限采集的用戶)。
jieqi_userpassword - 字符串，用戶密碼。

二、按照文章序號批量采集
鏈接格式如下：
http://chabaoo.cn/modules/article/admin/batchcollect.php?action=bcollect&siteid=1&batchids=123,234,345&jieqi_username=admin&jieqi_userpassword=1234

參數(shù)含義解釋如下：
chabaoo.cn - 是指您的網(wǎng)址。
action - 字符串，程序執(zhí)行的動作命令，固定值為 bcollect。
siteid - 數(shù)字類型，要采集的網(wǎng)站序號，具體哪個(gè)網(wǎng)站對應(yīng)什么序號見配置文件collectsite.php。
batchids - 要采集的對方網(wǎng)站文章序號（不是本地的文章序號），采集多個(gè)文章，序號用英文逗號分開，如 123,234,345。
jieqi_username - 字符串，用戶名(這個(gè)用戶必須是本站有權(quán)限采集的用戶)。
jieqi_userpassword - 字符串，用戶密碼。

注：一個(gè)url需要放到IE瀏覽器里面提交的時(shí)候，整個(gè)url最大長度度不要超過2083字節(jié)，所以一般建議這里的url不要設(shè)置成太長，文章多的可以拆分成多個(gè)url。

3、利用系統(tǒng)任務(wù)實(shí)現(xiàn)定時(shí)采集

一、windows環(huán)境下做法

windows里面可以用系統(tǒng)的任務(wù)計(jì)劃來實(shí)現(xiàn)定時(shí)執(zhí)行程序，不過首先需要制作一個(gè)批處理文件，在這個(gè)文件里面用命令來調(diào)用瀏覽器來執(zhí)行采集url。需要注意的是命令只能打開瀏覽器而不會采集好之后自動關(guān)閉，要實(shí)現(xiàn)采集完自動關(guān)閉可以通過javascript實(shí)現(xiàn)。自動關(guān)閉本窗口的js代碼為：

<script language="javascript"> self.opener=null; setTimeout("window.close();", 3000); </script>

這里的參數(shù) 3000 是指延遲關(guān)閉時(shí)間，單位是毫秒，3000表示延遲3秒關(guān)閉。
這段代碼可以在兩個(gè)地方加入：

一個(gè)是加入到提示信息模板 /themes/風(fēng)格名稱/msgwin.html 里面，<body>和</body>之間加入上面那段js。這樣的效果是整個(gè)系統(tǒng)任何提示信息頁面都會在3秒鐘后自動關(guān)閉。

如果您希望僅僅自動關(guān)閉采集成功后的提示頁面，可以在采集提示信息的語言包里面加入以上javascript，這個(gè)配置文件是 /modules/article/lang/lang_collect.php，里面 $jieqiLang['article']['batch_collect_success'] 是采集成功的提示信息，這個(gè)值原來是：

'恭喜您，全部文章采集完成！';

改成下面這樣即可自動關(guān)閉

'恭喜您，全部文章采集完成！<script language="javascript"> self.opener=null; setTimeout("window.close();", 3000); </script>';

12 下一頁閱讀全文

您可能感興趣的文章: