亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

batchcollect pagecollect來(lái)自官方杰奇jieqi定時(shí)采集配置方法參數(shù)詳解第1/2頁(yè)

 更新時(shí)間:2008年07月11日 08:44:35   作者:  
主要的功能頁(yè)面為pagecollect.php和batchcollect.php要實(shí)現(xiàn)采集,默認(rèn)方式是根據(jù)配置好的采集規(guī)則,在瀏覽器提交相應(yīng)的參數(shù)即可完成后面的采集入庫(kù)全部動(dòng)作。
前言

要實(shí)現(xiàn)采集,默認(rèn)方式是根據(jù)配置好的采集規(guī)則,在瀏覽器提交相應(yīng)的參數(shù)即可完成后面的采集入庫(kù)全部動(dòng)作。
而實(shí)現(xiàn)定時(shí)采集,與人工在瀏覽器提交有些區(qū)別,主要分兩大步驟:
一、編寫采集的url和相關(guān)參數(shù),訪問(wèn)這個(gè)url即可實(shí)現(xiàn)想要的采集模式。(這個(gè)url直接在瀏覽器提交同樣可以實(shí)現(xiàn)采集)
二、把定時(shí)訪問(wèn)這個(gè)url的功能加到系統(tǒng)的定時(shí)任務(wù)里面,實(shí)現(xiàn)無(wú)人值守的定時(shí)采集。

具體實(shí)現(xiàn)方法請(qǐng)參考下面內(nèi)容:

1、對(duì)采集配置文件的解釋

任何一個(gè)采集都會(huì)用到兩個(gè)采集配置文件(跟后臺(tái)采集規(guī)則配置對(duì)應(yīng)),都可以用文本編輯器打開(kāi)查看。
其中 /configs/article/collectsite.php 是對(duì)總的采集站點(diǎn)配置,記錄了一共允許采集哪幾個(gè)站點(diǎn)。
里面包含類似這樣的內(nèi)容:

$jieqiCollectsite['1']['name'] = '采集站點(diǎn)一'; 
$jieqiCollectsite['1']['config'] = 'abc_com'; 
$jieqiCollectsite['1']['url'] = 'http://www.abc.com'; 
$jieqiCollectsite['1']['subarticleid'] = 'floor($articleid/1000)';
$jieqiCollectsite['1']['enable'] = '1';

$jieqiCollectsite['2']['name'] = '采集站點(diǎn)二';
$jieqiCollectsite['2']['config'] = 'def_net';
$jieqiCollectsite['2']['url'] = 'http://www.def.net';
$jieqiCollectsite['2']['subarticleid'] = '';
$jieqiCollectsite['2']['enable'] = '1';

參數(shù)含義解釋如下:
['1'] - 這里的 1 表示采集網(wǎng)站的數(shù)字序號(hào),不同的采集站序號(hào)不能重復(fù)。
['name'] - 采集網(wǎng)站名稱。
['config'] - 網(wǎng)站英文標(biāo)識(shí),這個(gè)網(wǎng)站采集規(guī)則配置文件有關(guān),比如這個(gè)值是 abc_com ,那么采集規(guī)則配置文件就是 /configs/article/site_abc_com.php。
['url'] - 采集網(wǎng)站網(wǎng)址。
['subarticleid'] - 采集網(wǎng)站,文章子序號(hào)運(yùn)算方式,本項(xiàng)目主要為了兼容以前程序,新版本里面文章子序號(hào)可以通過(guò)采集獲得。
['enable'] - 是否允許采集,1 表示允許,0 表示禁止,默認(rèn)為 1。

如前面所說(shuō),每個(gè)采集網(wǎng)站有個(gè)專門的采集規(guī)則配置文件,/configs/article/ 目錄下以 site_ 開(kāi)頭的php文件,如 /configs/article/site_abc_com.php。

里面內(nèi)容都與后臺(tái)采集規(guī)則設(shè)置相對(duì)應(yīng),具體細(xì)節(jié)不一一解釋。需要了解的是本文件里面內(nèi)容分兩大部分,前面內(nèi)容都是對(duì)網(wǎng)站內(nèi)容采集規(guī)則的配置,而最后面 $jieqiCollect['listcollect']['0'],$jieqiCollect['listcollect']['1'] 這樣的設(shè)置是對(duì)網(wǎng)站"批量采集規(guī)則"的配置,比如按最近更新采集、按排行榜采集,可以設(shè)置多個(gè)。['0'] 這里的數(shù)字 0 表示批量采集類別的數(shù)字序號(hào),同一個(gè)網(wǎng)站也不能重復(fù)。

2、編寫采集內(nèi)容的url及參數(shù)

這里的采集是針對(duì)多篇文章批量采集,分兩種模式:
一、按頁(yè)面批量采集,比如采集最新更新列表或者排行榜列表,每個(gè)鏈接采集一頁(yè)。
鏈接格式如下:

http://chabaoo.cn/modules/article/admin/pagecollect.php?action=collect&siteid=1&collectname=0&startpageid=1&maxpagenum=1&notaddnew=0&jieqi_username=admin&jieqi_userpassword=1234

參數(shù)含義解釋如下:
chabaoo.cn - 是指您的網(wǎng)址。
action - 字符串,程序執(zhí)行的動(dòng)作命令,固定值為 collect。
siteid - 數(shù)字類型,要采集的網(wǎng)站序號(hào),具體哪個(gè)網(wǎng)站對(duì)應(yīng)什么序號(hào)見(jiàn)配置文件collectsite.php。
collectname - 數(shù)字類型,按頁(yè)面批量采集的類別序號(hào),見(jiàn)配置文件site_xxxx.php里面下面的。$jieqiCollect['listcollect']['0'] 這樣配置的數(shù)字。
startpageid -- 頁(yè)碼標(biāo)志,表示從列表的第幾頁(yè)開(kāi)始采集。一般是數(shù)字類型,有些網(wǎng)站也可能是字符串。
maxpagenum -- 數(shù)字類型,表示表示一共采集幾頁(yè)。(默認(rèn)為 1 ,如果要采集多頁(yè),是需要瀏覽器跳轉(zhuǎn)的,只有在windows環(huán)境下調(diào)用瀏覽器時(shí)候有效,linux下調(diào)用wget時(shí)候最多只能采集一頁(yè),需要采集多頁(yè)可設(shè)置多個(gè)采集命令。)
notaddnew -- 數(shù)字類型,0-表示采集全部文章,1-表示只更新本站已有的文章。
jieqi_username - 字符串,用戶名(這個(gè)用戶必須是本站有權(quán)限采集的用戶)。
jieqi_userpassword - 字符串,用戶密碼。


二、按照文章序號(hào)批量采集
鏈接格式如下:
http://chabaoo.cn/modules/article/admin/batchcollect.php?action=bcollect&siteid=1&batchids=123,234,345&jieqi_username=admin&jieqi_userpassword=1234

參數(shù)含義解釋如下:
chabaoo.cn - 是指您的網(wǎng)址。
action - 字符串,程序執(zhí)行的動(dòng)作命令,固定值為 bcollect。
siteid - 數(shù)字類型,要采集的網(wǎng)站序號(hào),具體哪個(gè)網(wǎng)站對(duì)應(yīng)什么序號(hào)見(jiàn)配置文件collectsite.php。
batchids - 要采集的對(duì)方網(wǎng)站文章序號(hào)(不是本地的文章序號(hào)),采集多個(gè)文章,序號(hào)用英文逗號(hào)分開(kāi),如 123,234,345。
jieqi_username - 字符串,用戶名(這個(gè)用戶必須是本站有權(quán)限采集的用戶)。
jieqi_userpassword - 字符串,用戶密碼。

注:一個(gè)url需要放到IE瀏覽器里面提交的時(shí)候,整個(gè)url最大長(zhǎng)度度不要超過(guò)2083字節(jié),所以一般建議這里的url不要設(shè)置成太長(zhǎng),文章多的可以拆分成多個(gè)url。


3、利用系統(tǒng)任務(wù)實(shí)現(xiàn)定時(shí)采集

一、windows環(huán)境下做法

windows里面可以用系統(tǒng)的任務(wù)計(jì)劃來(lái)實(shí)現(xiàn)定時(shí)執(zhí)行程序,不過(guò)首先需要制作一個(gè)批處理文件,在這個(gè)文件里面用命令來(lái)調(diào)用瀏覽器來(lái)執(zhí)行采集url。需要注意的是命令只能打開(kāi)瀏覽器而不會(huì)采集好之后自動(dòng)關(guān)閉,要實(shí)現(xiàn)采集完自動(dòng)關(guān)閉可以通過(guò)javascript實(shí)現(xiàn)。自動(dòng)關(guān)閉本窗口的js代碼為:

<script language="javascript"> self.opener=null; setTimeout("window.close();", 3000); </script>

這里的參數(shù) 3000 是指延遲關(guān)閉時(shí)間,單位是毫秒,3000表示延遲3秒關(guān)閉。
這段代碼可以在兩個(gè)地方加入:

一個(gè)是加入到提示信息模板 /themes/風(fēng)格名稱/msgwin.html 里面,<body>和</body>之間加入上面那段js。這樣的效果是整個(gè)系統(tǒng)任何提示信息頁(yè)面都會(huì)在3秒鐘后自動(dòng)關(guān)閉。

如果您希望僅僅自動(dòng)關(guān)閉采集成功后的提示頁(yè)面,可以在采集提示信息的語(yǔ)言包里面加入以上javascript,這個(gè)配置文件是 /modules/article/lang/lang_collect.php, 里面 $jieqiLang['article']['batch_collect_success'] 是采集成功的提示信息,這個(gè)值原來(lái)是:

'恭喜您,全部文章采集完成!';

改成下面這樣即可自動(dòng)關(guān)閉

'恭喜您,全部文章采集完成!<script language="javascript"> self.opener=null; setTimeout("window.close();", 3000); </script>';

相關(guān)文章

最新評(píng)論