batchcollect pagecollect來自官方杰奇jieqi定時采集配置方法參數(shù)詳解
更新時間:2008年07月11日 08:44:35 作者:
主要的功能頁面為pagecollect.php和batchcollect.php要實現(xiàn)采集,默認方式是根據(jù)配置好的采集規(guī)則,在瀏覽器提交相應的參數(shù)即可完成后面的采集入庫全部動作。
建立批處理文件方法如下:
在任意目錄建立一個后綴名為 .bat 的文件,比如 D:\collect.bat,然后用文本編輯器輸入類似下面的代碼
@echo off
"explorer" "http://chabaoo.cn/modules/article/admin/pagecollect.php?action=collect&siteid=1&collectname=0&startpageid=1&maxpagenum=1¬addnew=0&jieqi_username=admin&jieqi_userpassword=1234"
"explorer" "http://chabaoo.cn/modules/article/admin/batchcollect.php?action=bcollect&siteid=1&batchids=123,234,345&jieqi_username=admin&jieqi_userpassword=1234"
exit
其中
第一句 @echo off 是表示關閉顯示
最后一句 exit 表示執(zhí)行完退出
中間每行表示一個采集命令(可以設置多行),就是利用系統(tǒng)的瀏覽器來執(zhí)行前面編輯好的采集url。
使用這樣的格式:
"explorer" "url"
前面部分是命令,后面是采集的url,也可以使用這樣的格式:
"%programfiles%\Internet Explorer\IEXPLORE.EXE" "url"
前面部分是ie瀏覽器的路徑,后面是采集的url。
這兩種命令模式的區(qū)別是,有多行命令的時候,前者會打開多個瀏覽器窗口同時執(zhí)行;而后者先打開瀏覽器執(zhí)行第一個命令,必須等這個瀏覽器關閉后才會重新打開一個瀏覽器執(zhí)行第二個命令。
編輯好上面的bat文件后,開始在任務計劃里面添加執(zhí)行這個任務,主要步驟如下(每半小時執(zhí)行一次采集):
a、打開"控制面板",進入"任務計劃"。
b、點"添加任務計劃"打開任務計劃向?qū)нM行添加任務。
c、點"下一步",然后點"瀏覽"選擇要執(zhí)行的程序。(例子里面就是選擇 D:\collect.bat)
d、設置任務名稱及執(zhí)行頻率,比如選擇"每天",點"下一步"。
e、選擇最開始執(zhí)行的時間和日期,一般設置比當前時間后面一點就行,點"下一步"。
f、設置執(zhí)行的用戶名和密碼(本操作系統(tǒng)的帳號),點"下一步"。
g、選擇"在單擊"完成"時,打開此任務的高級屬性",點"完成"。
h、在"日程安排"里面,點"高級",選擇"重復任務",設置"每30分鐘"執(zhí)行一次。
i、保存以上設置后即完成系統(tǒng)任務計劃。
二、linux環(huán)境下做法
linux下可以利用的系統(tǒng)定時任務來執(zhí)行,也同樣需要先制作一個批處理的腳本,方法如下
在任意目錄建立一個后綴為 .sh 的文件,比如 /www/collect.sh ,需要賦值可執(zhí)行權限,如 chmod 755 /www/collect.sh
里面內(nèi)容如下:
wget -qO - "http://chabaoo.cn/modules/article/admin/pagecollect.php?action=collect&siteid=1&collectname=0&startpageid=1&maxpagenum=1¬addnew=0&jieqi_username=admin&jieqi_userpassword=1234"
wget -qO - "http://chabaoo.cn/modules/article/admin/batchcollect.php?action=bcollect&siteid=1&batchids=123,234,345&jieqi_username=admin&jieqi_userpassword=1234"
其中每行表示一個采集命令(可以設置多行),是利用系統(tǒng)的wget命令調(diào)用url執(zhí)行,并取消輸出。
每行命令如下:
wget -qO - url
前面 "wget -qO - "是wget命令及參數(shù),后面url是編輯好的采集url
編輯好 sh 文件后,用 crontab 命令添加定時任務,主要步驟如下:
a、用 crontab -e 命令,打開定時任務編輯器,里面一行表示一個定時任務。
b、用vi命令,增加一行定時執(zhí)行批處理腳本的命令,格式如下:
f1 f2 f3 f4 f5 program
其中 f1 是表示分鐘,f2 表示小時,f3 表示一個月份中的第幾日,f4 表示月份,f5 表示一個星期中的第幾天。program 表示要執(zhí)行的程序。
當 f1 為 * 時表示每分鐘都要執(zhí)行 program,f2 為 * 時表示每小時都要執(zhí)行程序,其余類推。
當 f1 為 a-b 時表示從第 a 分鐘到第 b 分鐘這段時間內(nèi)要執(zhí)行,f2 為 a-b 時表示從第 a 到第 b 小時都要執(zhí)行,其余類推。
當 f1 為 */n 時表示每 n 分鐘個時間間隔執(zhí)行一次,f2 為 */n 表示每 n 小時個時間間隔執(zhí)行一次,其余類推。
當 f1 為 a, b, c,... 時表示第 a, b, c,... 分鐘要執(zhí)行,f2 為 a, b, c,... 時表示第 a, b, c...個小時要執(zhí)行,其余類推。
program 為要執(zhí)行的命令或者程序文件名
例1:每30分鐘執(zhí)行一次采集
*/30 * * * * /www/collect.sh
例2:每小時的第10分鐘時候執(zhí)行一次采集
10 * * * * /www/collect.sh
c、crontab命令詳細用法請參看相關文檔,一般網(wǎng)上也能搜索到。
注:windows的任務計劃和linux的定時任務都可以設置多個,但是要避免同一本書在同一時間開多個瀏覽器同時采集,這樣在判斷最新章節(jié)時候會出錯。
相關文章
杰奇1.5官方升級后發(fā)現(xiàn)$i不能解析的解決方法
因為杰奇1.5里面 $i 改成數(shù)組了2008-07-07batchcollect pagecollect來自官方杰奇jieqi定時采集配置方法參數(shù)詳解
主要的功能頁面為pagecollect.php和batchcollect.php要實現(xiàn)采集,默認方式是根據(jù)配置好的采集規(guī)則,在瀏覽器提交相應的參數(shù)即可完成后面的采集入庫全部動作。2008-07-07