帝國cms采集圖文教程(上,中,下)全集

發(fā)布時間：2012-05-21 10:50:22 作者：佚名

帝國cms采集圖文教程,現(xiàn)在把上,中,下全部都發(fā)來.給大家方便的看.

帝國cms是我們用得比較多得PHP的建站系統(tǒng)，在建站過程中，如果自己沒有信息源，只能靠手工不斷的重復copy和粘貼，這樣費時費力，于是我們就要使用帝國cms自帶的采集功能來完成信息的錄入。為了深入了解帝國cms采集功能，下面我們以“新浪各地新聞”欄目為例來進行實戰(zhàn)采集。
　　一、增加采集節(jié)點
　　1、添加節(jié)點：
　　

　　2、選擇要增加采集的欄目：
　　

　　3、進入增加節(jié)點表單：
　　

　　4、在節(jié)點名稱框里起個名字，然后把要采集的新浪各地新聞列表地址copy過來：
　　

　　5、下來發(fā)現(xiàn)好多選項,如“采集頁面地址方式二，內(nèi)容頁地址前綴...”先不要理他，后面再一一詳解，直接拉到 “信息鏈接區(qū)域正則”這里：
　　

　　6、這里是設置采集的列表信息鏈接區(qū)域正則,我們點擊查看新浪各地新聞列表“源文件”：
　　

　　7、把源文件代碼copy到Dreamweaver里，在Dreamweaver里選定要采集的信息鏈接區(qū)域：
　　

　　8、切換到Dreamweaver代碼方式,

上一頁我們介紹了帝國cms采集基本流程，那么我們這一講介紹帝國cms如何采集內(nèi)容分頁。不少的同學在采集過程中，列表頁和內(nèi)容頁都能可以很好地設定正則，但往往失敗在內(nèi)容分頁正則上，主要是對內(nèi)容分頁正則不了解。帝國的內(nèi)容分頁形式有兩種：(1)全部列出式(2)上下頁導航式，但是這兩種內(nèi)容分頁形式有什么區(qū)別，采集內(nèi)容分頁時該用哪種，官方說得比較模糊，對此有些同學感到很頭大，好的，我們先看下例子：
　　一、全部列出式
　　全部列表式只需看第一頁的頁面HTML代碼，這一頁的所有分頁鏈接都列出來了。
　　1、我們以“中華網(wǎng)內(nèi)容分頁(http://auto.china.com/dongtai/yejie/11012724/20120309/17081442.html)”為例：
　　

　　可以看到這條新聞總共有3條分頁。
　　2、查看源代碼：
　　

　　這一頁里除了已經(jīng)采集到的第1條分頁外，還包括了第2條和第3條分頁，所有的分頁都列出來了。
　　3、取得分頁區(qū)域正則([!--smallpageallzz--])：
　　

　　4、取得分頁鏈接正則([!--pageallzz--])：
　　

　　二、上下頁導航式
　　上下頁導航式是分頁采集的難點，他需要所有頁面都符合分頁正則才行，在不熟悉的情況下，我們可以用第1頁和第2頁的代碼來進行對比分析然后確定分頁正則。
　　1、我們以“愛麗網(wǎng)內(nèi)容分頁(http://fashion.aili.com/76/445845.html)”為例：
　　

　　可以看到這條新聞總共有20條分頁。
　　2、查看源代碼：
　　

　　這一頁里除了已經(jīng)采集到的第1條分頁外，還包括了第2，第3，第4，第5，第6，第7，第8，第20條分頁，但是第9到第19條分頁并沒有列出來，這時候我們拿用第1頁和第2頁的代碼來進行對比分析，來確定分頁正則:
　　(1)第1頁代碼：
　　

　　(2)第2頁代碼：
　　

　　從這兩幅圖片可以看到他們有著相同的“分頁區(qū)域開始代碼”，“分頁鏈接”格式，“分頁區(qū)域結(jié)束代碼”,那么就可以確定“分頁區(qū)域正則”，“分頁鏈接正則”。
　　3、取得分頁區(qū)域正則([!--smallpageallzz--])：
　　

　　4、取得分頁鏈接正則([!--pageallzz--])：
　　

　　5、為了方便教程顯示，newstext我采集了標題而不是采集內(nèi)容，預覽結(jié)果：
　　

　　注意事項：
　　第一、在第一頁的頁面HTML代碼里，內(nèi)容分頁鏈接全部列出來的情況下我們使用“全部列出式”。在第一頁的頁面HTML代碼里，內(nèi)容分頁鏈接沒有全部列出來的情況下我們使用“上下頁導航式”。
　　第二、用全部列出式時，采集規(guī)則正確但是莫名其妙的出現(xiàn)重復的分頁，這時可以利用替換法把它過濾掉(下一講我們再說)。
　　第三、用上下頁導航式時，老是采到第1頁，其他頁連個影子都沒有見過，這是因為分頁區(qū)域正則([!--smallpagezz--])截取錯誤。
　　第四、用上下頁導航式時，可以采集到前幾頁了，但是接下來這前幾頁全部重復循環(huán)到底，這也是因為分頁區(qū)域正則([!--smallpagezz--])截取錯誤，截取范圍過大，導致重復截取前幾個分頁鏈接。
　　好的，這一講就到這里，下一頁我們主要介紹帝國cms采集過濾和替換。
前兩講我們分別介紹了帝國cms采集基本流程和帝國cms如何采集內(nèi)容分頁，最后這一講主要介紹帝國cms采集過濾與替換，還有些技巧。
　　一、過濾
　　1、帝國cms采集過濾分為兩種：
　　(1)“整體頁面過濾正則”：
　　

　　(2)“過濾廣告正則”：
　　

　　我們有些疑惑，這兩種過濾到底有什么區(qū)別?“整體頁面過濾正則”是過濾整個網(wǎng)頁的html代碼。“過濾廣告正則”是過濾文章內(nèi)容，僅對文章內(nèi)容([!--newstext--])起作用。
　　2、過濾實例：
　　過濾實例(1)：
　　

我們采集后發(fā)現(xiàn)信息內(nèi)容底部多了行代碼：“<div style="clear:both;height:0;visibility:hiddden;overflow:hidden;"> </div>”，根據(jù)格式“廣告開始[!--ad--]廣告結(jié)束”得到“過濾廣告正則
”：
　　

　　過濾實例(2)：
　　

　　要過濾鏈接代碼怎么辦，注意“過濾廣告正則”右邊有堆代碼：
　　

　　鼠標先點擊A，系統(tǒng)自動生成過濾鏈接代碼“,,,”，這樣就可以把采集后的內(nèi)容鏈接過濾掉了。同理，如果想過濾其他html代碼就點擊相應的標簽代碼。

　　注意事項：當內(nèi)容分頁包含在內(nèi)容([!--newstext--])里時，要過濾掉內(nèi)容分頁，否則會重復出現(xiàn)內(nèi)容分頁。
　　二、替換
　　1、帝國cms采集替換也分為兩種：
　　(1)“整體頁面替換”：
　　

　　(2)“替換”：
　　

　　他們兩種區(qū)別：“整體頁面替換”是替換整個網(wǎng)頁的html代碼。“替換”是替換文章標題和內(nèi)容，僅對標題([!--title--])和([!--newstext--])起作用。
　　2、替換實例：
　　

　　我們要把內(nèi)容里的“新華網(wǎng)”替換成“中華網(wǎng)”：
　　

　　預覽下：
　　

　　沒有問題，替換過來了。
　　三、圖片采集
　　(1)我們采集時會碰到信息內(nèi)容可以正常采集，但是里面的圖片卻不顯示，例子：
　　

　　信息內(nèi)容可以正常采集，就是圖片不顯示出來，這是由于內(nèi)容圖片的路徑不對，圖片的路徑為相對地址。
　　(2)查看源代碼：
　　

　　圖片是相對地址，要換成絕對地址才能采集成功。
　　(3)替換成絕對地址：
　　先在目標站的圖片右鍵查看屬性：
　　

　　目標站的圖片地址為“http://www.gdyd.com/news/PNews/a/e77366_634655073936250000.jpg”，我們采集所到的圖片地址為“/news/PNews/a/e77366_634655073936250000.jpg”，分析得到前綴“http://www.gdyd.com”，我們把前綴放到“圖片/FLASH地址前綴(內(nèi)容)”，如下圖：
　　

　　(4)前臺預覽圖片：
　　圖片顯示出來了：
　　

　　查看源代碼：
　　

　　圖片地址沒錯，是本地地址。
　　注意事項：我們在采集預覽和在本地臨時入庫信息時，發(fā)現(xiàn)已經(jīng)添加了圖片地址前綴了，但是圖片還是不顯示，出現(xiàn)這個你不用理他，直接入庫，入庫了系統(tǒng)才會自動添加圖片地址前綴。
　　至此采集實例講解完畢，這三講對帝國cms采集的基本流程，重點，難點基本都概括了，還有些基礎的功能沒能一一介紹清楚，大家可以到帝國官方網(wǎng)站看下基礎教程。
　　本文由國外網(wǎng)站大全http://www.kguowai.com 原創(chuàng)，轉(zhuǎn)載請注明出處，謝謝!