亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

帝國cms采集圖文教程(上,中,下)全集

  發(fā)布時間:2012-05-21 10:50:22   作者:佚名   我要評論
帝國cms采集圖文教程,現(xiàn)在把上,中,下全部都發(fā)來.給大家方便的看.
帝國cms是我們用得比較多得PHP的建站系統(tǒng),在建站過程中,如果自己沒有信息源,只能靠手工不斷的重復copy和粘貼,這樣費時費力,于是我們就要使用帝國cms自帶的采集功能來完成信息的錄入。為了深入了解帝國cms采集功能,下面我們以“新浪各地新聞”欄目為例來進行實戰(zhàn)采集。
  一、增加采集節(jié)點
  1、添加節(jié)點:
  
1.jpg
 
  2、選擇要增加采集的欄目:
  
2.jpg
 
  3、進入增加節(jié)點表單:
  
3.jpg
 
  4、在節(jié)點名稱框里起個名字,然后把要采集的新浪各地新聞列表地址copy過來:
  
4.jpg
 
  
4-1.jpg
 
  5、下來發(fā)現(xiàn)好多選項,如“采集頁面地址方式二,內(nèi)容頁地址前綴...”先不要理他,后面再一一詳解,直接拉到 “信息鏈接區(qū)域正則”這里:
  
5.jpg
 
  6、這里是設置采集的列表信息鏈接區(qū)域正則,我們點擊查看新浪各地新聞列表“源文件”:
  
6.jpg
 
  7、把源文件代碼copy到Dreamweaver里,在Dreamweaver里選定要采集的信息鏈接區(qū)域:
  
7.jpg
 
  8、切換到Dreamweaver代碼方式,
    就是信息鏈接區(qū)域:
     
      
    8.jpg
     
      9、得到信息鏈接區(qū)域正則:
      
    9.jpg
     
      10、得到信息頁鏈接正則:
      
    10.jpg
     
      11、注意:如果信息頁鏈接是相對地址,例如< a href="/c/2012-03-05/205924063527.shtml" target="_blank" >,那么“內(nèi)容頁地址前綴”要加域名:
      
    11.jpg
     
      12、現(xiàn)在要采集內(nèi)容頁的標題和內(nèi)容:
      
    12.jpg
     
      13、查看新聞頁“源文件”,找title標簽:
      
    13.jpg
     
      14、取得標題正則:
      
    14.jpg
     
      15、這里是要采集的內(nèi)容區(qū)域:
      
    15.jpg
     
      16、取得新聞內(nèi)容正則:
      
    16.jpg
     
      (注意:新聞內(nèi)容正則里的 d_id='*' 用了通配符,因為每一篇新聞的d_id值是不同的,所以可以用*來代替它,“*”可以代替任意字符。)
      17、點擊提交按鈕就完成了整個采集節(jié)點:
      
    6-6.JPG
     
      二、預覽采集節(jié)點是否正確
      1、提交按鈕后返回管理節(jié)點:
      
    1.jpg
     
      2、點擊“預覽”采集,進入節(jié)點預覽結(jié)果:
      
    2.jpg
     
      3、采集內(nèi)容頁列表
      
    3.jpg
     
      4、采集內(nèi)容頁頁面:
      
    4.jpg
     
      三、采集
      1、預覽采集節(jié)點無誤后,然后返回“管理節(jié)點”,點擊“開始采集”鏈接就開始進行采集:
      
    1.jpg
     
      2、系統(tǒng)正在采集中:
      
    2.jpg
     
      3、采集完后顯示本地臨時入庫的信息,這時可以對臨時入庫的信息進行修改或者刪除:
      
    3.jpg
     
      4、修改信息頁面如圖:
      
    4.jpg
     
      5、對采集的信息進行審核并入庫,點擊“入庫全部信息按鈕”:
      
    5.jpg
     
      6、確定操作:
      
    6.jpg
     
      7、信息入庫完畢提示:
      
    7.jpg
     
      信息入庫完畢后下來點擊”管理信息“:
      
    8.jpg
     
      我們可以看到剛剛采集入庫的新聞信息:
      
    9.jpg
     
      最后到“數(shù)據(jù)更新”刷新首頁、欄目、和內(nèi)容頁就可以完成網(wǎng)站的信息采集了。由于帝國cms采集功能非常強大,一時半刻也說不完,下一頁將繼續(xù)講解其他功能的使用和技巧。
上一頁我們介紹了帝國cms采集基本流程,那么我們這一講介紹帝國cms如何采集內(nèi)容分頁。不少的同學在采集過程中,列表頁和內(nèi)容頁都能可以很好地設定正則,但往往失敗在內(nèi)容分頁正則上,主要是對內(nèi)容分頁正則不了解。帝國的內(nèi)容分頁形式有兩種:(1)全部列出式(2)上下頁導航式,但是這兩種內(nèi)容分頁形式有什么區(qū)別,采集內(nèi)容分頁時該用哪種,官方說得比較模糊,對此有些同學感到很頭大,好的,我們先看下例子:
  一、全部列出式
  全部列表式只需看第一頁的頁面HTML代碼,這一頁的所有分頁鏈接都列出來了。
  1、我們以“中華網(wǎng)內(nèi)容分頁(http://auto.china.com/dongtai/yejie/11012724/20120309/17081442.html)”為例:
  
1.JPG
 
  可以看到這條新聞總共有3條分頁。
  2、查看源代碼:
  
2.jpg
 
  這一頁里除了已經(jīng)采集到的第1條分頁外,還包括了第2條和第3條分頁,所有的分頁都列出來了。
  3、取得 分頁區(qū)域正則([!--smallpageallzz--]):
  
3.JPG
 
  4、取得 分頁鏈接正則([!--pageallzz--]):
  
4.JPG
 
  二、上下頁導航式
  上下頁導航式是分頁采集的難點,他需要所有頁面都符合分頁正則才行,在不熟悉的情況下,我們可以用第1頁和第2頁的代碼來進行對比分析然后確定分頁正則。
  1、我們以“愛麗網(wǎng)內(nèi)容分頁(http://fashion.aili.com/76/445845.html)”為例:
  
2-1.JPG
 
  可以看到這條新聞總共有20條分頁。
  2、查看源代碼:
  
2-2.jpg
 
  這一頁里除了已經(jīng)采集到的第1條分頁外,還包括了第2,第3,第4,第5,第6,第7,第8,第20條分頁,但是第9到第19條分頁并沒有列出來,這時候我們拿用第1頁和第2頁的代碼來進行對比分析,來確定分頁正則:
  (1)第1頁代碼:
  
2-2-1.jpg
 
  (2)第2頁代碼:
  
2-2-2.jpg
 
  從這兩幅圖片可以看到他們有著相同的“分頁區(qū)域開始代碼”,“分頁鏈接”格式,“分頁區(qū)域結(jié)束代碼”,那么就可以確定“分頁區(qū)域正則”,“分頁鏈接正則”。
  3、取得 分頁區(qū)域正則([!--smallpageallzz--]):
  
2-3.JPG
 
  4、取得 分頁鏈接正則([!--pageallzz--]):
  
2-4.jpg
 
  5、為了方便教程顯示,newstext我采集了標題而不是采集內(nèi)容,預覽結(jié)果:
  
2-5.JPG
 
  注意事項:
  第一、在第一頁的頁面HTML代碼里,內(nèi)容分頁鏈接全部列出來的情況下我們使用“全部列出式”。在第一頁的頁面HTML代碼里,內(nèi)容分頁鏈接沒有全部列出來的情況下我們使用“上下頁導航式”。
  第二、用全部列出式時,采集規(guī)則正確但是莫名其妙的出現(xiàn)重復的分頁,這時可以利用替換法把它過濾掉(下一講我們再說)。
  第三、用上下頁導航式時,老是采到第1頁,其他頁連個影子都沒有見過,這是因為分頁區(qū)域正則([!--smallpagezz--])截取錯誤。
  第四、用上下頁導航式時,可以采集到前幾頁了,但是接下來這前幾頁全部重復循環(huán)到底,這也是因為分頁區(qū)域正則([!--smallpagezz--])截取錯誤,截取范圍過大,導致重復截取前幾個分頁鏈接。
  好的,這一講就到這里,下一頁我們主要介紹帝國cms采集過濾和替換。
前兩講我們分別介紹了帝國cms采集基本流程和帝國cms如何采集內(nèi)容分頁,最后這一講主要介紹帝國cms采集過濾與替換,還有些技巧。
  一、過濾
  1、帝國cms采集過濾分為兩種:
  (1)“整體頁面過濾正則”:
  
1-1-1.JPG
 
  (2)“過濾廣告正則”:
  
1-1-2.JPG
 
  我們有些疑惑,這兩種過濾到底有什么區(qū)別?“整體頁面過濾正則”是過濾整個網(wǎng)頁的html代碼。“過濾廣告正則”是過濾文章內(nèi)容,僅對文章內(nèi)容([!--newstext--])起作用。
  2、過濾實例:
  過濾實例(1):
  
1-2-1.jpg
 
 
我們采集后發(fā)現(xiàn)信息內(nèi)容底部多了行代碼:“<div style="clear:both;height:0;visibility:hiddden;overflow:hidden;">&nbsp;</div>”,根據(jù)格式“廣告開始[!--ad--]廣告結(jié)束”得到“過濾廣告正則
”:
  
1-2-2.JPG
 
  過濾實例(2):
  
1-2-3.jpg
 
  要過濾鏈接代碼怎么辦,注意“過濾廣告正則”右邊有堆代碼:
  
1-2-4.jpg
 
  鼠標先點擊A,系統(tǒng)自動生成過濾鏈接代碼“,,,”,這樣就可以把采集后的內(nèi)容鏈接過濾掉了。同理,如果想過濾其他html代碼就點擊相應的標簽代碼。

  注意事項:當內(nèi)容分頁包含在內(nèi)容([!--newstext--])里時,要過濾掉內(nèi)容分頁,否則會重復出現(xiàn)內(nèi)容分頁。
  二、替換
  1、帝國cms采集替換也分為兩種:
  (1)“整體頁面替換”:
  
2-1-1.JPG
 
  (2)“替換”:
  
2-1-2.JPG
 
  他們兩種區(qū)別:“整體頁面替換”是替換整個網(wǎng)頁的html代碼。“替換”是替換文章標題和內(nèi)容,僅對標題([!--title--])和([!--newstext--])起作用。
  2、替換實例:
  
2-1-3.JPG
 
  我們要把內(nèi)容里的“新華網(wǎng)”替換成“中華網(wǎng)”:
  
2-1-4.JPG
 
  預覽下:
  
2-1-5.jpg
 
  沒有問題,替換過來了。
  三、圖片采集
  (1)我們采集時會碰到信息內(nèi)容可以正常采集,但是里面的圖片卻不顯示,例子:
  
3-1.jpg
 
  信息內(nèi)容可以正常采集,就是圖片不顯示出來,這是由于內(nèi)容圖片的路徑不對,圖片的路徑為相對地址。
  (2)查看源代碼:
  
3-2.jpg
 
  圖片是相對地址,要換成絕對地址才能采集成功。
  (3)替換成絕對地址:
  先在目標站的圖片右鍵查看屬性:
  
3-3-1.jpg
 
  目標站的圖片地址為“http://www.gdyd.com/news/PNews/a/e77366_634655073936250000.jpg”,我們采集所到的圖片地址為“/news/PNews/a/e77366_634655073936250000.jpg”,分析得到前綴“http://www.gdyd.com”,我們把前綴放到“圖片/FLASH地址前綴(內(nèi)容)”,如下圖:
  
3-3-2.JPG
 
  (4)前臺預覽圖片:
  圖片顯示出來了:
  
3-4-1.JPG
 
  查看源代碼:
  
3-4-2.JPG
 
  圖片地址沒錯,是本地地址。
  注意事項:我們在采集預覽和在本地臨時入庫信息時,發(fā)現(xiàn)已經(jīng)添加了圖片地址前綴了,但是圖片還是不顯示,出現(xiàn)這個你不用理他,直接入庫,入庫了系統(tǒng)才會自動添加圖片地址前綴。
  至此采集實例講解完畢,這三講對帝國cms采集的基本流程,重點,難點基本都概括了,還有些基礎的功能沒能一一介紹清楚,大家可以到帝國官方網(wǎng)站看下基礎教程。
  本文由 國外網(wǎng)站大全http://www.kguowai.com 原創(chuàng),轉(zhuǎn)載請注明出處,謝謝!

相關(guān)文章

最新評論