PHP怎樣用正則抓取頁面中的網(wǎng)址
前言
鏈接也就是超級鏈接,是從一個(gè)元素(文字、圖片、視頻等)鏈接到另一個(gè)元素(文字、圖片、視頻等)。網(wǎng)頁中的鏈接一般有三種,一種是絕對URL超鏈接,也就是一個(gè)頁面的完整路徑;另一種是相對URL超鏈接,一般都鏈接到同一網(wǎng)站的其他頁面;還有一種是頁面內(nèi)的超鏈接,這種一般鏈接到同一頁面內(nèi)的其他位置。
搞清楚了鏈接的種類,就知道要抓鏈接,主要還是絕對URL超鏈接和相對URL超鏈接。要寫出正確的正則表達(dá)式,就必須要了解我們查找的對象的模式。
先說絕對鏈接,也叫作URL(Uniform Resource Locator),標(biāo)識了互聯(lián)網(wǎng)上的唯一資源。URL的結(jié)構(gòu)包含三部分:協(xié)議、服務(wù)器名稱、路徑和文件名。
協(xié)議是告訴瀏覽器如何處理將要打開文件的標(biāo)識,最常見的就是 http 協(xié)議。本文也只考慮HTTP協(xié)議,至于其他的 https、ftp、mailto、telnet協(xié)議等,根據(jù)需要也可以添加。
服務(wù)器名稱是告訴瀏覽器如何到達(dá)這個(gè)服務(wù)器的方式,通常是域名或者IP地址,有時(shí)還會(huì)包含端口號(默認(rèn)為80)。FTP協(xié)議中,也可以包含用戶名和密碼,本文就不考慮了。
路徑和文件名,一般以 / 分割,指出到達(dá)這個(gè)文件的路徑和文件本身的名稱。如果沒有具體的文件名,則訪問這個(gè)文件夾下的默認(rèn)文件(可以在服務(wù)器端設(shè)置)。
那么現(xiàn)在清楚了,要抓取的絕對鏈接的典型形式可以概括為
http://www.xxx.com/xxx/yyy/zzz.html
每個(gè)部分可以使用的字符范圍有明確的規(guī)范,具體可以參考RFC1738。那么正則表達(dá)式就可以寫出來了。
/(http|https):\/\/([\w\d\-_]+[\.\w\d\-_]+)[:\d+]?([\/]?[\w\/\.]+)/i
解釋如下:
(http|https)第一個(gè)括號內(nèi)匹配的是協(xié)議部分。
([\w\d\-_]+[\.\w\d\-_]+)第二個(gè)括號內(nèi)匹配的是域名部分。
([\/]?[\w\/\.]+)第三個(gè)括號內(nèi)匹配的是相對路徑。
寫到這個(gè)時(shí)候,基本上大部分的網(wǎng)址都能匹配到了,但是對于URL中帶有參數(shù)的還不能抓取,這樣有可能造成再次訪問的時(shí)候頁面報(bào)錯(cuò)。關(guān)于參數(shù)RFC1738規(guī)范中要求是用?來分割,后面帶上參數(shù),但是現(xiàn)代的RIA應(yīng)用有可能使用其他奇怪的形式進(jìn)行分割。
稍微修改一下,這樣就可以將查詢參數(shù)部分搜索出來。這里仍然沒有涵蓋全部的情況,例如URL中有中文、有空格及其他特殊字符的情況,但是基本上能夠滿足我的需求了,就沒有繼續(xù)深化。
/(http|ftp|https):\/\/([\w\d\-_]+[\.\w\d\-_]+)[:\d+]?([\/]?[\w\/\.\?=&;%@#\+,]+)/i
使用括號的好處是,在處理結(jié)果時(shí),可以很容易的獲取到協(xié)議、域名、相對路徑這些內(nèi)容,方便后續(xù)的處理。
例如使用 preg_match_all()
匹配時(shí),結(jié)果數(shù)組索引0為全部結(jié)果、1為協(xié)議、2為域名、3為相對路徑。
以上就是使用PHP的正則抓取頁面中的網(wǎng)址的全部內(nèi)容,希望對大家在PHP使用中有所幫助。
- PHP正則表達(dá)式抓取某個(gè)標(biāo)簽的特定屬性值的方法
- php結(jié)合正則批量抓取網(wǎng)頁中郵箱地址
- php使用curl和正則表達(dá)式抓取網(wǎng)頁數(shù)據(jù)示例
- PHP采集利器 Snoopy 試用心得
- PHP采集類snoopy詳細(xì)介紹(snoopy使用教程)
- snoopy 強(qiáng)大的PHP采集類使用實(shí)例代碼
- 基于Snoopy的PHP近似完美獲取網(wǎng)站編碼的代碼
- PHP采集類Snoopy抓取圖片實(shí)例
- snoopy PHP版的網(wǎng)絡(luò)客戶端提供本地下載
- php基于Snoopy解析網(wǎng)頁html的方法
- php中Snoopy類用法實(shí)例
- PHP正則+Snoopy抓取框架實(shí)現(xiàn)的抓取淘寶店信譽(yù)功能實(shí)例
相關(guān)文章
PHP數(shù)組排序函數(shù)合集 以及它們之間的聯(lián)系分析
本篇文章是對PHP數(shù)組排序函數(shù)合集以及它們之間的聯(lián)系進(jìn)行了詳細(xì)的分析介紹,需要的朋友參考下2013-06-06PHP設(shè)計(jì)模式之工廠模式(Factory Pattern)的講解
今天小編就為大家分享一篇關(guān)于PHP設(shè)計(jì)模式之工廠模式(Factory Pattern)的講解,小編覺得內(nèi)容挺不錯(cuò)的,現(xiàn)在分享給大家,具有很好的參考價(jià)值,需要的朋友一起跟隨小編來看看吧2019-03-03php計(jì)算給定日期所在周的開始日期和結(jié)束日期示例
這篇文章主要介紹了php計(jì)算給定日期所在周的開始日期和結(jié)束日期,涉及php日期與時(shí)間相關(guān)運(yùn)算與轉(zhuǎn)換技巧,具有一定參考借鑒價(jià)值,需要的朋友可以參考下2017-02-02PHP通過正則表達(dá)式下載圖片到本地的實(shí)現(xiàn)代碼
PHP通過正則表達(dá)式下載圖片到本地的實(shí)現(xiàn)代碼,主要是通過正則表達(dá)式匹配網(wǎng)頁內(nèi)容中的圖片地址并下載。2011-09-09php常用字符串輸出方法分析(echo,print,printf及sprintf)
這篇文章主要介紹了php常用字符串輸出方法,結(jié)合實(shí)例形式分析了echo、print、printf及sprintf輸出字符串的具體用法與相關(guān)使用技巧,需要的朋友可以參考下2016-07-07PHP設(shè)計(jì)模式 注冊表模式(多個(gè)類的注冊)
注冊表模式其實(shí)是一個(gè)單例模式,注冊表類提供靜態(tài)方法(或單例對象的實(shí)例化方法)來讓其它對象訪問其中的數(shù)據(jù)(通常是對象)。整個(gè)系統(tǒng)中的每個(gè)對象都可以訪問這些數(shù)據(jù)對象2012-02-02php cookie中點(diǎn)號(句號)自動(dòng)轉(zhuǎn)為下劃線問題
這篇文章主要介紹了php cookie中點(diǎn)號(句號)自動(dòng)轉(zhuǎn)為下劃線問題,需要的朋友可以參考下2014-10-10