快捷導(dǎo)航

PHP實(shí)現(xiàn)采集抓取淘寶網(wǎng)單個(gè)商品信息

更新時(shí)間：2015年01月08日 11:53:58 投稿：junjie

這篇文章主要介紹了PHP實(shí)現(xiàn)采集抓取淘寶網(wǎng)單個(gè)商品信息,本文是一種實(shí)現(xiàn)思路,使用file_get_contents函數(shù)實(shí)現(xiàn),并給出了采集正則,需要的朋友可以參考下

調(diào)用淘寶的數(shù)據(jù)可以使用淘寶提供的api，如果只需調(diào)用淘寶商品圖片名稱等公開(kāi)信息在自己網(wǎng)站上，使用php中的 file_get_contents 函數(shù)實(shí)現(xiàn)即可。

思路：

file_get_contents(url) 該函數(shù)根據(jù) url 如 http://www.baidu.com 將該網(wǎng)頁(yè)內(nèi)容（源碼）以字符串形式輸出（一個(gè)整字符串），然后配合preg_match，preg_replace等這些正則表達(dá)式操作就可以實(shí)現(xiàn)獲取該url特定div，img等信息了。當(dāng)然前題是淘寶在單個(gè)商品頁(yè)面的結(jié)構(gòu)是固定的，如500圖的img中id就是J_ImgBooth！

具體實(shí)現(xiàn)方法：（獲取500圖，名稱，價(jià)格，屬性及商品描述）

復(fù)制代碼代碼如下:

$text=file_get_contents("http://item.taobao.com/item.htm?id=2380347279"); //將url地址上頁(yè)面內(nèi)容保存進(jìn)$text

A.獲取500圖：

復(fù)制代碼代碼如下:

preg_match('/<img[^>]*id="J_ImgBooth"[^r]*rc=\"([^"]*)\"[^>]*>/', $text, $img); 

//運(yùn)用正則抓取img標(biāo)簽中id為J_ImgBooth的img，$img[0]為該500圖img標(biāo)簽，$img[1]為500圖的圖片地址；

B. 獲取名稱：

復(fù)制代碼代碼如下:

preg_match('/<title>([^<>]*)<\/title>/', $text, $title); 

//因?yàn)檎闹械纳唐访Q標(biāo)簽沒(méi)有特殊class或id正則不好抓取，就抓<title>標(biāo)簽中的內(nèi)容了，一般來(lái)說(shuō)title中內(nèi)容就是商品名稱了（實(shí)際有些出入），$title[0]整個(gè)title標(biāo)簽 $title[1]標(biāo)簽中內(nèi)容；

$title=iconv('GBK','UTF-8',$title);

//如果你的網(wǎng)站是utf8編碼，那么需要進(jìn)行一下轉(zhuǎn)碼（淘寶是gbk編碼）

C.獲取價(jià)格：

復(fù)制代碼代碼如下:

preg_match('/<([a-z]+)[^i]*id=\"J_StrPrice\"[^>]*>([^<]*)<\/\\1>/is', $text, $price);

//同理獲取id為J_StrPrice的標(biāo)簽內(nèi)容$price[2], $price[0]是整個(gè)標(biāo)簽， $price[1]為strong標(biāo)簽名；

$price=floatval($price);//放入數(shù)據(jù)庫(kù)估計(jì)還有轉(zhuǎn)一下變量類型

D.獲取屬性：

這之前獲取的內(nèi)容都是在單標(biāo)簽中相對(duì)只需一個(gè)正則就可搞定，然而如果要獲取如

復(fù)制代碼代碼如下:

…

<div id=”xxx”>

…

<ul>

…

</ul>

<div>…

<div>…

</div>

</div>

</div>

…

這樣特定div中有未知n個(gè)<>標(biāo)簽，獲取該特定div將會(huì)非常的困難，搜了下網(wǎng)上，最接近的也只是”/<([a-z]+)[^>]*>([^<>]|(?R))*<\/\\1>/”這樣使用遞歸抓取標(biāo)簽對(duì)，但是他不能抓特定標(biāo)簽，所以想要輕松抓取class=”attributes”的div我是沒(méi)法辦到了。但是淘寶網(wǎng)頁(yè)有其特殊性，就是它的各個(gè)標(biāo)簽結(jié)構(gòu)基本是固定的…<div>…</div>標(biāo)簽后面不是</div><div id=”description”>就是</div><div>，所以我們可以采用變通法達(dá)到獲取屬性標(biāo)簽內(nèi)容的目的。

復(fù)制代碼代碼如下:

preg_match('/<(div)[^c]*class=\"attributes\"[^>]*>.*<\/\\1>/is', $text, $text0);

//這個(gè)正則會(huì)抓取<div開(kāi)始到整個(gè)頁(yè)面最后一個(gè)</div>標(biāo)簽，當(dāng)然我們屬性標(biāo)簽就在這個(gè)的前面部分。

$text1=preg_replace("/<\/div>[^<]*<(div)[^c]*id=\"description\"[^>]*>.*<\/\\1>/is","",$text0);

//匹配到</div ><div id=”description”>至最后</div>然后用””代替（就是把匹配的刪除了），所以如果attributes的div后面緊跟的是description那么我們已經(jīng)達(dá)到目的了。

$attributes=preg_replace("/<\/div>[^<]*<(div)[^c]*class=\"box J_TBox\"[^>]*>.*<\/\\1>/is","",$text1);

//如果attributes后面緊跟box J_Tbox標(biāo)簽，那么我們還需要使用以上這步來(lái)剔除box J_Tbox標(biāo)簽，當(dāng)然如果attributes的div后面緊跟的是description，這一步將不會(huì)匹配到任何即什么都不會(huì)做。

E.獲取描述：

通過(guò)上面方法你肯定覺(jué)得淘寶頁(yè)面上任何標(biāo)簽都可以很簡(jiǎn)單獲取了吧（我之前也是這么想的），但是使用這個(gè)方法獲取描述時(shí)得到的內(nèi)容將會(huì)是“描述加載中”，是的，這個(gè)描述內(nèi)容不是在源碼中的，它是打開(kāi)頁(yè)面加載進(jìn)一大堆js后，不知道從淘寶的哪個(gè)角落中加載進(jìn)來(lái)的。

好吧，那么我們也可以模仿它放一些js進(jìn)去。不知道哪些對(duì)加載描述有用？沒(méi)事，全加載進(jìn)來(lái)肯定沒(méi)錯(cuò)。不知道需要放那些特定div上去有作用？抓一個(gè)源碼，刪掉一些div一步步試試看，你會(huì)發(fā)現(xiàn)“<div id=”detail”> </div>

復(fù)制代碼代碼如下:

<div id="description">

<div id="J_DivItemDesc">描述加載中</div>

</div>

這幾個(gè)div是加載描述所必須的，那么下面就是寫(xiě)代碼了：

復(fù)制代碼代碼如下:

preg_match_all('/<script[^>]*>[^<]*<\/script>/is', $text, $content);//頁(yè)面js腳本

 $content=$content[0];

 $description='<div id="detail"> </div>

  <div id="description">

   <div id="J_DivItemDesc">描述加載中</div>

  </div>';

foreach ($content as &$v){$description.=iconv('GBK','UTF-8',$v);};

//將這個(gè)$description放進(jìn)頁(yè)面，描述就會(huì)自動(dòng)的加載進(jìn)來(lái)了，當(dāng)然多個(gè)商品描述在同一個(gè)頁(yè)面也會(huì)只有一個(gè)描述會(huì)被加載的。

您可能感興趣的文章: