用PHP代替JS玩轉(zhuǎn)DOM的思路及示例代碼
更新時間:2014年06月15日 17:21:29 投稿:whsnow
思路就是通過DOMDocument將一個html file轉(zhuǎn)換成DOM樹的數(shù)據(jù)結(jié)構(gòu),再用DOMXPath的實例去搜索這個DOM樹,接下來就可以對當前節(jié)點的子樹進行遍歷
事情的起源比較簡單,我需要把一個導(dǎo)航頁的數(shù)據(jù)整理好寫入數(shù)據(jù)庫。一個比較直觀的方法是對html文件進行分析,通用的方法是用php的正則表達式來匹配。但是這樣做開發(fā)和維護都很困難,代碼可讀性非常差。
導(dǎo)航頁的數(shù)據(jù)都是規(guī)則的排列在DOM樹當中的,用JS可以用幾個循環(huán)輕松的對其進行操作,而且JS需要依賴瀏覽器,操作數(shù)據(jù)庫很困難。其實PHP就有現(xiàn)成的類庫對DOM樹種的節(jié)點進行增刪改查操作,在此做一些筆記。
這里涉及到2個類 DOMDocument 和 DOMXPath。
其實思路比較明確,就是通過DOMDocument將一個html file轉(zhuǎn)換成DOM樹的數(shù)據(jù)結(jié)構(gòu),再用DOMXPath的實例去搜索這個DOM樹,拿到想要特定節(jié)點,接下來就可以對當前節(jié)點的子樹進行遍歷,得到想要的結(jié)果。
在當前目錄下有一個這樣一個導(dǎo)航的html文件 "./hao.html"
現(xiàn)在需要得到所有<a>標簽的中文內(nèi)容,php代碼如下:
<?php
//將html/xml文件轉(zhuǎn)換成DOM樹
$dom = new DOMDocument();
$dom->loadHTMLFile("hao.html");
//得到所有class為fix的dl標簽
// example 1: for everything with an id
//$elements = $xpath->query("http://*[@id]");
// example 2: for node data in a selected id
//$elements = $xpath->query("/html/body/div[@id='yourTagIdHere']");
// example 3: same as above with wildcard
//$elements = $xpath->query("*/div[@id='yourTagIdHere']");
$xpath = new DOMXPath($dom);
$dls = $xpath->query('//dl[@class="fix"]');
foreach ($dls as $dl) {
$spans = $dl->childNodes;
foreach ($spans as $span) {
echo trim($span->textContent)."\t";
}
echo "\n";
}
?>
輸出結(jié)果如下:
注意:值得注意的一點是DOMDocument的默認編碼方式是Latin,所以在處理utf編碼的中文的時候,需要在<head>后面緊跟著填入
<meta http-equiv="content-type" content="text/html; charset=utf-8">
在其他位置,或者是只寫上<meta content="charset=utf-8">都是不識別的哦
導(dǎo)航頁的數(shù)據(jù)都是規(guī)則的排列在DOM樹當中的,用JS可以用幾個循環(huán)輕松的對其進行操作,而且JS需要依賴瀏覽器,操作數(shù)據(jù)庫很困難。其實PHP就有現(xiàn)成的類庫對DOM樹種的節(jié)點進行增刪改查操作,在此做一些筆記。
這里涉及到2個類 DOMDocument 和 DOMXPath。
其實思路比較明確,就是通過DOMDocument將一個html file轉(zhuǎn)換成DOM樹的數(shù)據(jù)結(jié)構(gòu),再用DOMXPath的實例去搜索這個DOM樹,拿到想要特定節(jié)點,接下來就可以對當前節(jié)點的子樹進行遍歷,得到想要的結(jié)果。
在當前目錄下有一個這樣一個導(dǎo)航的html文件 "./hao.html"
現(xiàn)在需要得到所有<a>標簽的中文內(nèi)容,php代碼如下:
復(fù)制代碼 代碼如下:
<?php
//將html/xml文件轉(zhuǎn)換成DOM樹
$dom = new DOMDocument();
$dom->loadHTMLFile("hao.html");
//得到所有class為fix的dl標簽
// example 1: for everything with an id
//$elements = $xpath->query("http://*[@id]");
// example 2: for node data in a selected id
//$elements = $xpath->query("/html/body/div[@id='yourTagIdHere']");
// example 3: same as above with wildcard
//$elements = $xpath->query("*/div[@id='yourTagIdHere']");
$xpath = new DOMXPath($dom);
$dls = $xpath->query('//dl[@class="fix"]');
foreach ($dls as $dl) {
$spans = $dl->childNodes;
foreach ($spans as $span) {
echo trim($span->textContent)."\t";
}
echo "\n";
}
?>
輸出結(jié)果如下:
注意:值得注意的一點是DOMDocument的默認編碼方式是Latin,所以在處理utf編碼的中文的時候,需要在<head>后面緊跟著填入
復(fù)制代碼 代碼如下:
<meta http-equiv="content-type" content="text/html; charset=utf-8">
在其他位置,或者是只寫上<meta content="charset=utf-8">都是不識別的哦
相關(guān)文章
linux下使用crontab實現(xiàn)定時PHP計劃任務(wù)失敗的原因分析
這篇文章主要介紹了linux下使用crontab實現(xiàn)定時PHP計劃任務(wù)失敗的原因分析,需要的朋友可以參考下2014-07-07PHP使用PHPexcel導(dǎo)入導(dǎo)出數(shù)據(jù)的方法
這篇文章主要介紹了PHP使用PHPexcel導(dǎo)入導(dǎo)出數(shù)據(jù)的方法,以實例形式較為詳細的分析了PHP使用PHPexcel實現(xiàn)數(shù)據(jù)的導(dǎo)入與導(dǎo)出操作相關(guān)技巧,需要的朋友可以參考下2015-11-11php empty,isset,is_null判斷比較(差異與異同)
做php開發(fā)時候,想必在使用:empty,isset,is_null 這幾個函數(shù)時候,遇到一些問題。甚至給自己的程序帶來一些安全隱患的bug。很多時候,對于isset,empty都認為差不多。因此開發(fā)時候,就沒有注意,一段作為流程判斷時候,就出現(xiàn)bug問題了。2010-10-10常見的四種POST 提交數(shù)據(jù)方式(小總結(jié))
這篇文章主要介紹了常見的四種POST 提交數(shù)據(jù)方式(小總結(jié))的相關(guān)資料,需要的朋友可以參考下2015-10-10PHP將MySQL的查詢結(jié)果轉(zhuǎn)換為數(shù)組并用where拼接的示例
這篇文章主要介紹了PHP將MySQL的查詢結(jié)果轉(zhuǎn)換為數(shù)組并用where拼接的示例,這樣處理where條件時便可以在一定程度上優(yōu)化查詢和轉(zhuǎn)化的性能,需要的朋友可以參考下2016-05-05