Python中使用ElementTree解析XML示例

更新時間：2015年06月02日 17:11:09 投稿：junjie

這篇文章主要介紹了Python中使用ElementTree解析XML示例,本文同時講解了XML基本概念介紹、XML幾種解析方法和ElementTree解析實例,需要的朋友可以參考下

【XML基本概念介紹】

XML 指可擴展標記語言（eXtensible Markup Language）。
XML 被設計用來傳輸和存儲數(shù)據(jù)。
概念一:

<foo>      # foo元素的起始標簽  

</foo>     # foo元素的結束標簽  

           # note: 每一個起始標簽必須有對應的結束標簽來閉合， 也可以寫成<foo/>  

概念二:

復制代碼代碼如下:

<foo>           # 元素可以嵌套到任意參次  

  <bar></bar>   # bar元素為foo元素的子元素  

</foo>          # 父元素foo的結束標簽  

概念三:

復制代碼代碼如下:

<foo lang='EN'>                  # foo元素有個lang的屬性，該屬性值為: EN；對應Python字典(Name-Value)對；                              

  <bar id='001' lang="CH"></bar> # bar元素有個lang的屬性，該屬性值為: CH；還有個id屬性，值為:001，放置在''或“”中；   

</foo>                           # bar元素中的lang屬性不會和foo元素中相沖突，每個元素都有獨立的屬性集； 

概念四:

復制代碼代碼如下:

<title>Learning Python</title> # 元素可以有文本內(nèi)容  

                                # Note:如果一個元素即沒有文本內(nèi)容，也沒有子元素，則為空元素。  

概念五:

復制代碼代碼如下:

<info>                                  # info元素為根節(jié)點  

    <list id='001'> A </list>           # list元素為子節(jié)點  

    <list id='002'> B </list>   

    <list id='003'> C </list>  

</info>

概念六:

復制代碼代碼如下:

<feed xmlns='http://www.w3.org/2005/Atom'>  # 可以通過聲明xmlns來定義默認名字空間，feed元素處于http://www.w3.org/2005/Atom命名空間中  

  <title>dive into mark</title>             # title元素也是。名字空間聲明不僅會作用于當前聲明它的元素，還會影響到該元素的所有子元素  

</feed>  

也可以通過xmlns:prefix聲明來定義一個名字空間并取其名為prefix。

然后該名字空間中的每個元素都必須顯式地使用這個前綴(prefix)來聲明。

<atom:feed xmlns:atom='http://www.w3.org/2005/Atom'>  # feed屬于命名空間atom  

  <atom:title>dive into mark</atom:title>             # title元素同樣屬于該命名空間             

</atom:feed>                                          # xmlns(XML Name Space)

【XML幾種解析方法】

常見的XML編程接口有DOM和SAX，這兩種接口處理XML文件的方式不同，使用場合自然也就不同。

Python有三種方法解析XML: SAX，DOM，以及ElementTree:

1.SAX (Simple API for XML )

Pyhton標準庫包含SAX解析器，SAX用事件驅動模型，通過在解析XML的過程中觸發(fā)一個個的事件并調(diào)用用戶定義的回調(diào)函數(shù)來處理XML文件。SAX是一種基于事件驅動的API。利用SAX解析XML文檔牽涉到兩個部分:解析器和事件處理器。
解析器負責讀取XML文檔,并向事件處理器發(fā)送事件,如元素開始及結束事件;而事件處理器則負責對事件作出處理。
優(yōu)點:SAX流式讀取XML文件，比較快，占用內(nèi)存少。
缺點:需要用戶實現(xiàn)回調(diào)函數(shù)（handler）。

2.DOM(Document Object Model)

將XML數(shù)據(jù)在內(nèi)存中解析成一個樹，通過對樹的操作來操作XML。一個DOM的解析器在解析一個XML文檔時，一次性讀取整個文檔，把文檔中所有元素保存在內(nèi)存中的一個樹結構里，之后你可以利用DOM提供的不同的函數(shù)來讀取或修改文檔的內(nèi)容和結構，也可以把修改過的內(nèi)容寫入xml文件。
優(yōu)點:使用DOM的好處是你不需要對狀態(tài)進行追蹤，因為每一個節(jié)點都知道誰是它的父節(jié)點，誰是子節(jié)點.
缺點:DOM需要將XML數(shù)據(jù)映射到內(nèi)存中的樹，一是比較慢，二是比較耗內(nèi)存，使用起來也比較麻煩！

3.ElementTree(元素樹)

ElementTree就像一個輕量級的DOM，具有方便友好的API。代碼可用性好，速度快，消耗內(nèi)存少。
相比而言，第三種方法，即方便，又快速，我們一直用它！下面介紹用元素樹如何解析XML:

【ElementTree解析】

兩種實現(xiàn)

ElementTree生來就是為了處理XML ，它在Python標準庫中有兩種實現(xiàn)。
一種是純Python實現(xiàn)，例如: xml.etree.ElementTree
另外一種是速度快一點的: xml.etree.cElementTree
盡量使用C語言實現(xiàn)的那種，因為它速度更快，而且消耗的內(nèi)存更少! 在程序中可以這樣寫:

復制代碼代碼如下:

try:  

    import xml.etree.cElementTree as ET  

except ImportError:  

    import xml.etree.ElementTree as ET

常用方法

復制代碼代碼如下:

# 當要獲取屬性值時，用attrib方法。  

# 當要獲取節(jié)點值時，用text方法。  

# 當要獲取節(jié)點名時，用tag方法。  

示例XML

復制代碼代碼如下:

<?xml version="1.0" encoding="utf-8"?>  

<info>  

   <intro>Book message</intro>  

    <list id='001'>  

        <head>bookone</head>  

        <name>python check</name>  

        <number>001</number>  

        <page>200</page>  

    </list>  

    <list id='002'>  

        <head>booktwo</head>  

        <name>python learn</name>  

        <number>002</number>  

        <page>300</page>  

    </list>  

</info>

###########
## 加載XML
###########

方法一:加載文件

復制代碼代碼如下:

root = ET.parse('book.xml')

方法二:加載字符串

復制代碼代碼如下:

root = ET.fromstring(xmltext)

###########
## 獲取節(jié)點
###########

方法一:獲得指定節(jié)點->getiterator()方法

復制代碼代碼如下:

book_node = root.getiterator('list')

方法二:獲得指定節(jié)點->findall()方法

復制代碼代碼如下:

book_node = root.findall('list')

方法三:獲得指定節(jié)點->find()方法

復制代碼代碼如下:

book_node = root.find('list')

方法四:獲得兒子節(jié)點->getchildren()

復制代碼代碼如下:

for node in book_node:  

    book_node_child = node.getchildren()[0]  

    print book_node_child.tag, '=> ', book_node_child.text

###########
## 例子01
###########

復制代碼代碼如下:

# coding=utf-8  

try:                                           # 導入模塊  

    import xml.etree.cElementTree as ET  

except ImportError:  

    import xml.etree.ElementTree as ET  

root   = ET.parse('book.xml')                 # 分析XML文件  

books  = root.findall('/list')                # 查找所有根目錄下的list的子節(jié)點  

for book_list in books:                       # 對查找后的結果遍歷  

    print "=" * 30                            # 輸出格式             

    for book in book_list:                    # 對每個子節(jié)點再進行遍歷，找出里面你的屬性及值                       

        if book.attrib.has_key('id'):         # 一句id來做條件判斷  

            print "id:", book.attrib['id']    # 根據(jù)id打印出屬性值  

        print book.tag + '=> ' + book.text    # 輸出標簽及文本內(nèi)容  

print "=" * 30

輸出結果:

復制代碼代碼如下:

==============================  

head=> bookone  

name=> python check  

number=> 001  

page=> 200  

==============================  

head=> booktwo  

name=> python learn  

number=> 002  

page=> 300  

==============================

PS：這里再為大家提供幾款關于xml操作的在線工具供大家參考使用：

在線XML/JSON互相轉換工具：
http://tools.jb51.net/code/xmljson

在線格式化XML/在線壓縮XML：
http://tools.jb51.net/code/xmlformat

XML在線壓縮/格式化工具：
http://tools.jb51.net/code/xml_format_compress

您可能感興趣的文章:

Python中base64與xml取值結合問題
這篇文章主要介紹了Python中base64與xml取值結合問題，本文通過實例代碼給大家介紹的非常詳細，具有一定的參考借鑒價值,需要的朋友可以參考下
2019-12-12
python實現(xiàn)數(shù)據(jù)庫跨服務器遷移
這篇文章主要為大家詳細介紹了Python實現(xiàn)數(shù)據(jù)庫之間的數(shù)據(jù)遷移，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2018-04-04
python matplotlib折線圖樣式實現(xiàn)過程
這篇文章主要介紹了python matplotlib折線圖樣式實現(xiàn)過程,文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
2019-11-11
跟老齊學Python之數(shù)據(jù)類型總結
前面已經(jīng)洋洋灑灑地介紹了不少數(shù)據(jù)類型。不能再不顧一切地向前沖了，應當總結一下。這樣讓看官能夠從總體上對這些數(shù)據(jù)類型有所了解，如果能夠有一覽眾山小的感覺，就太好了。
2014-09-09
Python3中詳解fabfile的編寫
這篇文章給大家分享了Python3中詳解fabfile的編寫的相關知識點以及重要內(nèi)容，有興趣的朋友跟著學習下。
2018-06-06
python實現(xiàn)人人對戰(zhàn)的五子棋游戲
這篇文章主要為大家詳細介紹了python實現(xiàn)人人對戰(zhàn)的五子棋游戲，文中示例代碼介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2022-05-05
yolov5中train.py代碼注釋詳解與使用教程
train.py里面加了很多額外的功能,使得整體看起來比較復雜,其實核心部分主要就是讀取數(shù)據(jù)集,加載模型,訓練中損失的計算,下面這篇文章主要給大家介紹了關于yolov5中train.py代碼注釋詳解與使用的相關資料,需要的朋友可以參考下
2022-09-09
用TensorFlow實現(xiàn)多類支持向量機的示例代碼
這篇文章主要介紹了用TensorFlow實現(xiàn)多類支持向量機的示例代碼,小編覺得挺不錯的，現(xiàn)在分享給大家，也給大家做個參考。一起跟隨小編過來看看吧
2018-04-04
python實現(xiàn)圖片，視頻人臉識別(dlib版)
這篇文章主要介紹了python實現(xiàn)圖像，視頻人臉識別(dlib版)的相關資料，幫助大家更好的理解和學習python，感興趣的朋友可以了解下
2020-11-11
一步步解析Python斗牛游戲的概率
這篇文章主要帶著大家一步步解析Python斗牛游戲的概率，計算出斗牛游戲的概率，感興趣的朋友可以參考一下
2016-02-02