亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Python使用re模塊實現(xiàn)okenizer(表達式分詞器)

 更新時間:2022年04月30日 14:10:04   作者:orion-orion  
這篇文章主要介紹了Python使用re模塊實現(xiàn)okenizer,我們這里講解用正則表達式構(gòu)建簡單的表達式分詞器(tokenizer),它能夠?qū)⒈磉_式字符串從左到右解析為標記(tokens)流,需要的朋友可以參考下

一個簡單的tokenizer

分詞(tokenization)任務(wù)是Python字符串處理中最為常見任務(wù)了。我們這里講解用正則表達式構(gòu)建簡單的表達式分詞器(tokenizer),它能夠?qū)⒈磉_式字符串從左到右解析為標記(tokens)流。

給定如下的表達式字符串:

text = 'foo = 12 + 5 * 6'

我們想要將其轉(zhuǎn)換為下列以序列對呈現(xiàn)的分詞結(jié)果:

tokens = [('NAME', 'foo'), ('EQ', '='), ('NUM', '12'), ('PLUS', '+'),\
    ('NUM', '5'), ('TIMES', '*'), ('NUM', '6')]

要完成這樣的分詞操作,我們首先需要定義出所有可能的標記模式(所謂模式(pattern),為用來描述或者匹配/系列匹配某個句法規(guī)則的字符串,這里我們用正則表達式來做為模式),注意此處要包括空格whitespace,否則字符串中出現(xiàn)任何模式中沒有的字符后,掃描就會停止。因為我們還需要給標記以NAME、EQ等名稱,我們采用正則表達式中的命名捕獲組來實現(xiàn)。

import re
NAME = r'(?P<NAME>[a-zA-Z_][a-zA-Z_0-9]*)' 
# 這里?P<NAME>表示模式名稱,()表示一個正則表達式捕獲組,合在一起即一個命名捕獲組
EQ = r'(?P<EQ>=)'
NUM = r'(?P<NUM>\d+)' #\d表示匹配數(shù)字,+表示任意數(shù)量
PLUS = r'(?P<PLUS>\+)' #需要用\轉(zhuǎn)義
TIMES = r'(?P<TIMES>\*)' #需要用\轉(zhuǎn)義
WS = r'(?P<WS>\s+)' #\s表示匹配空格, +表示任意數(shù)量
master_pat = re.compile("|".join([NAME, EQ, NUM, PLUS, TIMES, WS]))  # | 用于選擇多個模式,表示"或"

接下來我們用模式對象中的scanner()方法來完成分詞操作,該方法創(chuàng)建一個掃描對象:

scanner = master_pat.scanner(text)

然后可以用match()方法獲取單次匹配結(jié)果,一次匹配一個模式:

scanner = master_pat.scanner(text)
m = scanner.match() 
print(m.lastgroup, m.group()) # NAME foo
m = scanner.match()
print(m.lastgroup, m.group()) # WS

當然這樣一次一次調(diào)用過于麻煩,我們可以使用迭代器來批量調(diào)用,并將單次迭代結(jié)果以具名元組形式存儲

Token = namedtuple('Token', ['type', 'value'])
def generate_tokens(pat, text):
    scanner = pat.scanner(text)
    for m in iter(scanner.match, None):
        #scanner.match做為迭代器每次調(diào)用的方法,
        #None為哨兵的默認值,表示迭代到None停止
        yield Token(m.lastgroup, m.group())
for tok in generate_tokens(master_pat, "foo = 42"):
    print(tok)

最終顯示表達式串"foo = 12 + 5 * 6"的tokens流為:

Token(type='NAME', value='foo')
Token(type='WS', value=' ')
Token(type='EQ', value='=')
Token(type='WS', value=' ')
Token(type='NUM', value='12')
Token(type='WS', value=' ')
Token(type='PLUS', value='+')
Token(type='WS', value=' ')
Token(type='NUM', value='5')
Token(type='WS', value=' ')
Token(type='TIMES', value='*')
Token(type='WS', value=' ')
Token(type='NUM', value='6')

過濾tokens流

接下來我們想要過濾掉空格標記,使用生成器表達式即可:

tokens = (tok for tok in generate_tokens(master_pat, "foo = 12 + 5 * 6")
          if tok.type != 'WS')
for tok in tokens:
    print(tok)

可以看到空格被成功過濾:

Token(type='NAME', value='foo')
Token(type='EQ', value='=')
Token(type='NUM', value='12')
Token(type='PLUS', value='+')
Token(type='NUM', value='5')
Token(type='TIMES', value='*')
Token(type='NUM', value='6')

注意子串匹配陷阱

tokens在正則表達式(即"|".join([NAME, EQ, NUM, PLUS, TIMES, WS]))中順序也非常重要。因為在進行匹配時,re模塊就會按照指定的順序?qū)δJ阶銎ヅ?。故若碰巧某個模式是另一個較長模式的子串時,必須保證較長的模式在前面優(yōu)先匹配。如下面分別展示正確的和錯誤的匹配方法:

LT = r'(?P<LT><)'
LE = r'(?P<LE><=)'
EQ = r'(?P<EQ>>=)'
master_pat = re.compile("|".join([LE, LT, EQ]))  # 正確的順序
master_pat = re.compile("|".join([LT, LE, EQ]))  # 錯誤的順序

第二種順序的錯誤之處在于,這樣會把'<='文本匹配為LT('<')緊跟著EQ('='),而沒有匹配為單獨的LE(<=)。

我們對于“有可能”形成子串的模式也要小心,比如下面這樣:

PRINT = r'(?P<PRINT>print)'
NAME = r'(?P<NAME>[a-zA-Z_][a-zA-Z_0-9]*)'
master_pat = re.compile("|".join([PRINT, NAME]))  # 正確的順序
for tok in generate_tokens(master_pat, "printer"):
    print(tok)

可以看到被print實際上成了另一個模式的子串,導致另一個模式的匹配出現(xiàn)了問題:

# Token(type='PRINT', value='print')
# Token(type='NAME', value='er')

更高級的語法分詞,建議采用像PyParsing或PLY這樣的包。特別地,對于英文自然語言文章的分詞,一般被集成到各類NLP的包中(一般分為按空格拆分、處理前后綴、去掉停用詞三步驟)。對于中文自然語言處理分詞也有豐富的工具(比如jieba分詞工具包)。

引用

[1] Martelli A, Ravenscroft A, Ascher D. Python cookbook[M]. " O'Reilly Media, Inc.", 2015. 數(shù)學是符號的藝術(shù),音樂是上界的語言。

到此這篇關(guān)于Python使用re模塊實現(xiàn)okenizer的文章就介紹到這了,更多相關(guān)Python okenizer內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • 用python3教你任意Html主內(nèi)容提取功能

    用python3教你任意Html主內(nèi)容提取功能

    這篇文章主要介紹了用python3教你任意Html主內(nèi)容提取功能,主要使用到了requests、lxml、json等模塊,文中逐一對這幾個模塊做了介紹,需要的朋友可以參考下
    2018-11-11
  • Python MySQL數(shù)據(jù)庫連接池組件pymysqlpool詳解

    Python MySQL數(shù)據(jù)庫連接池組件pymysqlpool詳解

    這篇文章主要跟大家介紹了關(guān)于Python MySQL數(shù)據(jù)庫連接池組件pymysqlpool的相關(guān)資料,文中通過示例代碼介紹的非常詳細,對大家具有一定的參考學習價值,需要的朋友們下面來一起看看吧。
    2017-07-07
  • python re.match函數(shù)的具體使用

    python re.match函數(shù)的具體使用

    本文主要介紹了python re.match函數(shù)的具體使用,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2023-02-02
  • Python實現(xiàn)病毒仿真器的方法示例(附demo)

    Python實現(xiàn)病毒仿真器的方法示例(附demo)

    這篇文章主要介紹了Python實現(xiàn)病毒仿真器的方法示例,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2020-02-02
  • Python文件操作類操作實例詳解

    Python文件操作類操作實例詳解

    這篇文章主要介紹了Python文件操作類操作實例代碼,需要的朋友可以參考下
    2014-07-07
  • 解決Jupyter Notebook “signal only works in main thread“問題

    解決Jupyter Notebook “signal only works&nb

    這篇文章主要介紹了解決Jupyter Notebook “signal only works in main thread“問題,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2023-01-01
  • python實現(xiàn)linux下抓包并存庫功能

    python實現(xiàn)linux下抓包并存庫功能

    這篇文章主要為大家詳細介紹了python實現(xiàn)linux下抓包并存庫功能,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2018-07-07
  • python操作mysql中文顯示亂碼的解決方法

    python操作mysql中文顯示亂碼的解決方法

    這篇文章主要介紹了python操作mysql中文顯示亂碼的解決方法,是Python數(shù)據(jù)庫程序設(shè)計中經(jīng)常會遇到的問題,非常具有實用價值,需要的朋友可以參考下
    2014-10-10
  • matplotlib?3D模型繪制一朵小紅花

    matplotlib?3D模型繪制一朵小紅花

    這篇文章主要介紹了matplotlib?3D模型繪制一朵小紅花,代碼有趣也有一定的知識參考價值,需要的朋友可以參考文章內(nèi)容下去試試
    2022-02-02
  • Python裝飾器限制函數(shù)運行時間超時則退出執(zhí)行

    Python裝飾器限制函數(shù)運行時間超時則退出執(zhí)行

    今天小編就為大家分享一篇關(guān)于Python裝飾器限制函數(shù)運行時間超時則退出執(zhí)行,小編覺得內(nèi)容挺不錯的,現(xiàn)在分享給大家,具有很好的參考價值,需要的朋友一起跟隨小編來看看吧
    2019-04-04

最新評論