Python如何實(shí)現(xiàn)轉(zhuǎn)換URL詳解
設(shè)計(jì)一個(gè)算法,將URL轉(zhuǎn)換成5部分,分別是:schema、netloc、path、query_params、fragment。
問(wèn)題
URL的中文名叫統(tǒng)一資源定位符,就是咱們常說(shuō)的網(wǎng)址,設(shè)計(jì)一個(gè)算法,將URL轉(zhuǎn)換成5部分,分別是:schema、netloc、path、query_params、fragment。
<scheme>://<netloc>/<path>?<query_params>#<fragment>
一圖勝千言:
應(yīng)用場(chǎng)景
在實(shí)際應(yīng)用場(chǎng)景中,有些聚合網(wǎng)站會(huì)把URL里面netloc提取出來(lái)。
分析
這里沒(méi)有什么特別復(fù)雜的算法,因?yàn)槊坎糠侄加幸粋€(gè)特別的字符,所以,如果你熟練Python的字符串操作和正則表達(dá)式使用的話那么就很簡(jiǎn)單。
知識(shí)點(diǎn)
字符串的常用方法split、find、join、lower、切片的使用,re模塊下面的常用方法。另外還有關(guān)于如何使用 namedtuple 定義一個(gè)簡(jiǎn)單類的操作
實(shí)現(xiàn)
第一種方式使用字符串提供的方法,就是根據(jù)關(guān)鍵字符進(jìn)行切分。整體思路是利用字符串的切片功能不斷進(jìn)行切分,代碼稍顯復(fù)雜。
URL = namedtuple("URL", ["schema", "netloc", "path", "params", "fragment"]) def url_parse1(url): assert url.startswith("http") # 初始化每部分為空 schema = netloc = params = fragment = path = None # 從 :// 切分 url,前面部分是shema i = url.find('://') if i > 0: schema = url[:i] url = url[i + 3:] # 獲取netloc for c in "/?#": # 三個(gè)分隔符的順利很重要 a = url.find(c) if a > 0: # 只要有三個(gè)字符中的任意字符,立即切分,前部分就是netloc,剩下的部分進(jìn)行后續(xù)處理 netloc, url = url[0:a], url[a:] break else: netloc, url = url, '' # 如果三個(gè)分隔符都不在url中,那么這是一個(gè)只包含 # 同樣的方式獲取path for c in "?#": a = url.find(c) if a > 0: path, url = url[0:a], url[a:] break else: path, url = url or None, '' if "#" in url: url, fragment = url.split("#", 1) if '?' in url: url, params = url.split('?', 1) return URL(schema=schema, netloc=netloc, path=path, params=_params_parse(params), fragment=fragment) def _params_parse(params): if not params: return None pairs = [s for s in params.split('&')] param_dict = dict() for pair in pairs: k, v = pair.split('=', 1) param_dict[k] = v return param_dict
第二種方式就是用正則表達(dá)式,主要考驗(yàn)?zāi)銓?xiě)正則的能力
def url_parse2(url): rex = r'^(http[s]?):\/\/([^\/\s]+)([\/\w\-\.]+[^#?\s]*)?(\?([^#]*))?(#(.*))?$' schema = netloc = params = fragment = path = '' pattern = re.compile(rex) match = pattern.match(url) if match: schema = match.group(1) netloc = match.group(2) path = match.group(3) params = match.group(5) fragment = match.group(7) return URL(schema=schema, netloc=netloc, path=path, params=_params_parse(params), fragment=fragment)
通過(guò)正則表達(dá)式的分組功能提取每部分,關(guān)于正則表達(dá)式推薦兩個(gè)資源
Python中正則表達(dá)式介紹, 這是一篇比較完整介紹Python中正則表達(dá)式的文章,如果你能讀懂里面的每句話,并且實(shí)踐后,你一定能寫(xiě)出上面這樣的表達(dá)式出來(lái)。
當(dāng)然,你也可以直接使用urlparse模塊中現(xiàn)成的方式來(lái)實(shí)現(xiàn)。
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
Python中元組的基礎(chǔ)介紹及常用操作總結(jié)
元組是一種不可變序列。元組變量的賦值要在定義時(shí)就進(jìn)行,這就像C語(yǔ)言中的const變量或是C++的引用,定義時(shí)賦值之后就不允許有修改。元組存在的意義是:元組在映射中可以作為鍵使用,因?yàn)橐WC鍵的不變性。元組作為很多內(nèi)置函數(shù)和方法的返回值存在2021-09-09對(duì)python中數(shù)組的del,remove,pop區(qū)別詳解
今天小編就為大家分享一篇對(duì)python中數(shù)組的del,remove,pop區(qū)別詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-11-11解決pip安裝報(bào)錯(cuò)required?to?install?pyproject.toml-based?projec
這篇文章主要介紹了解決pip安裝報(bào)錯(cuò)required?to?install?pyproject.toml-based?projects問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2024-05-05python刪除過(guò)期log文件操作實(shí)例解析
這篇文章主要介紹了python刪除過(guò)期log文件,分享了相關(guān)代碼示例,小編覺(jué)得還是挺不錯(cuò)的,具有一定借鑒價(jià)值,需要的朋友可以參考下2018-01-01Python實(shí)現(xiàn)子類調(diào)用父類的方法
這篇文章主要介紹了Python實(shí)現(xiàn)子類調(diào)用父類的方法,解決子類覆蓋父類初始化方法而出現(xiàn)的不確定問(wèn)題,可通過(guò)調(diào)用超類構(gòu)造方法的未綁定版本或者使用super函數(shù)來(lái)解決,需要的朋友可以參考下2014-11-11Python爬蟲(chóng)requests庫(kù)多種用法實(shí)例
這篇文章主要介紹了Python爬蟲(chóng)requests庫(kù)多種用法實(shí)例,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-05-05pyecharts中from pyecharts import options
本文主要介紹了pyecharts中from pyecharts import options as opts報(bào)錯(cuò)問(wèn)題以及解決辦法,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2023-07-07Python實(shí)現(xiàn)npy/mat文件的保存與讀取
除了常用的csv文件和excel文件之外,我們還可以通過(guò)Python把數(shù)據(jù)保存文npy文件格式和mat文件格式。本文為大家展示了實(shí)現(xiàn)npy文件與mat文件的保存與讀取的示例代碼,需要的可以參考一下2022-04-04