python 實(shí)現(xiàn)在無(wú)序數(shù)組中找到中位數(shù)方法
一、問(wèn)題描述
1、求一個(gè)無(wú)序數(shù)組的中位數(shù), (若數(shù)組是偶數(shù),則中位數(shù)是指中間兩個(gè)數(shù)字之和除以2,若數(shù)組是奇數(shù),則中位數(shù)是指最中間位置。要求:不能使用排序,時(shí)間復(fù)雜度盡量低
2、例如:
lists = [3, 2, 1, 4] , 中位數(shù)為 = (2+3)/2 = 2.5
lists = [3, 1, 2] , 中位數(shù)為 2
3、算法思想:
利用快速排序思想(但是并不是全部使用):任意挑選一個(gè)元素,以該元素為key, 劃分?jǐn)?shù)組為兩個(gè)部分,如果左側(cè)數(shù)組長(zhǎng)度剛好為(n-1)/2, 那么key就為中位數(shù), 若左側(cè)數(shù)組長(zhǎng)度 < (n-1)/2 , 那么中位數(shù)點(diǎn)在右側(cè),反之,中位數(shù)在左側(cè)。然后進(jìn)入相應(yīng)的一側(cè)繼續(xù)尋找中位
平均時(shí)間復(fù)雜度為O(n)
二、程序
class Solution(object): def findmedian(self, lists): if not lists or len(lists) == 0: return [] n = len(lists) if n % 2 == 0: a = self.partition(lists, n/2, 0, n-1) b = self.partition(lists, n/2-1, 0, n-1) mid = (lists[a]+lists[b])/ (2 * 1.0) return mid else: mid = self.partition(lists, n/2, 0, n-1) return lists[mid] def partition(self, lists, k, start, end): key = lists[start] left, right = start, end while left < right: while left < right and lists[right] > key: right = right - 1 lists[left] = lists[right] while left < right and lists[left] < key: left = left + 1 lists[right] = lists[left] lists[left] = key if left == k: return left elif left > k: return self.partition(lists, k, start, left-1) else: return self.partition(lists, k, left+1, end) if __name__ == "__main__": sol = Solution() lists = [2, 5, 4, 9, 3, 6, 8, 7, 1] # lists = [1, 2] data = sol.findmedian(lists) print("中位數(shù) = %s" % data)
知識(shí)補(bǔ)充:python streaming 實(shí)現(xiàn)某個(gè)字段排序
一,hadoop streaming默認(rèn)情況
1,在hadoop streaming的默認(rèn)情況下,是以\t作為分隔符的,標(biāo)準(zhǔn)輸入時(shí),每行的第一個(gè)\t之前的內(nèi)容作為key,第一個(gè)\t之后的內(nèi)容作為value。注意,如果一個(gè)\t字符都沒(méi)有,那么整行作為key。
2,streaming的一些參數(shù)如下:
-D stream.map.output.field.separator :設(shè)置map輸出中key和value的分隔符
-D stream.num.map.output.key.fields : 設(shè)置map程序分隔符的位置,該位置之前的部分作為key,之后的部分作為value
-D map.output.key.field.separator : 設(shè)置map輸出中key內(nèi)部的分割符
-D num.key.fields.for.partition : 指定分桶時(shí),key按照分隔符切割后,其中用于分桶key所占的列數(shù)(配合-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner 使用)
-D stream.reduce.output.field.separator:設(shè)置reduce輸出中key和value的分隔符
-D stream.num.reduce.output.key.fields:設(shè)置reduce程序分隔符的位置
二,python streaming 實(shí)現(xiàn)某個(gè)字段的排序
1, 輸入數(shù)據(jù): cat data.txt (中間是tab鍵)
11 2
11 3
11 4 1
11 111 12 22
2,streaming程序如下:
vim sorted.sh
#!/bin/bash export CURRENT=/home/chunhe.liao/hadoop_streaming/sort /usr/local/hadoop-2.6.3/bin/hadoop jar /usr/local/hadoop-2.6.3/share/hadoop/tools/lib/hadoop-streaming-2.6.3.jar \ -D stream.map.output.field.separator='\t' \ -D stream.num.map.output.key.fields=3 \ -D mapreduce.job.output.key.comparator.class=org.apache.hadoop.mapreduce.lib.partition.KeyFieldBasedComparator \ -D mapreduce.partition.keycomparator.options=-k3,3nr \ # 按照第三列逆序排列,可以根據(jù)想要的第幾段來(lái)選擇。 -input "/user/test/inputdata/datas3/data.txt" \ -output "/user/test/streaming/sorted_20180711" \ -mapper "python mapper.py" \ -reducer "python reducer.py" \ -file "$CURRENT/mapper.py" \ -file "$CURRENT/reducer.py"
(2) mapper.py
# -*- coding: utf-8 -*- import sys for line in sys.stdin: line = line.strip() print('{0}'.format(line))
(3) reducer.py
# -*- coding: utf-8 -*- import sys for line in sys.stdin: line = line.strip() print("{0}".format(line))
運(yùn)行命令:
bash sorted.sh
運(yùn)行結(jié)果:
hdfs dfs -cat /user/test/streaming/sorted_20180711/part-00000
11 12 22
11 3
11 2
11 4 1
11 1
以上這篇python 實(shí)現(xiàn)在無(wú)序數(shù)組中找到中位數(shù)方法就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
- Python如何實(shí)現(xiàn)大型數(shù)組運(yùn)算(使用NumPy)
- python如何建立全零數(shù)組
- Python替換NumPy數(shù)組中大于某個(gè)值的所有元素實(shí)例
- Python數(shù)組拼接np.concatenate實(shí)現(xiàn)過(guò)程
- Python 改變數(shù)組類(lèi)型為uint8的實(shí)現(xiàn)
- python由已知數(shù)組快速生成新數(shù)組的方法
- python 工具 字符串轉(zhuǎn)numpy浮點(diǎn)數(shù)組的實(shí)現(xiàn)
- 在python3中實(shí)現(xiàn)查找數(shù)組中最接近與某值的元素操作
- python 實(shí)現(xiàn)多維數(shù)組(array)排序
- python對(duì)數(shù)組進(jìn)行排序,并輸出排序后對(duì)應(yīng)的索引值方式
- Python如何讀寫(xiě)二進(jìn)制數(shù)組數(shù)據(jù)
相關(guān)文章
用Python和MD5實(shí)現(xiàn)網(wǎng)站掛馬檢測(cè)程序
系統(tǒng)管理員通常從svn/git中檢索代碼,部署站點(diǎn)后通常首先會(huì)生成該站點(diǎn)所有文件的MD5值,如果上線(xiàn)后網(wǎng)站頁(yè)面內(nèi)容被篡改(如掛馬)等,可以比對(duì)之前生成MD5值快速查找去那些文件被更改,為了使系統(tǒng)管理員第一時(shí)間發(fā)現(xiàn),可結(jié)合crontab或nagios等工具2014-03-03Python趣味挑戰(zhàn)之turtle庫(kù)繪畫(huà)飄落的銀杏樹(shù)
銀杏還是和恐龍同時(shí)代的植物,被稱(chēng)為活化石,適應(yīng)能力強(qiáng),生長(zhǎng)期漫長(zhǎng),壽命可達(dá)千年.因此,銀杏是長(zhǎng)壽的代表和象征,接下來(lái)用Python的turtle庫(kù)來(lái)繪畫(huà)銀杏樹(shù)唯美的一幕,需要的朋友可以參考下2021-05-05wxPython框架類(lèi)和面板類(lèi)的使用實(shí)例
這篇文章主要介紹了wxPython框架類(lèi)和面板類(lèi)的使用實(shí)例,主要實(shí)現(xiàn)了自定義框架類(lèi)及其完整的調(diào)用方法,代碼簡(jiǎn)單高效,是進(jìn)一步學(xué)習(xí)wxPython框架類(lèi)的基礎(chǔ),需要的朋友可以參考下2014-09-09工程師必須了解的LRU緩存淘汰算法以及python實(shí)現(xiàn)過(guò)程
這篇文章主要介紹了工程師必須了解的LRU緩存淘汰算法以及python實(shí)現(xiàn)過(guò)程,幫助大家更好的學(xué)習(xí)算法數(shù)據(jù)結(jié)構(gòu),感興趣的朋友可以了解下2020-10-10如何利用Python寫(xiě)猜數(shù)字和字母的游戲
這篇文章主要介紹了如何利用Python寫(xiě)猜數(shù)字和字母的游戲,文章基于Python實(shí)現(xiàn)游戲小項(xiàng)目,感興趣的朋友可以參考一下2022-07-07Python實(shí)現(xiàn)數(shù)值積分方式
今天小編就為大家分享一篇Python實(shí)現(xiàn)數(shù)值積分方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-11-11