基于Python實現(xiàn)層次性數(shù)據(jù)和閉包性質
緒論
序對可以為我們提供用于構造復合數(shù)據(jù)的基本“粘接劑”,鑒于Python中tuple
中元素不可變的性質,我們通過list
來實現(xiàn)序對,如[1, 2]
。Python的PyListObject
對象中實際是存放的是PyObject*
指針, 所以可以將PyListObject
視為vecter<PyObject*>
。這是一種盒子與指針表示方式(list
內的元素表示為一個指向對象盒子的指針)。對于[1, 2]
,可將其視為以下結構:
我們不僅可以用[]
去組合起各種數(shù)值,也可以用它取組合起其它序對。這樣,序對就是一種通用的建筑砌塊,通過它可以構造所有不同種類的數(shù)據(jù)結構來。比如想組合數(shù)值1, 2, 3, 4
,我們可以用[[1, 2], [3, 4]]
的方式(下圖左),也可以用[[1, [2, 3]], 4]
(下圖右)
可以構建元素本身也是序對的序對,這種能力稱為[]
的閉包性質。注意,這里的閉包是來自抽象代數(shù)的術語(不是Python語法中那個閉包)。抽象代數(shù)中,如果將某個運算(操作)作用于某個集合的特定元素 ,產出的仍然是該集合的元素,則稱該集合元素在該運算之下封閉。我們這里說組合數(shù)據(jù)對象的操作滿足閉包性質,指通過它組合起數(shù)據(jù)對象得到的結果本身還可以通過同樣的操作再進行組合。
閉包性質可以使我們構建層次性的結構,這種結構由一些部分構成,而其中的各個部分又是由它們的部分構成,并且可以繼續(xù)下去。下面我們介紹用序對來表示序列和樹。
1.序列的表示
利用序對可以夠造出的一類有用結構是序列——一批數(shù)據(jù)對象的有序匯集。利用序對表示序列的方式很多,一種最直接的表示方式為[1, [2, [3, [4, None]]]]
如下圖所示:
我們不妨將這種通過嵌套序對形成的序列稱為鏈表。因為Python本身不內置鏈表結構,我們不妨用序對來實現(xiàn)鏈表:
class LinkedList(): def __init__(self, *items) -> None: """提供兩種初始化方式:序對或多個元素 """ if isinstance(items[0], list): self.pair = items[0] else: self.pair = self._construct(*items) def _construct(self, *items): """遞歸地構造鏈表 """ if items == (): return None else: item, *rest = items return [item, self._construct(*rest)] def __repr__(self): """重寫打印函數(shù) """ return "-->".join(map(str, self._flatten(self.pair))) def _flatten(self, pair): """遍歷鏈表,返回其一維展開 """ if pair is None: return [] else: return [pair[0]] + self._flatten(pair[1]) @property def head(self): """獲取鏈表頭部元素 """ return self.pair[0] @property def rest(self): """獲取鏈表頭部元素之外的元素,并以鏈表形式返回 """ if self.pair[1] is None: return None else: return LinkedList(self.pair[1])
這樣,我們就可以方便地構造鏈表并將其打印輸出了:
print(LinkedList(1, 2, 3, 4)) # 1-->2-->3-->4
注意,None
用于表示序對的鏈結束。在語言設計上可能有以下爭論:None
應該是個普通的名字嗎?None
應該算是一個普通的名字嗎?None
應該算是一個符號嗎?他應該算是一個空表嗎?在Python中,解決此問題的手段是將None
的類型規(guī)定為<class 'NoneType'>
,
表操作
利用序對將元素的序列表示為鏈表之后,我們就可以使用常規(guī)的程序設計技術,通過獲取鏈表的head
和rest
的方式完成對鏈表的各種操作了。如下面的過程list-ref
實際參數(shù)是一個表和一個數(shù)n
,它返回這個表中的第n
項:
def list_ref(items, n): if n == 0: return items.head else: return list_ref(items.rest, n-1) print(list_ref(LinkedList(1, 4, 9, 16, 25), 3)) # 16
length
過程則用于返回表中的項數(shù):
def length(items): if items is None: return 0 else: return 1 + length(items.rest) print(length(LinkedList(1, 3, 5, 7))) # 4
或者寫為迭代的形式(此處用尾遞歸的形式,即遞歸調用是整個函數(shù)體中最后執(zhí)行的語句且它的返回值不屬于表達式的一部分時,這樣就無需保存返回值,可在常數(shù)空間內執(zhí)行迭代型計算):
# 以迭代的方式計算lengths(尾遞歸) def length(items): def length_iter(a, count): if a is None: return count else: return length_iter(a.rest, count + 1) return length_iter(items, 0) print(length(LinkedList(1, 3, 5, 7))) # 4
當然, Python解釋器默認是不開啟尾遞歸優(yōu)化的,需要用其他黑魔法實現(xiàn),參考《Python開啟尾遞歸優(yōu)化!》
還有一種常見操作是append
,如對odds
:[1, 3, 5, 7]
、squares
:[1, 4, 9, 16, 25]
、append(odds, squares)
得[1 3 5 7 1 4 9 16 25]
,append(squares, odds)
得[1 4 9 16 25 1 3 5 7]
,也可以通過遞歸實現(xiàn):
def append(lk_list1, lk_list2): if lk_list1 is None: return lk_list2.pair else: return [lk_list1.head, append(lk_list1.rest, lk_list2)] odds = LinkedList(1, 3, 5, 7) squares = LinkedList(1, 4, 9, 16, 25) print(LinkedList(append(odds, squares))) # 1-->3-->5-->7-->1-->4-->9-->16-->25 print(LinkedList(append(squares, odds))) # 1-->4-->9-->16-->25-->1-->3-->5-->7
對鏈表的映射
另外一個特別擁有用的操作時將某種操作應用于一個鏈表的所有元素,得到所有結果構成的表。下面的過程將一個鏈表中的所有元素按給定因子做一次縮放:
def scale_list(items, factor): if items is None: return None else: return [items.head * factor, scale_list(items.rest, factor)] print(LinkedList(scale_list(LinkedList(1, 2, 3, 4, 5), 10))) # 10-->20-->30-->40-->50
我們可以抽象出這一具有一般性的想法,將其中的公共模式表述為一個高階函數(shù)(接收其它函數(shù)做為參數(shù))。
def my_map(proc, items): if items is None: return None else: return [proc(items.head), my_map(proc, items.rest)] print(LinkedList(my_map(abs, LinkedList(-10, 2.5, -11.6, 17)))) # 10-->2.5-->11.6-->17 print(LinkedList(my_map(lambda x: x**2, LinkedList(1, 2, 3, 4, 5)))) # 1-->4-->9-->16-->25
這里的公共模式,其實就類似于設計模式中的模板方法,參見設計模式:模板方法。
現(xiàn)在我們可以用map
給scale_list一個新定義:
def scale_list(items, factor): return LinkedList(my_map(lambda x: x*factor, items)) print(scale_list(LinkedList(1, 2, 3, 4, 5), 10)) # 10-->20-->30-->40-->50
map
是一種很重要的結構,不僅因為它代表了一種公共模式,而且因為它建立起了一種處理表的高層抽象(與今日的Scala何其相似!),在老版本的scale_list
中,程序的遞歸結構將人的注意力吸引到對表中元素的逐個處理中。通過map
定義的scale_list
抑制了這種細節(jié)層面上的情況,強調的是從元素表到結果表的一個縮放變換。這兩種定義形式之間的差異,并不在于計算機會執(zhí)行不同的計算過程(其實不會),而在于我們對同一個過程的不同思考方式。 從作用上看,map
幫我們建起了一層抽象屏障,將實現(xiàn)表轉換過程的實現(xiàn),與與如何提取表中元素以及組合結果的細節(jié)隔離開。
2.層次性結構
注意,由于下面由于我們會涉及更復雜的數(shù)據(jù)結構,我們統(tǒng)一將序列就用Python內置的列表表示。
我們下面來看元素本身也是序列的序列。比如我們可以認為[[1, 2], 3, 4]
是將[1, 2]
做為元素加入序列[3, 4]
而得。這種表結構可以看做是樹,即序列中的元素就是樹的分支,而那些本身也是序列的元素就形成了樹中的子樹:
遞歸是處理樹結構的一種很自然的工具,因為我們常常可以將對于樹的操作歸結為對它們的分支的操作,再將這種操作歸結為對分支的分支的操作,如此下去,直至達到了樹的葉子。如類似2.2.1
中用length
統(tǒng)計序列長度,我們通過以下代碼統(tǒng)計樹葉數(shù)目:
def count_leaves(tree): if not tree: return 0 elif isinstance(tree, int): return 1 else: return count_leaves(tree[0]) + count_leaves(tree[1:]) tree = [[1, 2], 3, 4] print(count_leaves(tree)) # 4
對樹的映射
map
是處理序列的一種強有力抽象,與此類似,map
與遞歸結合也是處理樹的一種強有力抽象。類似于2.2.1
中用scale_list
過程對序列元素進行縮放,我們也可以設計scale_tree
過程,該過程以一個因子和一棵葉子為數(shù)值的樹作為參數(shù),返回一顆具有同樣形狀的樹,該樹中的每個數(shù)值都乘以了這個因子:
def scale_tree(tree, factor): if not tree: return [] if isinstance(tree, int): return tree * factor else: return [scale_tree(tree[0], factor)] + scale_tree(tree[1:], factor) tree = [1, [2, [3, 4], 5], [6, 7]] print(scale_tree(tree, 10)) # [10, [20, [30, 40], 50], [60, 70]]
實現(xiàn)scale_tree
的另一種方法是將樹看成子樹的序列,并對它使用map
。我們在這種序列上做映射,一次對各棵子樹做縮放,并返回結果的表。對于基礎情況,也就是當被處理的樹是樹葉時,就直接用因子去乘它:
def scale_tree(tree, factor): return list(map(lambda sub_tree: scale_tree(sub_tree, factor) if isinstance(sub_tree, list) else sub_tree * factor, tree)) tree = [1, [2, [3, 4], 5], [6, 7]] print(scale_tree(tree, 10)) # [10, [20, [30, 40], 50], [60, 70]]
此處的map
我們直接采用Python語言內置的map
,當然也可以自己實現(xiàn)my_map
,如下:
def my_map(proc, items): if items == []: return [] else: return [proc(items[0])] + my_map(proc, items[1:])
3.序列做為一種約定的界面
數(shù)據(jù)抽象可以讓我們設計出不被數(shù)據(jù)表示細節(jié)糾纏的程序,使程序保持很好的彈性。在這一節(jié)里,我們將要介紹與數(shù)據(jù)結構有關的另一種強有力的設計原理——使用約定的界面。
在1.3節(jié)中我們看到,通過實現(xiàn)為高階過程的程序抽象,可以讓我們抓住處理數(shù)值數(shù)據(jù)的一些程序模式。而在復合數(shù)據(jù)上工作做出類似的操作,則對我們操控數(shù)據(jù)結構的方式有著深刻的依賴性。如考慮一個與2.2.2節(jié)中的count_leaves
類似的過程,它以一棵樹為參數(shù),計算出那些值為奇數(shù)的葉子的平方和:
def sum_odd_squares(tree): if not tree: return 0 elif isinstance(tree, int): if tree % 2 == 1: return tree**2 else: return 0 else: return sum_odd_squares(tree[0]) + sum_odd_squares(tree[1:])
從表面上看,這一過程與下面的過程很不一樣。下面的這個過程給定一個整數(shù)nn,對∀k?n∀k?n計算Fib(k)
并篩選出其中為偶數(shù)的值,其中Fib(k)
為第kk個Fibonacci數(shù)(設第0個Fibonacci數(shù)為0):
def fib(n): if n == 0: return 0 elif n == 1: return 1 else: return fib(n-1) + fib(n-2)
該過程表示如下:
def even_fibs(n): # 枚舉從0到n的整數(shù) def next(k): if k > n: return [] else: f = fib(k) # 對每個整數(shù)計算其fib if f % 2 == 0: # 過濾結果,選出其中偶數(shù) return [f] + next(k + 1) # 累積結果 else: return next(k+1) return next(0) print(even_fibs(5)) # [0, 2] (即[0 1 1 2 3 5]中的偶數(shù)為[0, 2])
雖然sum_odd_squares
過程和even_fibs
過程結構式差異非常大,但是對于兩個計算的抽象描述卻會揭露出它們間極大的相似性。sum_odd_squares
過程:
- 枚舉出一棵樹的樹葉
- 過濾它們,選出其中的奇數(shù)
- 對選出的每一個數(shù)求平方
- 用+累積起得到的結果
而 sum_odd_squares
過程:
- 枚舉從00到nn的整數(shù)
- 對每個整數(shù)計算相應的Fibonacci數(shù)
- 過濾它們,選出其中的偶數(shù)
- 用
connect
累計得到的結果
注意,connect
函數(shù)用于對將兩個數(shù)值對象連接為列表或將數(shù)值對象加入一個列表,定義如下:
def con(x, y): # y規(guī)定為int,x可以為int或list if isinstance(x, int): return [x] + [y] else: return x + [y]
信號工程師可能會發(fā)現(xiàn),這種過程其實可以描述為信號流過一系列的級聯(lián)處理步驟,每個步驟實現(xiàn)程序方案中的一部分。如下圖所示:
遺憾的是,上面兩個過程的定義并沒有展現(xiàn)這種信號流結構。具體地說,我們的兩個過程將enumerate
工作散布在程序中各處,并將它與map
、filter
和reduce
混在一起。如果我們能夠重新組織這一程序,使信號流結構明顯表現(xiàn)在寫出的過程中,將會大大提高代碼的清晰性。
其中map
、filter
、reduce
算子可以采用Python內置函數(shù),也可以自己實現(xiàn)。自己實現(xiàn)的話可以這樣寫:
def my_map(proc, sequence): if not sequence: return [] else: return [proc(sequence[0])] + my_map(proc, sequence[1:]) print(my_map(lambda x: x**2, [1, 2, 3, 4, 5])) # [1, 4, 9, 16, 25] def my_filter(predicate, sequence): if not sequence: return [] elif predicate(sequence[0]): return [sequence[0]] + my_filter(predicate, sequence[1:]) else: return my_filter(predicate, sequence[1:]) print(my_filter(lambda x: x % 2, [1, 2, 3, 4, 5])) # [1, 3, 5] # print(list(accumulate([1,2,3]))) def my_reduce(op, sequence): if sequence[-1] and not sequence[:-1]: return sequence[-1] else: return op(my_reduce(op, sequence[:-1]), sequence[-1]) print(my_reduce(add, [1, 2, 3, 4, 5])) # 15 print(my_reduce(mul, [1, 2, 3, 4, 5])) # 120 print(my_reduce(con, [1, 2, 3, 4, 5])) # [1, 2, 3, 4, 5]
為了簡便起見,我們下面map
、filter
、reduce
算子統(tǒng)一采用Python內置函數(shù)。
除了這三個算子之外,我們還需要枚舉(enumerate)出需要處理的數(shù)據(jù)序列。對于even-fibs
,我們需要生成一個給定區(qū)間里的整數(shù)序列:
def enumerate_interval(low, high): if low > high: return [] else: return [low] + enumerate_interval(low + 1, high) print(enumerate_interval(2, 7)) # [2, 3, 4, 5, 6, 7]
對于sum_odd_squares
,則需要枚舉出一棵樹的所有樹葉:
# 枚舉一棵樹所有的樹葉: def enumerate_tree(tree): if not tree: return [] elif isinstance(tree, int): return [tree] else: return enumerate_tree(tree[0]) + enumerate_tree(tree[1:]) print(enumerate_tree([1, [2, [3, 4], 5]])) # [1, 2, 3, 4, 5]
現(xiàn)在,我們就可以像上面的信號流圖那樣重新構造sum_odd_squares
和even-fibs
了。
sum_odd_squares
的構造方法如下:
def sum_odd_squares(tree): return reduce(add, map(lambda x: x**2, filter(lambda x: x % 2, enumerate_tree(tree)))) print(sum_odd_squares([1, 2, 3, 4, 5])) # 35
even-fibs
的構造方法如下:
def even_fibs(n): return reduce(con, filter(lambda x: not x % 2, map(fib, enumerate_interval(0, n)))) print(even_fibs(5)) #[0, 2]
將程序表示為一些針對序列的操作,這樣做的價值就愛在于能幫助我們得到模塊化的程序設計。而在工程設計中,模塊化結構是控制復雜性的一種威力強大的策略。如同信號處理中設計者從標準的過濾器和變換裝置中選出一些東西來級聯(lián),從而構造出各種系統(tǒng)。同樣地,序列操作也形成了一個可以混合和匹配使用的標準程序元素庫。
如我們在另一個產生前n+1n+1個Fibonacci數(shù)的平方的程序里,就可以使用取自過程sum_odd_squares
和even-fibs
的片段:
def list_fib_squares(n): return reduce(con, map(lambda x: x**2, map(fib, enumerate_interval(0, n)))) print(list_fib_squares(5)) # [0, 1, 1, 4, 9, 25]
也可以重新安排有關的各個片段,將它們用在產生一個序列中所有奇數(shù)的平方之乘積的程序里:
def product_of_squares_of_odd_elements_sequence(sequence): return reduce(mul, map(lambda x: x**2, filter(lambda x: x % 2, sequence))) print(product_of_squares_of_odd_elements_sequence([1, 2, 3, 4, 5])) # [0, 1, 1, 4, 9, 25]
我們同樣可以采用序列操作的方式,重新去形式化各種常規(guī)的數(shù)據(jù)處理應用。假定有一個人事記錄的序列,現(xiàn)在希望找出其中薪水最高的程序員的工資。假定有一個salary
返回記錄中的工資,謂詞函數(shù)is_programmer
檢查某個記錄是不是程序員,此時我們就可以寫:
def salary_of_hightest_paid_programmer(records): return reduce(max, map(salary, filter(is_programmer, records)))
在這里,用表實現(xiàn)的序列被做為一種方便的界面,我們可以利用這種界面去組合起各種處理模塊。
到此這篇關于基于Python實現(xiàn)層次性數(shù)據(jù)和閉包性質的文章就介紹到這了,更多相關Python層次性數(shù)據(jù)內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
Python數(shù)據(jù)分析之繪制ppi-cpi剪刀差圖形
這篇文章主要介紹了Python數(shù)據(jù)分析之繪制ppi-cpi剪刀差圖形,ppi-cp剪刀差是通過這個指標可以了解當前的經(jīng)濟運行狀況,下文更多詳細內容介紹需要的小伙伴可以參考一下2022-05-05Python內建模塊collections實現(xiàn)特殊容器數(shù)據(jù)類型
collections模塊是Python的內建模塊之一,它實現(xiàn)了特殊的容器數(shù)據(jù)類型,提供了Python內建的數(shù)據(jù)類型dict、list、set、和tuple的高效替代選擇2023-06-06python數(shù)據(jù)可視化Seaborn繪制山脊圖
這篇文章主要介紹了利用python數(shù)據(jù)可視化Seaborn繪制山脊圖,山脊圖一般由垂直堆疊的折線圖組成,這些折線圖中的折線區(qū)域間彼此重疊,此外它們還共享相同的x軸.下面來看看具體的繪制過程吧,需要的小伙伴可以參考一下2022-01-01