python爬蟲面試必看的常見問題與參考答案解析

先來一份完整的Python爬蟲工程師關(guān)于Python面試的考點(diǎn):
搞定這套 Python 爬蟲面試題,Python面試 so easy
一、 Python 基本功
1、簡述Python 的特點(diǎn)和優(yōu)點(diǎn)
Python 是一門開源的解釋性語言,相比 Java C++ 等語言,Python 具有動態(tài)特性,非常靈活。
2、Python 有哪些數(shù)據(jù)類型?
Python 有 6 種內(nèi)置的數(shù)據(jù)類型,其中不可變數(shù)據(jù)類型是Number(數(shù)字), String(字符串), Tuple(元組),可變數(shù)據(jù)類型是 List(列表),Dict(字典),Set(集合)。
3、列表和元組的區(qū)別
列表和元組都是可迭代對象,能夠?qū)ζ溥M(jìn)行循環(huán)、切片等,但元組 tuple 是不可變的。元組不可變的特性,使得它可以成為字典 Dict 中的鍵。
4、Python 是如何運(yùn)行的
CPython:
Python 程序運(yùn)行時,會先進(jìn)行編譯,將 .py 文件中的代碼編譯成字節(jié)碼(byte code),編譯結(jié)果儲存在內(nèi)存的 PyCodeObject 中,然后由 Python 虛擬機(jī)解釋運(yùn)行。當(dāng)程序運(yùn)行結(jié)束后,Python 解釋器會將 PyCodeObject 保存到 pyc 文件中。每一次運(yùn)行時 Python 都會先尋找與文件同名的 pyc 文件,如果 pyc 存在則比對修改記錄,根據(jù)修改記錄決定直接運(yùn)行或再次編譯后運(yùn)行,最后生成 pyc 文件 。
5、Python 運(yùn)行速度慢的原因
a). Python 不是強(qiáng)類型的語言,所以解釋器運(yùn)行時遇到變量以及數(shù)據(jù)類型轉(zhuǎn)換、比較操作、引用變量時都需要檢查其數(shù)據(jù)類型。
b). Python 的編譯器啟動速度比 JAVA 快,但幾乎每次都要啟動編譯。
c). Python 的對象模型會導(dǎo)致訪問內(nèi)存效率變低。Numpy 的指針指向緩存區(qū)數(shù)據(jù)的值,而 Python 的指針指向緩存對象,再通過緩存對象指向數(shù)據(jù):
搞定這套 Python 爬蟲面試題,Python面試 so easy
6、面對 Python 慢的問題,有什么解決辦法
a). 可以使用其他的解釋器,比如 PyPy 和 Jython 等。
b). 如果對性能要求較高且靜態(tài)類型變量較多的應(yīng)用程序,可以使用 CPython。
c). 對于 IO 操作多的應(yīng)用程序,Python 提供 asyncio 模塊提高異步能力。
7、描述一下全局解釋器鎖 GIL
每個線程在執(zhí)行時候都需要先獲取 GIL,保證同一時刻只有一個線程可以執(zhí)行代碼,即同一時刻只有一個線程使用 CPU,也就是說多線程并不是真正意義上的同時執(zhí)行。但是在 IO 操作時,是可以釋放鎖的(這也是 Python 能夠異步的原因)。而且如果想要利用多核 CPU,那么可以使用多進(jìn)程。
8、深拷貝 淺拷貝
深拷貝是將對象本身復(fù)制給另一個對象,淺拷貝則是將對象的引用復(fù)制給另一個對象。所以當(dāng)復(fù)制后的對象改變時,深拷貝的原對象值不會改變,而淺拷貝原對象的值會被改變。
9、is 和 == 的區(qū)別
is 表示的是對象標(biāo)示符(object identity),而 == 表示的是相等(equality)。
is 的作用是用來檢查對象的標(biāo)示符是否一致,也就是比較兩個對象在內(nèi)存中的地址是否一樣,而 == 是用來檢查兩個對象是否相等。但是為了提高系統(tǒng)性能,對于較小的字符串 Python 會保留其值的一個副本,當(dāng)創(chuàng)建新的字符串的時候直接指向該副本即可。如:
a = 8 b = 8 a is b
10、文件讀寫
簡述文件讀取時 read 、readline、readlines 的區(qū)別和作用
他們的區(qū)別除了讀取內(nèi)容范圍不同外,返回的內(nèi)容類型也不同。
read()
會讀取整個文件,將讀取到底的文件內(nèi)容放到一個字符串變量,返回 str 類型。
readline()
讀取一行內(nèi)容,放到一個字符串變量,返回 str 類型。
readlines()
讀取文件所有內(nèi)容,按行為單位放到一個列表中,返回 list 類型。
11、請用一行代碼實(shí)現(xiàn)
請分別使用匿名函數(shù)和推導(dǎo)式這兩種方式將 [0, 1, 2, 3, 4, 5] 中的元素求乘積,并打印輸出元組。
print(tuple(map(lambda x: x * x, [0, 1, 2, 3, 4, 5]))) print(tuple(i*i for i in [0, 1, 2, 3, 4, 5]))
12、請用一行代碼實(shí)現(xiàn)
用 reduce 計(jì)算 n 的階乘(n!=1×2×3×…×n)
print(reduce(lambda x, y: x*y, range(1, n)))
13、請用一行代碼實(shí)現(xiàn)
篩選并打印輸出 100 以內(nèi)能被 3 整除的數(shù)的集合
print(set(filter(lambda n: n % 3 == 0, range(1, 100))))
14、請用一行代碼實(shí)現(xiàn)
text = 'Obj{"Name": "pic", "data": [{"name": "async", "number": 9, "price": "$3500"}, {"name": "Wade", "number": 3, "price": "$5500"}], "Team": "Hot"'
打印文本中的球員身價(jià)元組,如 ($3500, $5500)
print(tuple(i.get("price") for i in json.loads(re.search(r'[(.*)]', text).group(0))))
15、請寫出遞歸的基本骨架
def recursions(n): if n == 1:
退出條件
return 1
繼續(xù)遞歸
return n * recursions(n - 1)
16、切片
請寫出下方輸出結(jié)果
tpl = [0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95] print(tpl[3:]) print(tpl[:3]) print(tpl[::5]) print(tpl[-3]) print(tpl[3]) print(tpl[::-5]) print(tpl[:]) del tpl[3:] print(tpl) print(tpl.pop()) tpl.insert(3, 3) print(tpl)
[15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95]
[0, 5, 10]
[0, 25, 50, 75]
85
15
[95, 70, 45, 20]
[0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95]
[0, 5, 10]
10
[0, 5, 3]
17、文件路徑
打印輸出當(dāng)前文件所在目錄路徑
import os print(os.path.dirname(os.path.abspath(file)))
打印輸出當(dāng)前文件路徑
import os print(os.path.abspath(file))
打印輸出當(dāng)前文件上兩層文件目錄路徑
import os print(os.path.dirname(os.path.dirname(os.path.abspath(file))))
18、請寫出運(yùn)行結(jié)果,并回答問題
tpl = (1, 2, 3, 4, 5) apl = (6, 7, 8, 9) print(tpl.add(apl))
問題:tpl 的值發(fā)生變化了嗎?
運(yùn)行結(jié)果如下:
(1, 2, 3, 4, 5, 6, 7, 8, 9)
答:元組是不可變的,它是生成新的對象
19、請寫出運(yùn)行結(jié)果,并回答問題
name = ('James', 'Wade', 'Kobe') team = ['A', 'B', 'C'] tpl = {name: team} print(tpl) apl = {team: name} print(apl)
問題:這段代碼能運(yùn)行完畢嗎?為什么?它的運(yùn)行結(jié)果是?
答:這段代碼不能完整運(yùn)行,它會在 apl 處拋出異常,因?yàn)樽值涞逆I只能是不可變對象,而 list 是可變的,所以不能作為字典的鍵。運(yùn)行結(jié)果是:
{('James', 'Wade', 'Kobe'): ['A', 'B', 'C']}
TypeError
20、裝飾器
請寫出裝飾器代碼骨架
def log(func): def wrapper(*args, **kw): print('call %s():' % func.name) return func(*args, **kw) return wrapper
簡述裝飾器在 Python 中的作用:
在不改動原函數(shù)代碼的情況下,為其增加新的功能。
21、多進(jìn)程 多線程
多進(jìn)程更穩(wěn)定還是多線程更穩(wěn)定?為什么?
多進(jìn)程更穩(wěn)定,它們是獨(dú)立運(yùn)行的,不會因?yàn)橐粋€崩潰而影響其他進(jìn)程。
多線程的致命缺點(diǎn)是什么?
因?yàn)樗芯€程共享進(jìn)程的內(nèi)存,所以任何一個線程掛掉都可能直接造成整個進(jìn)程崩潰。
進(jìn)程間通信有哪些方式?
共享變量、隊(duì)列、管道。
二、Python 細(xì)節(jié)問題
1、 連接字符串用join還是+
當(dāng)用操作符+連接字符串的時候,每執(zhí)行一次+都會申請一塊新的內(nèi)存,然后復(fù)制上一個+操作的結(jié)果和本次操作的右操作符到這塊內(nèi)存空間,因此用+連接字符串的時候會涉及好幾次內(nèi)存申請和復(fù)制。而join在連接字符串的時候,會先計(jì)算需要多大的內(nèi)存存放結(jié)果,然后一次性申請所需內(nèi)存并將字符串復(fù)制過去,這是為什么join的性能優(yōu)于+的原因。所以在連接字符串?dāng)?shù)組的時候,應(yīng)考慮優(yōu)先使用join。
2、Python 垃圾回收機(jī)制
參考http://www.dbjr.com.cn/article/52229.htm
Python中的垃圾回收是以引用計(jì)數(shù)為主,分代收集為輔。引用計(jì)數(shù)的缺陷是循環(huán)引用的問題。
在Python中,如果一個對象的引用數(shù)為0,Python虛擬機(jī)就會回收這個對象的內(nèi)存。
引用計(jì)數(shù)法的原理是每個對象維護(hù)一個ob_refcnt,用來記錄當(dāng)前對象被引用的次數(shù),也就是來追蹤到底有多少引用指向了這個對象,當(dāng)對象被創(chuàng)建、對象被引用、對象被傳入函數(shù)、被存儲在容器中等四種情況時,該對象的引用計(jì)數(shù)器 +1
對象被創(chuàng)建 a=14
對象被引用 b=a
對象被作為參數(shù),傳到函數(shù)中 func(a)
對象作為一個元素,存儲在容器中 List={a,"a","b",2}
與上述情況相對應(yīng),當(dāng)發(fā)生對象別名被 del 銷毀時、對象的引用被賦予新對象時、漢書執(zhí)行完畢后、從容器中刪除時等四種情況,該對象的引用計(jì)數(shù)器-1
當(dāng)該對象的別名被顯式銷毀時 del a
當(dāng)該對象的引別名被賦予新的對象, a=26
一個對象離開它的作用域,例如 func函數(shù)執(zhí)行完畢時,函數(shù)里面的局部變量的引用計(jì)數(shù)器就會 -1(但是全局變量不會)。
將該元素從容器中刪除時,或者容器被銷毀時。
當(dāng)指向該對象的內(nèi)存的引用計(jì)數(shù)器為0的時候,該內(nèi)存將會被Python虛擬機(jī)釋放.
sys.getrefcount(a)可以查看 a 對象的引用計(jì)數(shù),但是比正常計(jì)數(shù)大1,因?yàn)檎{(diào)用函數(shù)的時候傳入a,這會讓 a 的引用計(jì)數(shù)+1
引用計(jì)數(shù)的優(yōu)點(diǎn):
1、高效
2、運(yùn)行期沒有停頓:一旦沒有引用,內(nèi)存就直接釋放了。不用像其他機(jī)制等到特定時機(jī)。實(shí)時性還帶來一個好處:處理回收內(nèi)存的時間分?jǐn)偟搅似綍r。
3、對象有確定的生命周期
4、易于實(shí)現(xiàn)
引用計(jì)數(shù)的缺點(diǎn):
1、維護(hù)引用計(jì)數(shù)消耗資源,維護(hù)引用計(jì)數(shù)的次數(shù)和引用賦值成正比,而不像mark and sweep等基本與回收的內(nèi)存數(shù)量有關(guān)。
2、無法解決循環(huán)引用的問題。A和B相互引用而再沒有外部引用A與B中的任何一個,它們的引用計(jì)數(shù)都為1,但顯然應(yīng)該被回收。
循環(huán)引用示例
list1 = [] list2 = [] list1.append(list2) list2.append(list1)
為了解決這兩個缺點(diǎn) Python 還引入了另外的機(jī)制:標(biāo)記清除和分代回收.
- 標(biāo)記清除
『標(biāo)記清除(Mark—Sweep)』算法是一種基于追蹤回收(tracing GC)技術(shù)實(shí)現(xiàn)的垃圾回收算法。它分為兩個階段:第一階段是標(biāo)記階段,GC會把所有的『活動對象』打上標(biāo)記,第二階段是把那些沒有標(biāo)記的對象『非活動對象』進(jìn)行回收。那么GC又是如何判斷哪些是活動對象哪些是非活動對象的呢?
對象之間通過引用(指針)連在一起,構(gòu)成一個有向圖,對象構(gòu)成這個有向圖的節(jié)點(diǎn),而引用關(guān)系構(gòu)成這個有向圖的邊。從根對象(root object)出發(fā),沿著有向邊遍歷對象,可達(dá)的(reachable)對象標(biāo)記為活動對象,不可達(dá)的對象就是要被清除的非活動對象。根對象就是全局變量、調(diào)用棧、寄存器。
搞定這套 Python 爬蟲面試題,Python面試 so easy
在上圖中,我們把小黑圈視為全局變量,也就是把它作為root object,從小黑圈出發(fā),對象1可直達(dá),那么它將被標(biāo)記,對象2、3可間接到達(dá)也會被標(biāo)記,而4和5不可達(dá),那么1、2、3就是活動對象,4和5是非活動對象會被GC回收。
標(biāo)記清除算法作為Python的輔助垃圾收集技術(shù)主要處理的是一些容器對象,比如list、dict、tuple,instance等,因?yàn)閷τ谧址?shù)值對象是不可能造成循環(huán)引用問題。
Python使用一個雙向鏈表將這些容器對象組織起來。不過,這種簡單粗暴的標(biāo)記清除算法也有明顯的缺點(diǎn):清除非活動的對象前它必須順序掃描整個堆內(nèi)存,哪怕只剩下小部分活動對象也要掃描所有對象。
- 分代回收
分代回收同樣作為Python的輔助垃圾收集技術(shù)處理那些容器對象。
GC 的邏輯
分配內(nèi)存
-> 發(fā)現(xiàn)超過閾值了
-> 觸發(fā)垃圾回收
-> 將所有可收集對象鏈表放到一起
-> 遍歷, 計(jì)算有效引用計(jì)數(shù)
-> 分成 有效引用計(jì)數(shù)=0 和 有效引用計(jì)數(shù) > 0 兩個集合
-> 大于0的, 放入到更老一代
-> =0的, 執(zhí)行回收
-> 回收遍歷容器內(nèi)的各個元素, 減掉對應(yīng)元素引用計(jì)數(shù)(破掉循環(huán)引用)
-> 執(zhí)行-1的邏輯, 若發(fā)現(xiàn)對象引用計(jì)數(shù)=0, 觸發(fā)內(nèi)存回收
-> python底層內(nèi)存管理機(jī)制回收內(nèi)存
Python 中, 一個代就是一個鏈表, 所有屬于同一"代"的內(nèi)存塊都鏈接在同一個鏈表中用來表示"代"的結(jié)構(gòu)體是 gc_generation, 包括了當(dāng)前代鏈表表頭、對象數(shù)量上限、當(dāng)前對象數(shù)量。
Python默認(rèn)定義了三代對象集合,索引數(shù)越大,對象存活時間越長,新生成的對象會被加入第0代,前面_PyObject_GC_Malloc中省略的部分就是Python GC觸發(fā)的時機(jī)。每新生成一個對象都會檢查第0代有沒有滿,如果滿了就開始著手進(jìn)行垃圾回收。
分代回收是一種以空間換時間的操作方式,Python將內(nèi)存根據(jù)對象的存活時間劃分為不同的集合,每個集合稱為一個代,Python將內(nèi)存分為了3"代",分別為年輕代(第0代)、中年代(第1代)、老年代(第2代),他們對應(yīng)的是3個鏈表,它們的垃圾收集頻率與對象的存活時間的增大而減小。新創(chuàng)建的對象都會分配在年輕代,年輕代鏈表的總數(shù)達(dá)到上限時,Python垃圾收集機(jī)制就會被觸發(fā),把那些可以被回收的對象回收掉,而那些不會回收的對象就會被移到中年代去,依此類推,老年代中的對象是存活時間最久的對象,甚至是存活于整個系統(tǒng)的生命周期內(nèi)。同時,分代回收是建立在標(biāo)記清除技術(shù)基礎(chǔ)之上。
3、遞歸
Python 遞歸深度默認(rèn)是多少?遞歸深度限制的原因是什么?
Python 遞歸深度可以用內(nèi)置函數(shù)庫中的 sys.getrecursionlimit() 查看。
因?yàn)闊o限遞歸會導(dǎo)致的 C 堆棧溢出和 Python 崩潰。
丈哥SEO祝愿各位Python面試的小伙伴都能找到心儀的工作。
相關(guān)文章
- 這篇文章主要介紹了關(guān)于Python爬蟲面試170道題,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2019-08-15
python面試常見問題及知識點(diǎn)整理之列表、字典與綜合部分
這篇文章主要介紹了python面試常見問題及知識點(diǎn)整理之列表、字典與綜合部分,總結(jié)整理了Python面試中關(guān)于列表、字典及其他常見數(shù)據(jù)類型操作技巧,需要的朋友可以參考下2019-10-23- 這篇文章主要介紹了兩道阿里python面試題與參考答案,結(jié)合具體實(shí)例形式分析了Python數(shù)組創(chuàng)建、遍歷、拆分及隨機(jī)數(shù)等相關(guān)操作技巧,需要的朋友可以參考下2019-09-02
- 這篇文章主要介紹了60道硬核Python面試題,論面霸是如何煉成的,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2019-08-28
- Python是目前編程領(lǐng)域最受歡迎的語言。在本文中,我將總結(jié)Python面試中最常見的50個問題。每道題都提供參考答案,感興趣的可以了解下2019-06-26
- 這篇文章主要為大家介紹了Python常見的面試題與相應(yīng)的Python知識點(diǎn),包括Python變量、函數(shù)、對象、數(shù)據(jù)類型等,需要的朋友可以參考下2019-06-25
- 這篇文章主要介紹了110道Python面試題,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2019-06-24
春招面試,看這110道Python面試題就夠了(強(qiáng)烈推薦)
這篇文章主要介紹了春招面試,看這110道Python面試題就夠了,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2019-04-15大數(shù)據(jù)spark經(jīng)典面試題目與參考答案總結(jié)
這篇文章主要介紹了大數(shù)據(jù)spark經(jīng)典面試題目,整理總結(jié)了大數(shù)據(jù)spark面試中遇到的比較經(jīng)典的簡答題與選擇題,涉及spark概念、原理、配置、使用等相關(guān)知識點(diǎn),需要的朋友可以參2019-10-24- 這篇文章主要介紹了大數(shù)據(jù)spark精華面試題與參考答案,整理總結(jié)了大數(shù)據(jù)spark面試中經(jīng)常遇到的各類問題、概念與知識點(diǎn),需要的朋友可以參考下2019-10-15