利用Python+Java調(diào)用Shell腳本時的死鎖陷阱詳解
前言
最近有一項需求,要定時判斷任務(wù)執(zhí)行條件是否滿足并觸發(fā) Spark 任務(wù),平時編寫 Spark 任務(wù)時都是封裝為一個 Jar 包,然后采用 Shell 腳本形式傳入所需參數(shù)執(zhí)行,考慮到本次判斷條件邏輯復(fù)雜,只用 Shell 腳本完成不利于開發(fā)測試,所以調(diào)研使用了 Python 和 Java 分別調(diào)用 Spark 腳本的方法。
使用版本為 Python 3.6.4 及 JDK 8
Python
主要使用 subprocess 庫。Python 的 API 變動比較頻繁,在 3.5 之后新增了 run 方法,這大大降低了使用難度和遇見 Bug 的概率。
subprocess.run(["ls", "-l"]) subprocess.run(["sh", "/path/to/your/script.sh", "arg1", "arg2"])
為什么說使用 run 方法可以降低遇見 Bug 的概率呢?
在沒有 run 方法之前,我們一般調(diào)用其他的高級方法,即 Older high-level API,比如 call,check_all,或者直接創(chuàng)建 Popen 對象。因為默認(rèn)的輸出是 console,這時如果對 API 不熟悉或者沒有仔細(xì)看 doc,想要等待子進(jìn)程運行完畢并獲取輸出,使用了 stdout = PIPE
再加上 wait 的話,當(dāng)輸出內(nèi)容很多時會導(dǎo)致 Buffer 寫滿,進(jìn)程就一直等待讀取,形成死鎖。在一次將 Spark 的 log 輸出到 console 時,就遇到了這種奇怪的現(xiàn)象,下邊的腳本可以模擬:
# a.sh for i in {0..9999}; do echo '***************************************************' done
p = subprocess.Popen(['sh', 'a.sh'], stdout=subprocess.PIPE) p.wait()
而 call 則在方法內(nèi)部直接調(diào)用了 wait 產(chǎn)生相同的效果。
要避免死鎖,則必須在 wait 方法調(diào)用之前自行處理掉輸入輸出,或者使用推薦的 communicate 方法。 communicate 方法是在內(nèi)部生成了讀取線程分別讀取 stdout stderr,從而避免了 Buffer 寫滿。而之前提到的新的 run 方法,就是在內(nèi)部調(diào)用了 communicate。
stdout, stderr = process.communicate(input, timeout=timeout)
Java
說完了 Python,Java 就簡單多了。
Java 一般使用 Runtime.getRuntime().exec()
或者 ProcessBuilder 調(diào)用外部腳本:
Process p = Runtime.getRuntime().exec(new String[]{"ls", "-al"}); Scanner sc = new Scanner(p.getInputStream()); while (sc.hasNextLine()) { System.out.println(sc.nextLine()); } // or Process p = new ProcessBuilder("sh", "a.sh").start(); p.waitFor(); // dead lock
需要注意的是:這里 stream 的方向是相對于主程序的,所以 getInputStream()
就是子進(jìn)程的輸出,而 getOutputStream()
是子進(jìn)程的輸入。
基于同樣的 Buffer 原因,假如調(diào)用了 waitFor 方法等待子進(jìn)程執(zhí)行完畢而沒有及時處理輸出的話,就會造成死鎖。
由于 Java API 很少變動,所以沒有像 Python 那樣提供新的 run 方法,但是開源社區(qū)也給出了自己的方案,如commons exec,或 http://www.baeldung.com/run-shell-command-in-java,或 alvin alexander 給出的方案(雖然不完整)。
// commons exec,要想獲取輸出的話,相比 python 來說要復(fù)雜一些 CommandLine commandLine = CommandLine.parse("sh a.sh"); ByteArrayOutputStream out = new ByteArrayOutputStream(); PumpStreamHandler streamHandler = new PumpStreamHandler(out); Executor executor = new DefaultExecutor(); executor.setStreamHandler(streamHandler); executor.execute(commandLine); String output = new String(out.toByteArray());
但其中的思想和 Python 都是統(tǒng)一的,就是在后臺開啟新線程讀取子進(jìn)程的輸出,防止 Buffer 寫滿。
另一個統(tǒng)一思想的地方就是,都推薦使用數(shù)組或 list 將輸入的 shell 命令分隔成多段,這樣的話就由系統(tǒng)來處理空格等特殊字符問題。
參考:
總結(jié)
以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,如果有疑問大家可以留言交流,謝謝大家對腳本之家的支持。
相關(guān)文章
yolov5訓(xùn)練時參數(shù)workers與batch-size的深入理解
最近再學(xué)習(xí)YOLOv3與YOLOv5訓(xùn)練數(shù)據(jù)集的具體步驟,幾經(jīng)波折終于實現(xiàn)了很好的效果,這篇文章主要給大家介紹了關(guān)于yolov5訓(xùn)練時參數(shù)workers與batch-size的相關(guān)資料,文中通過實例代碼介紹的非常詳細(xì),需要的朋友可以參考下2022-03-03DJANGO-ALLAUTH社交用戶系統(tǒng)的安裝配置
django-allauth是集成了local用戶系統(tǒng)和social用戶系統(tǒng),其social用戶系統(tǒng)可以掛載多個賬戶。也是一個流行度非常高的Django user系統(tǒng),我們這里簡單介紹下,分享下個人的使用經(jīng)驗2014-11-11Python的內(nèi)建模塊itertools的使用解析
這篇文章主要介紹了Python的內(nèi)建模塊itertools的使用解析,itertools是python的迭代器模塊,itertools提供的工具相當(dāng)高效且節(jié)省內(nèi)存,Python的內(nèi)建模塊itertools提供了非常有用的用于操作迭代對象的函數(shù),需要的朋友可以參考下2023-09-09Python利用smtplib實現(xiàn)郵件發(fā)送
在當(dāng)今數(shù)字時代,電子郵件已成為我們生活和工作中不可或缺的一部分,本篇文章將為你講解如何在Python發(fā)送郵件,并為你提供實現(xiàn)的多種方式,希望對大家有所幫助2023-06-06python中input()與raw_input()的區(qū)別分析
這篇文章主要介紹了python中input()與raw_input()的區(qū)別,需要的朋友可以參考下2016-02-02