一篇文章搞懂Python反斜杠的相關(guān)問題
大家在開發(fā)Python的過程中,一定會遇到很多反斜杠的問題,很多人被反斜杠的數(shù)量搞得頭大。
首先我們寫一段非常簡單的Python代碼,它的作用是把一個字段先轉(zhuǎn)換為JSON格式的字符串,然后把這個字符串再轉(zhuǎn)換為JSON格式的字符串:
import json info = {'name': 'kingname', 'address': '杭州', 'salary': 99999} info_json = json.dumps(info) # 第一次轉(zhuǎn)換以后,打印出來 print(info_json) info_json_json = json.dumps(info_json) # 第二次轉(zhuǎn)換以后,再打印出來 print(info_json_json)
它的運行效果如下圖所示。
第一次,字典轉(zhuǎn)成JSON格式的字符串,只有中文杭州變成了Unicode編碼\u676d\u5dde
,其余地方?jīng)]有出現(xiàn)反斜杠。
在Python里面,反斜杠不能單獨出現(xiàn),這里\u676d\u5dde
中的兩根反斜杠,實際上應(yīng)該是\u
。表示這兩個編碼是Unicode編碼。
接下來,把第一次生成的JSON字符串:{"name": "kingname", "address": "\u676d\u5dde", "salary": 99999}
再一次轉(zhuǎn)成JSON格式的字符串,這一次變成了:
"{\"name\": \"kingname\", \"address\": \"\\u676d\\u5dde\", \"salary\": 99999}"
為什么突然出現(xiàn)了這么多反斜杠?這是因為,JSON格式的字符串本身是使用雙引號來表示字符串的。如果原來的字符串里面本身就有雙引號,那就會導(dǎo)致混淆。此時,Python需要把原來字符串的雙引號變成普通的字符,失去雙引號的作用。因此使用\"
讓雙引號變成普通的字符。
這就相當(dāng)于在Python中,可以這樣定義一個包含雙引號的字符串:
>>> a = "跟我說:\"你好\"" >>> print(a) 跟我說:"你好"
這里,你好兩側(cè)的雙引號都加上了反斜杠,讓它成為普通的字符,防止它們提前與最外層的雙引號配對。
如果不加反斜杠,就會導(dǎo)致字符串里面的雙引號提前與外層的雙引號配對,引起語法錯誤:
>>> b = "跟我說:"你好"" File "<stdin>", line 1 b = "跟我說:"你好"" ^ SyntaxError: invalid syntax
這里,"跟我說:"
成為了一個字符串,末尾的""成為了一個空字符串。那么中間的你好就變成了一個沒有定義的變量。而Python里面,是不存在字符串未定義的變量字符串
這種寫法的,所以會報語法錯誤。
而JSON格式的字符串,本質(zhì)上也是字符串,所以自然而然也需要遵循這樣的規(guī)則。因此,字符串原來自帶的雙引號左側(cè)就被加上了反斜杠。
那么,原來的\u676d\u5dde
為什么變成了\\u676d\\u5dde
?
這是因為,當(dāng)?shù)诙螆?zhí)行json.dumps
的時候,傳入的參數(shù)是一個JSON格式的字符串,本質(zhì)就是字符串。而一個字符串里面如果自帶反斜杠,那么JSON在對他再次轉(zhuǎn)換的時候,需要標(biāo)記這是一個普通的字符串形式的反斜杠,不是一個有特殊意義的反斜杠,所以使用\\
表示一個普通的反斜杠。
好了,那么你可以猜一下,如果把info_json_json
再json.dumps
一下會怎么樣?
會變成:
"\"{\\\"name\\\": \\\"kingname\\\", \\\"address\\\": \\\"\\\\u676d\\\\u5dde\\\", \\\"salary\\\": 99999}\""
為什么出現(xiàn)了三個反斜杠連用和四個反斜杠連用的問題?
實際上非常簡單,當(dāng)你對info_json_json
執(zhí)行json.dumps
的時候,Python是怎么轉(zhuǎn)換的?
我們來看:
"{\"name\": \"kingname\", \"address\": \"\\u676d\\u5dde\", \"salary\": 99999}"
對字符串
執(zhí)行json.dumps
的時候,記住一個關(guān)鍵方法——從左到右,一個字符一個字符的轉(zhuǎn)換。
1. 第一個字符是雙引號,所以變成\"
2. 第二個字符是{,不是特殊符號,保留
3. 第三個字符是\,把它變成\\
4. 第四個字符是",把它變成\"
5. ……
全部執(zhí)行完成了,由于這次轉(zhuǎn)換是把一個字符串轉(zhuǎn)換為JSON格式的字符串,所以最外側(cè)加上雙引號。
于是就得到了:
"\"{\\\"name\\\": \\\"kingname\\\", \\\"address\\\": \\\"\\\\u676d\\\\u5dde\\\", \\\"salary\\\": 99999}\""
我們在爬蟲開發(fā)過程中,可能會遇到上面這種經(jīng)過多次JSON轉(zhuǎn)換后的字符串,此時,千萬不要輕易使用字符串的.replace
方法把多個反斜杠替換為空或者把兩個反斜杠替換為一個反斜杠。那樣做只會導(dǎo)致你的數(shù)據(jù)更難解析。
正確的做法應(yīng)該是嘗試對數(shù)據(jù)一層一層使用json.loads
,把它一層一層還原,還原到最初的{'name': 'kingname', 'address': '杭州', 'salary': 99999}
這種簡單形式。
好了,今天的介紹就到這里,最后留一個思考題:
還是上面的代碼,現(xiàn)在把PyCharm的調(diào)試模式打開,然后數(shù)一數(shù)info_json
和info_json_json
里面反斜杠的個數(shù),如下圖所示:
為什么在info_json
里面,出現(xiàn)了\\u676d\\u5dde
,為什么在info_json_json
里面雙引號前是兩根反斜杠,而\"\\u676d\\u5dde\"
竟然變成了\\"\\\\u676d\\\\u5dde
。
總結(jié)
到此這篇關(guān)于一篇文章搞懂Python反斜杠的文章就介紹到這了,更多相關(guān)Python反斜杠內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python利用Charles 實現(xiàn)全部自動答題思路流程分析
這篇文章主要介紹了Python利用Charles 實現(xiàn)全部自動答題思路流程分析,本文通過實例代碼給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2021-08-08深入淺析Python 函數(shù)注解與匿名函數(shù)
這篇文章主要介紹了Python 函數(shù)注解與匿名函數(shù)的相關(guān)知識,本文通過實例代碼給大家介紹的非常詳細(xì),具有一定的參考借鑒價值,需要的朋友可以參考下2020-02-02pycharm 復(fù)制代碼出現(xiàn)空格的解決方式
這篇文章主要介紹了pycharm 復(fù)制代碼出現(xiàn)空格的解決方式,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2021-01-01詳解如何使用Python實現(xiàn)復(fù)制粘貼的功能
pandas?里面有一個?pd.read_clipboard?函數(shù),可以根據(jù)你復(fù)制的內(nèi)容生成DataFrame。本文就利用這個函數(shù)實現(xiàn)復(fù)制粘貼的功能,感興趣的可以了解一下2023-01-01Python實現(xiàn)WGS84火星百度及web墨卡托四種坐標(biāo)系相互轉(zhuǎn)換
主流被使用的地理坐標(biāo)系并不統(tǒng)一,常用的有WGS84、GCJ02(火星坐標(biāo)系)、BD09(百度坐標(biāo)系)以及百度地圖中保存矢量信息的web墨卡托,本文利用Python編寫相關(guān)類以實現(xiàn)4種坐標(biāo)系統(tǒng)之間的互相轉(zhuǎn)換2023-08-08