快捷導(dǎo)航

一文帶你了解Python中的字符串是什么

更新時(shí)間：2018年11月20日 09:43:55 作者：Python貓

通過本文帶你了解Python中的字符串是什么,本文給大家介紹的非常詳細(xì)，具有一定的參考借鑒價(jià)值，需要的朋友可以參考下

在《詳解Python拼接字符串的七種方式》這篇文章里，我提到過，字符串是程序員離不開的事情。后來，我看到了一個(gè)英文版本的說法：

There are few guarantees in life: death, taxes, and programmers needing to deal with strings.
它竟然把程序員處理字符串跟死亡大事并列了，可見這是多么命中注定……

回頭看其它文章，我發(fā)現(xiàn)這種說法得到了佐證，因?yàn)槲以跓o意中已零零碎碎地提及了字符串的很多方面，例如：字符串讀寫文件、字符串打印、字符串不可變性、字符串Intern機(jī)制、字符串拼接、是否會取消字符串，等等。而這些，還只能算字符串面目的冰山一角。

既然如此，那干脆再單獨(dú)寫寫Python的字符串吧。這篇內(nèi)容可能會很基（li）礎(chǔ)（lun），并不是什么“騷操作”或“冷知識”，權(quán)當(dāng)是一份溫故而求知新的筆記。

1 Python字符串是什么？

根據(jù)維基百科定義：字符串是由零個(gè)或多個(gè)字符組成的有限序列。而在Python 3中，它有著更明確的意思：字符串是由Unicode碼點(diǎn)組成的不可變序列（Strings are immutable sequences of Unicode code points.）

字符串是一種序列，這意味著它具備序列類型都支持的操作：

# 以下的s、t皆表示序列，x表示元素
x in s # 若s包含x，返回True，否則返回False
x not in s # 若s包含x，返回False，否則返回True
s + t # 連接兩個(gè)序列
s * n # s復(fù)制n次
s[i] # s的索引第i項(xiàng)
s[i:j] # s切片從第i項(xiàng)到第j-1項(xiàng)
s[i:j:k] # s切片從第i項(xiàng)到第j-1項(xiàng),間隔為k
len(s) # s的長度
min(s) # s的最小元素
max(s) # s的最大元素
s.index（x） # x的索引位置
s.count(x) # s中出現(xiàn)x的總次數(shù)

字符串序列還具備一些特有的操作，限于篇幅，按下不表。預(yù)告一下，下一篇《你真的知道Python的字符串怎么用嗎？》將會展開介紹，敬請期待……

字符串序列是一種不可變序列，這意味著它不能像可變序列一樣，進(jìn)行就地修改。例如，在字符串“Python”的基礎(chǔ)上拼接“Cat”，得到字符串“PythonCat”，新的字符串是一個(gè)獨(dú)立的存在，它與基礎(chǔ)字符串“Python”并沒有關(guān)聯(lián)關(guān)系。

basename = "Python"
myname = basename + "Cat"
id(basename) == id(myname) >>> False

# 作為對比，列表能就地修改
baselist = ["Python"]
baselist.append("Cat")
print(baselist) >>> ['Python', 'Cat']

字符串這種序列與其它序列（如列表、元組）的不同之處在于，它的“元素”限定了只能是Unicode碼點(diǎn)。Unicode碼點(diǎn)是什么呢？簡單理解，就是用Unicode編碼的字符。那字符是什么呢？字符是人類書寫系統(tǒng)的各類符號，例如阿拉伯?dāng)?shù)字、拉丁字母、中文、日文、藏文、標(biāo)點(diǎn)符號、控制符號（換行符、制表符等）、其它特殊符號（@#￥%$*等等）。那Unicode編碼又是什么呢？Unicode別名是萬國碼、國際碼，它是一種適用性最廣的、將書寫字符編碼為計(jì)算機(jī)數(shù)字的標(biāo)準(zhǔn)。

總所周知，在最底層的計(jì)算機(jī)硬件世界里，只有0和1。那么，怎么用這個(gè)二進(jìn)制數(shù)字，來表示人類的文化性的字符呢？這些字符數(shù)量龐大，而且還在日益增長與變化，什么樣的編碼方案才是最靠譜的呢？

歷史上，人類創(chuàng)造了多種多樣的字符編碼標(biāo)準(zhǔn)，例如ASCII（1963年）編碼，以西歐語言的字符為主，它的缺點(diǎn)是只能編碼128個(gè)字符；例如GB2312（1981年），這是中國推出的編碼標(biāo)準(zhǔn)，在兼容ASCII標(biāo)準(zhǔn)的基礎(chǔ)上，還加入了對日文、俄文等字符的編碼，但缺點(diǎn)仍是編碼范圍有限，無法表示古漢語、繁體字及更多書寫系統(tǒng)的字符。

Unicode編碼標(biāo)準(zhǔn)于1991年推出，至今迭代到了第11版，已經(jīng)能夠編碼146個(gè)書寫系統(tǒng)的130000個(gè)字符，可謂是無所不包，真不愧是“國際碼”。Unicode編碼其實(shí)是一個(gè)二進(jìn)制字符集，它建立了從書寫字符映射成唯一的數(shù)字字符的關(guān)系，但是，由于各系統(tǒng)平臺對字符的理解差異，以及出于節(jié)省空間的考慮，Unicode編碼還需要再做一次轉(zhuǎn)換，轉(zhuǎn)換后的新的二進(jìn)制數(shù)字才能作為實(shí)際存儲及網(wǎng)絡(luò)傳輸時(shí)的編碼。

這種轉(zhuǎn)換方式被稱為 Unicode轉(zhuǎn)換格式（Unicode Transformation Format，簡稱為UTF），它又細(xì)分為UTF-8、UTF-16、UTF-32等等方式。我們最常用的是UTF-8。為什么UTF-8最常用呢？因?yàn)樗强勺冮L度的編碼方案，針對不同的字符使用不同的字節(jié)數(shù)來編碼，例如編碼英文字母時(shí)，只需要一個(gè)字節(jié)（8個(gè)比特），而編碼較復(fù)雜的漢字時(shí)，就會用到三個(gè)字節(jié)（24個(gè)比特）。

二進(jìn)制的編碼串可以說是給機(jī)器閱讀的，為了方便，我們通常會將其轉(zhuǎn)化為十六進(jìn)制，例如“中”字的Unicode編碼可以表示成 0x4e2d ，其UTF-8編碼可以表示為 0xe4b8ad ，'0x'用于開頭表示十六進(jìn)制，這樣就簡潔多了。不過，UTF-8編碼的結(jié)果會被表示成以字節(jié)為單位的形式，例如“中”字用UTF-8編碼后的字節(jié)形式是 \xe4\xb8\xad 。

Python中為了區(qū)分Unicode編碼與字節(jié)碼，分別在開頭加“u”和“b”以示區(qū)分。在Python 3中，因?yàn)閁nicode成了默認(rèn)編碼格式，所以“u”被省略掉了。

# 字符轉(zhuǎn)Unicode編碼
# Python3中，開頭的u被省略，b不可省略
hex(ord('中')) >>> '0x4e2d'
hex(ord('A')) >>> '0x41'
# 字符轉(zhuǎn)UTF-8編碼（encode）
'中'.encode('utf-8') >>> b'\xe4\xb8\xad'
'A'.encode('utf-8') >>> b'A'
# Unicode編碼還原成字符
chr(0x4e2d) >>> '中'
chr(0x41) >>> 'A'
# UTF-8編碼還原成字符（decode）
b'\xe4\xb8\xad'.decode('utf-8') >>> '中'
b'A'.decode('utf-8') >>> 'A'

總結(jié)一下，Python 3 中的字符串是由Unicode碼點(diǎn)組成的不可變序列，也即是，由采用Unicode標(biāo)準(zhǔn)編碼的字符組成的不可變序列。Unicode編碼將書寫系統(tǒng)的字符映射成了計(jì)算機(jī)二進(jìn)制數(shù)字，為了方便，通常顯示為十六進(jìn)制；在運(yùn)算內(nèi)存中，字符以Unicode編碼呈現(xiàn)，當(dāng)寫入磁盤或用于網(wǎng)絡(luò)傳輸時(shí)，一般采用UTF-8方式編碼。

在Python 2中，因?yàn)闅v史包袱，即Python先于Unicode編碼而誕生，所以其編碼問題是個(gè)大難題。幸好拋棄Python 2已成大勢所趨，所以我就不再對此做介紹或比對了。

2 Python字符串 VS Java字符串

雖然不提縱向版本間的差異，但是，我想將Python字符串與其它編程語言做一個(gè)橫向?qū)Ρ取Ｎ矣X得這會是挺好玩的事。通過跨語言的比較，也許我們能加深對一個(gè)事物（字符串）的理解，還可能受到啟發(fā)，得到對“編程語言”及“編程哲學(xué)”的領(lǐng)悟。

由于本人才疏學(xué)淺，本文就只對兩點(diǎn)皮毛特性作說明，歡迎讀者斧正和補(bǔ)充。

（1）字符串的定義方式

Python的字符串是內(nèi)置類型，所以使用起來很方便，有如下三種定義方式：

str_0 = '''Python字符串可以寫在用三引號對內(nèi)，表示多行字符串。
還可以寫在單引號對內(nèi)，
當(dāng)然還可以寫在雙引號對內(nèi)。
'''
str_1 = 'Python貓是一只貓'
str_2 = "Python貓是一個(gè)微信公眾號"

Java的字符串不是內(nèi)置類型，它屬于對象，需要通過String類來創(chuàng)建。不過，正因?yàn)樽址Ｓ?，所以Java特意預(yù)定義了一個(gè)字符串類String，使得程序員也可以像這樣來定義： String name = "Python貓"; ，而不必這樣寫： String name = new String("Python貓"); 。

Java的字符串只能寫在雙引號內(nèi)，不具備Python中單雙引號混用的靈活。至于三引號的多行字符串表示法，Java程序員表示羨慕得要死，那種痛苦，受過折磨的人最懂。寫出來讓Python程序員開心一下：

String s = "Java 的多行字符串很麻煩，\n"
  + "既要使用換行符，\n"
  + "還需要使用加號拼接";

為什么Java不支持多行字符串、什么時(shí)候支持多行字符串？此類問題在Python程序員眼里，可能很費(fèi)解，但它絕對能排進(jìn)“Java程序員最希望能實(shí)現(xiàn)的特性”的前列。好不容易，官方有計(jì)劃在Java 11 實(shí)現(xiàn)，但今年9月發(fā)布的Java 11 仍是沒有，現(xiàn)在改計(jì)劃到Java 12 了。

（2）單個(gè)字符與字符序列

Java中其實(shí)也有單引號的使用，用在char類型上，例如 char c = 'A'; 。char是一種內(nèi)置類型，表示單個(gè)用Unicode編碼的字符。Python中沒有char類型，字符串類型通吃一切。

前面說到，Python的字符串是一種字符序列，而Java的字符串并不是一種序列，要表示相近的概念的話，就得用到字符數(shù)組或者字符串?dāng)?shù)組，例如：

char[] a = { 'a', 'b', 'c'}; 
String[] str = new String[]{"1","2","3"};

字符數(shù)組和字符串?dāng)?shù)組是一種序列，但并不是字符串，它們之間如果要相互轉(zhuǎn)換，還是挺麻煩的。另外，說是序列，但Java的序列操作絕對無法跟Python相比，別的不說，就上面提及的幾個(gè)基礎(chǔ)操作，試問Java能否實(shí)現(xiàn)、實(shí)現(xiàn)起來要花費(fèi)多大力氣？

最后來個(gè)Ending，關(guān)于“Python字符串到底是什么”就說到這啦，希望對你有所幫助。下次，我再跟大家說說“Python字符串到底怎么用”，敬請期待。希望對大家有所幫助，如果大家有任何疑問請給我留言，小編會及時(shí)回復(fù)大家的。在此也非常感謝大家對腳本之家網(wǎng)站的支持！

您可能感興趣的文章: