C++中Digraphs、Trigraphs和Tokens的深入講解
前言
最近偶然在[C++ Quiz](http://cppquiz.org)上看到一道題:
// 以下代碼的輸出是什么? #include<iostream> int main(){ int x=0; //What is wrong here??/ x=1; std::cout<<x; }
這個(gè)看似簡(jiǎn)單,實(shí)際很容易采坑。
之前也是偶然間了解到C++的 Digraph(雙字符組) ,但是當(dāng)時(shí)沒(méi)有進(jìn)行擴(kuò)展了解,沒(méi)想到C++還有 Trigraph(三字符組) …,這個(gè)概念其實(shí)也很簡(jiǎn)單,維基百科的詞條 三字符組與雙字符組 寫(xiě)的也很清楚,就直接搬運(yùn)過(guò)來(lái)一下。
下面話不多說(shuō)了,來(lái)一起看看詳細(xì)的介紹吧
緣起
C語(yǔ)言的源程序的最低必須的字符集是基于7位ASCII碼字符集,是 ISO 646-1983 Invariant Code Set 的一個(gè)超集。ISO 646最初是1972年頒布的一項(xiàng)國(guó)際化的7位ASCII標(biāo)準(zhǔn),規(guī)定了12個(gè)字符所對(duì)應(yīng)的 碼位 保持對(duì)各國(guó)標(biāo)準(zhǔn)開(kāi)放: # $ @ [ \ ] ^ ` { | } ~ 。 因此法國(guó)標(biāo)準(zhǔn)AFNOR NF Z 62010-1982把碼位0x7c(ASCII碼的 | )定義為ù,用法文鍵盤(pán)就難以輸入C語(yǔ)言的位或運(yùn)算符 | ;碼位0x7e(ASCII碼的 ~)定義為 ¨ (即 分音符 ),法文鍵盤(pán)就難以輸入C語(yǔ)言的位非運(yùn)算符 ~ 。 加拿大法語(yǔ)標(biāo)準(zhǔn)CSA Z243.4-1985中把碼位0x5e(ASCII碼的 ^ )在定義為É,導(dǎo)致難以輸入C語(yǔ)言的異或運(yùn)算符 ^ 。
三字符組
為解決上述的C語(yǔ)言源代碼輸入問(wèn)題,C語(yǔ)言標(biāo)準(zhǔn)規(guī)定預(yù)處理器(C preprocessor)在掃描處理C語(yǔ)言源文件時(shí),替換下述的3字符出現(xiàn)為1個(gè)字符
三字符組 | 替換為 |
---|---|
??= | # |
??/ | \ |
??' | ^ |
??( | [ |
??) | ] |
??! | | |
??< | { |
??> | } |
??- | ~ |
注意 : 編譯器對(duì) 三字符組 的處理是在解析注釋、宏的步驟的前面,可以理解為優(yōu)先處理 三字符組
那我們?cè)倩仡^看上面那個(gè)題,其等價(jià)于:
// 以下代碼的輸出是什么? #include<iostream> int main(){ int x=0; //What is wrong here\ <- ??/被解釋為\,使得自動(dòng)折行 x=1; <- 此行其實(shí)是被注釋掉的 std::cout<<x; }
故,如果希望在源程序中有兩個(gè)連續(xù)的問(wèn)號(hào),且不希望被預(yù)處理器替換,這種情況出現(xiàn)在字符常量、字符串字面值或者是程序注釋中,可選辦法是用字符串的自動(dòng)連接: "...?""?..." 或者轉(zhuǎn)義序列: "...?\?..." 。
注意 : Trigraph(三字符組) 在 C++17 被移除了語(yǔ)法
從Microsoft Visual C++ 2010版開(kāi)始,該編譯器默認(rèn)不再自動(dòng)替換三字符組。如果需要使用三字符組替換(如為了兼容古老的軟件代碼),需要設(shè)置編譯器命令行選項(xiàng) /Zc:trigraphs
g++仍默認(rèn)支持三字符組,但會(huì)給出編譯警告。
雙字符組
1994年公布了一項(xiàng)C語(yǔ)言標(biāo)準(zhǔn)的修正案,引入了更具有可讀性的5個(gè)雙字符組。這也包括進(jìn)了 C99 標(biāo)準(zhǔn)。
雙字符組 | 替換為 |
---|---|
<: | [ |
:> | ] |
<% | { |
%> | } |
%: | # |
不同于 三字符組 在源文件的任何出現(xiàn)都會(huì)被預(yù)處理器替換, 雙字符 如果出現(xiàn)在字符串字面值(quoted string)、字符常量、程序注釋中將不被替換 。雙字符組的替換發(fā)生在編譯器對(duì)源程序的tokenization階段(即識(shí)別出關(guān)鍵字、標(biāo)識(shí)符等,類似于自然語(yǔ)言的“斷詞”),僅當(dāng)雙字符組作為一個(gè)token或者token的組成部分時(shí)(如 %:%: 被替換為預(yù)處理運(yùn)算符 ## ),雙字符組才被替換為單字符。 g++支持上述雙字符組替換。但Microsoft Visual C++不支持雙字符組替換。
Token
C++標(biāo)準(zhǔn)支持C語(yǔ)言的三字符組與雙字符組(包括C99中的增補(bǔ))。C++自身還提供了下述內(nèi)置的關(guān)鍵字:
關(guān)鍵字 | 等價(jià)于 |
---|---|
and | && |
bitor | | |
or | || |
xor | ^ |
compl | ~ |
bitand | & |
and_eq | &= |
or_eq | |= |
xor_eq | ^= |
not | ! |
not_eq | != |
Microsoft Visual C++編譯器要求如果使用上述關(guān)鍵字,必須包含頭文件 ciso646 ,否則編譯報(bào)錯(cuò)。如“ error C2065: ‘not' : undeclared identifier”。而g++編譯器就不要求包含頭文件ciso646。
總結(jié)
以上就是這篇文章的全部?jī)?nèi)容了,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,如果有疑問(wèn)大家可以留言交流,謝謝大家對(duì)腳本之家的支持。
相關(guān)文章
C語(yǔ)言實(shí)現(xiàn)猜數(shù)字小項(xiàng)目
這篇文章主要為大家詳細(xì)介紹了C語(yǔ)實(shí)現(xiàn)猜數(shù)字小項(xiàng)目,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2022-01-01利用C語(yǔ)言玩轉(zhuǎn)魔方陣實(shí)例教程
這篇文章主要給大家介紹了關(guān)于利用C語(yǔ)言玩轉(zhuǎn)魔方陣的相關(guān)資料,文中詳細(xì)介紹了關(guān)于奇數(shù)魔方陣和4N 魔方陣的實(shí)現(xiàn)方法,通過(guò)示例代碼讓大家更好的參考學(xué)習(xí),需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧。2017-11-11c++ rtti判斷基類指針指向的真實(shí)對(duì)象類型
這篇文章主要為大家介紹了c++ 判斷基類指針指向的真實(shí)對(duì)象類型示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-08-08C語(yǔ)言中打印特殊圖案的實(shí)現(xiàn)代碼
以下代碼實(shí)現(xiàn)了在C語(yǔ)言中打印特殊圖案的解決方法。需要的朋友參考下2013-05-05C++中vector迭代器失效問(wèn)題的原因及解決方案
迭代器(iterator)是一種用于遍歷數(shù)據(jù)集合的的對(duì)象,它提供了一種訪問(wèn)數(shù)據(jù)集合中元素的方式,而無(wú)需暴露數(shù)據(jù)集合內(nèi)部的細(xì)節(jié),使用迭代器,我們可以對(duì)數(shù)據(jù)集合中的每個(gè)元素進(jìn)行處理,本文介紹了C++中關(guān)于vector迭代器失效問(wèn)題的原因及解決方案,需要的朋友可以參考下2024-09-09