C++中Digraphs、Trigraphs和Tokens的深入講解

更新時間：2018年09月30日 08:26:24 作者：源代碼

這篇文章主要給大家介紹了關于C++中Digraphs、Trigraphs和Tokens的相關資料，文中通過示例代碼介紹的非常詳細，對大家學習或者使用C++具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧

前言

最近偶然在[C++ Quiz](http://cppquiz.org)上看到一道題：

// 以下代碼的輸出是什么？
#include<iostream>

int main(){
 int x=0; //What is wrong here??/
 x=1;
 std::cout<<x;
}

這個看似簡單，實際很容易采坑。

之前也是偶然間了解到C++的 Digraph(雙字符組) ，但是當時沒有進行擴展了解，沒想到C++還有 Trigraph(三字符組) …，這個概念其實也很簡單，維基百科的詞條三字符組與雙字符組寫的也很清楚，就直接搬運過來一下。

下面話不多說了，來一起看看詳細的介紹吧

緣起

C語言的源程序的最低必須的字符集是基于7位ASCII碼字符集，是 ISO 646-1983 Invariant Code Set 的一個超集。ISO 646最初是1972年頒布的一項國際化的7位ASCII標準，規(guī)定了12個字符所對應的碼位保持對各國標準開放： # $ @ [ \ ] ^ ` { | } ~ 。因此法國標準AFNOR NF Z 62010-1982把碼位0x7c（ASCII碼的 | ）定義為ù，用法文鍵盤就難以輸入C語言的位或運算符 | ；碼位0x7e（ASCII碼的～）定義為 ¨ （即分音符），法文鍵盤就難以輸入C語言的位非運算符～。加拿大法語標準CSA Z243.4-1985中把碼位0x5e（ASCII碼的 ^ ）在定義為É，導致難以輸入C語言的異或運算符 ^ 。

三字符組

為解決上述的C語言源代碼輸入問題，C語言標準規(guī)定預處理器（C preprocessor）在掃描處理C語言源文件時，替換下述的3字符出現(xiàn)為1個字符

三字符組	替換為
??=	#
??/	\
??'	^
??(	[
??)	]
??!	\|
??<	{
??>	}
??-	~

注意 : 編譯器對三字符組的處理是在解析注釋、宏的步驟的前面，可以理解為優(yōu)先處理三字符組

那我們再回頭看上面那個題，其等價于：

// 以下代碼的輸出是什么？
#include<iostream>

int main(){
 int x=0; //What is wrong here\ <- ??/被解釋為\，使得自動折行
 x=1;        <- 此行其實是被注釋掉的
 std::cout<<x;
}

故，如果希望在源程序中有兩個連續(xù)的問號，且不希望被預處理器替換，這種情況出現(xiàn)在字符常量、字符串字面值或者是程序注釋中，可選辦法是用字符串的自動連接： "...?""?..." 或者轉義序列： "...?\?..." 。

注意 : Trigraph(三字符組) 在 C++17 被移除了語法

從Microsoft Visual C++ 2010版開始，該編譯器默認不再自動替換三字符組。如果需要使用三字符組替換（如為了兼容古老的軟件代碼），需要設置編譯器命令行選項 /Zc:trigraphs

g++仍默認支持三字符組，但會給出編譯警告。

雙字符組

1994年公布了一項C語言標準的修正案，引入了更具有可讀性的5個雙字符組。這也包括進了 C99 標準。

雙字符組	替換為
<:	[
:>	]
<%	{
%>	}
%:	#

不同于三字符組在源文件的任何出現(xiàn)都會被預處理器替換，雙字符如果出現(xiàn)在字符串字面值（quoted string）、字符常量、程序注釋中將不被替換。雙字符組的替換發(fā)生在編譯器對源程序的tokenization階段（即識別出關鍵字、標識符等，類似于自然語言的“斷詞”），僅當雙字符組作為一個token或者token的組成部分時（如 %:%: 被替換為預處理運算符 ## ），雙字符組才被替換為單字符。 g++支持上述雙字符組替換。但Microsoft Visual C++不支持雙字符組替換。

Token

C++標準支持C語言的三字符組與雙字符組（包括C99中的增補）。C++自身還提供了下述內置的關鍵字：