快捷導(dǎo)航

解析C語(yǔ)言與C++的編譯模型

更新時(shí)間：2016年05月31日 18:23:06 作者：wudaijun

C++繼承了C的編譯模型,C語(yǔ)言的編譯鏈接模型相對(duì)簡(jiǎn)潔,但C++繼承了這些機(jī)制之后變得更加復(fù)雜難以理解,這里就來(lái)帶大家簡(jiǎn)要解析C語(yǔ)言與C++的編譯模型

首先簡(jiǎn)要介紹一下C的編譯模型：
限于當(dāng)時(shí)的硬件條件，C編譯器不能夠在內(nèi)存里一次性地裝載所有程序代碼，而需要將代碼分為多個(gè)源文件，并且分別編譯。并且由于內(nèi)存限制，編譯器本身也不能太大，因此需要分為多個(gè)可執(zhí)行文件，進(jìn)行分階段的編譯。在早期一共包括7個(gè)可執(zhí)行文件：cc(調(diào)用其它可執(zhí)行文件)，cpp(預(yù)處理器)，c0(生成中間文件)，c1(生成匯編文件)，c2(優(yōu)化，可選)，as(匯編器，生成目標(biāo)文件)，ld(鏈接器)。
1. 隱式函數(shù)聲明
為了在減少內(nèi)存使用的情況下實(shí)現(xiàn)分離編譯，C語(yǔ)言還支持”隱式函數(shù)聲明”，即代碼在使用前文未定義的函數(shù)時(shí)，編譯器不會(huì)檢查函數(shù)原型，編譯器假定該函數(shù)存在并且被正確調(diào)用，還假定該函數(shù)返回int，并且為該函數(shù)生成匯編代碼。此時(shí)唯一不確定的，只是該函數(shù)的函數(shù)地址。這由鏈接器來(lái)完成。如：

int main()
{
 printf("ok\n");
 return 0;
}

在gcc上會(huì)給出隱式函數(shù)聲明的警告，但能編譯運(yùn)行通過(guò)。因?yàn)樵阪溄訒r(shí)，鏈接器在libc中找到了printf符號(hào)的定義，并將其地址填到編譯階段留下的空白中。PS：用g++編譯則會(huì)生成錯(cuò)誤：use of undeclared identifier 'printf'。而如果使用的是未經(jīng)定義的函數(shù)，如上面的printf函數(shù)改為print，得到的將是鏈接錯(cuò)誤，而不是編譯錯(cuò)誤。
2. 頭文件
有了隱式函數(shù)聲明，編譯器在編譯時(shí)應(yīng)該就不需要頭文件了，編譯器可以按函數(shù)調(diào)用時(shí)的代碼生成匯編代碼，并且假定函數(shù)返回int。而C頭文件的最初目的是用于方便文件之間共享數(shù)據(jù)結(jié)構(gòu)定義，外部變量，常量宏。早期的頭文件里，也只包含這三樣?xùn)|西。注意，沒(méi)有提到函數(shù)聲明。
而如今在引入將函數(shù)聲明放入頭文件這一做法后，帶來(lái)了哪些便利和缺陷：
優(yōu)點(diǎn)：
項(xiàng)目不同的文件之間共享接口。
頭文件為第三方庫(kù)提供了接口說(shuō)明。
缺點(diǎn)：
效率性：為了使用一個(gè)簡(jiǎn)單的庫(kù)函數(shù)，編譯器可能要parse成千上萬(wàn)行預(yù)處理之后的頭文件源碼。
傳遞性：頭文件具有傳遞性。在頭文件傳遞鏈中任一頭文件變動(dòng)，都將導(dǎo)致包含該頭文件的所有源文件重新編譯。哪怕改動(dòng)無(wú)關(guān)緊要(沒(méi)有源文件使用被改動(dòng)的接口)。
差異性：頭文件在編譯時(shí)使用，動(dòng)態(tài)庫(kù)在運(yùn)行時(shí)使用，二者有可能因?yàn)榘姹静灰恢略斐啥M(jìn)制兼容問(wèn)題。
一致性：頭文件函數(shù)聲明和源文件函數(shù)實(shí)現(xiàn)的參數(shù)名無(wú)需一致。這將可能導(dǎo)致函數(shù)聲明的意思，和函數(shù)具體實(shí)現(xiàn)不一致。如聲明為 void draw(int height, int width) 實(shí)現(xiàn)為 void draw(int width, int height)。
3. 單遍編譯( One Pass )
由于當(dāng)時(shí)的編譯器并不能將整個(gè)源文件的語(yǔ)法樹(shù)保存在內(nèi)存中，因此編譯器實(shí)際上是”單遍編譯”。即編譯器從頭到尾地編譯源文件，一邊解析，一邊即刻生成目標(biāo)代碼，在單遍編譯時(shí)，編譯器只能看到已經(jīng)解析過(guò)的部分。意味著：
C語(yǔ)言結(jié)構(gòu)體需要先定義，才能訪問(wèn)。因?yàn)榫幾g器需要知道結(jié)構(gòu)體定義，才知道結(jié)構(gòu)體成員類(lèi)型和偏移量，并生成目標(biāo)代碼。
局部變量必須先定義，再使用。編譯器需要知道局部變量的類(lèi)型和在棧中的位置。
外部變量(全局變量)，編譯器只需要知道它的類(lèi)型和名字，不需要知道它的地址，就能生成目標(biāo)代碼。而外部變量的地址將留給連接器去填。
對(duì)于函數(shù)，根據(jù)隱式函數(shù)聲明，編譯器可以立即生成目標(biāo)代碼，并假定函數(shù)返回int，留下空白函數(shù)地址交給連接器去填。
C語(yǔ)言早期的頭文件就是用來(lái)提供結(jié)構(gòu)體定義和外部變量聲明的，而外部符號(hào)(函數(shù)或外部變量)的決議則交給鏈接器去做。
單遍編譯結(jié)合隱式函數(shù)聲明，將引出一個(gè)有趣的例子：

void bar()
{
 foo('a');
}

int foo(char a)
{
 printf("foobar\n");
 return 0;
}

int main()
{
 bar();
 return 0;
}

gcc編譯上面的代碼，得到如下錯(cuò)誤：

test.c:16:6: error: conflicting types for 'foo'
void foo(char a)
 ^
test.c:12:2: note: previous implicit declaration is here
  foo('a');

這是因?yàn)楫?dāng)編譯器在bar()中遇到foo調(diào)用時(shí)，編譯器并不能看到后面近在咫尺的foo函數(shù)定義。它只能根據(jù)隱式函數(shù)聲明，生成int foo(int)的函數(shù)調(diào)用代碼，注意隱式生成的函數(shù)參數(shù)為int而不是char，這應(yīng)該是編譯器做的一個(gè)向上轉(zhuǎn)換，向int靠齊。在編譯器解析到更為適合的int foo(char)時(shí)，它可不會(huì)認(rèn)錯(cuò)，它會(huì)認(rèn)為foo定義和編譯器隱式生成的foo聲明不一致，得到編譯錯(cuò)誤。將上面的foo函數(shù)替換為 void foo(int a)也會(huì)得到類(lèi)似的編譯錯(cuò)誤，C語(yǔ)言嚴(yán)格要求一個(gè)符號(hào)只能有一種定義，包括函數(shù)返回值也要一致。
而將foo定義放于bar之前，就編譯運(yùn)行OK了。
C++ 編譯模型
到目前為止，我們提到的3點(diǎn)關(guān)于C編譯模型的特性，對(duì)C語(yǔ)言來(lái)說(shuō)，都是利多于弊的，因?yàn)镃語(yǔ)言足夠簡(jiǎn)單。而當(dāng)C++試圖兼容這些特性時(shí)(C++沒(méi)有隱式函數(shù)聲明)，加之C++本身獨(dú)有的重載，類(lèi)，模板等特性，使得C++更加難以理解。
1. 單遍編譯
C++沒(méi)有隱式函數(shù)聲明，但它仍然遵循單遍編譯，至少看起來(lái)是這樣，單遍編譯語(yǔ)義給C++帶來(lái)的影響主要是重載決議和名字解析。
1.1 重載決議

#include<stdio.h>

void foo(int a)
{
 printf("foo(int)\n");
}

void bar()
{
 foo('a');
}

void foo(char a)
{
 printf("foo(char)\n");
}

int main()
{
 bar();
 return 0;
}

以上代碼通過(guò)g++編譯運(yùn)行結(jié)果為：foo(int)。盡管后面有更合適的函數(shù)原型，但C++在解析bar()時(shí)，只看到了void foo(int)。
這是C++重載結(jié)合單遍編譯造成的困惑之一，即使現(xiàn)在C++并非真的單遍編譯(想一下前向聲明)，但它要和C兼容語(yǔ)義，因此不得不”裝傻”。對(duì)于C++類(lèi)是個(gè)例外，編譯器會(huì)先掃描類(lèi)的定義，再解析成員函數(shù)，因此類(lèi)中所有同名函數(shù)都能參加重載決議。
關(guān)于重載還有一點(diǎn)就是C的隱式類(lèi)型轉(zhuǎn)換也給重載帶來(lái)了麻煩：

// Case 1
void f(int){}
void f(unsigned int){}
void test() { f(5); } // call f(int)

// Case 2
void f(int){}
void f(long){}
void test() { f(5); } // call f(int)

// Case 3
void f(unsigned int){}
void f(long){}
void test() { f(5); } // error. 編譯器也不知道你要干啥

// Case 4
void f(unsigned int){}
void test{ f(5); } // call f(unsigned int)...
void f(long){}

再加上C++子類(lèi)到父類(lèi)的隱式轉(zhuǎn)換，轉(zhuǎn)換運(yùn)算符的重載… 你必須費(fèi)勁心思，才能確保編譯器按你預(yù)想的去做。
1.2 名字查找
單遍編譯給C++造成的另一個(gè)影響是名字查找，C++只能通過(guò)源碼來(lái)了解名字的含義，比如 AA BB(CC)，這句話即可以是聲明函數(shù)，也可以是定義變量。編譯器需要結(jié)合它解析過(guò)的所有源代碼，來(lái)判斷這句話的確切含義。當(dāng)結(jié)合了C++ template之后，這種難度幾何攀升。因此不經(jīng)意地改動(dòng)頭文件，或修改頭文件包含順序，都可能改變語(yǔ)句語(yǔ)義和代碼的含義。
2. 頭文件
在初學(xué)C++時(shí)，函數(shù)聲明放在.h文件，函數(shù)實(shí)現(xiàn)放在.cpp文件，似乎已經(jīng)成了共識(shí)。C++沒(méi)有C的隱式函數(shù)聲明，也沒(méi)有其它高級(jí)語(yǔ)言的包機(jī)制，因此，同一個(gè)項(xiàng)目中，頭文件已經(jīng)成了模塊與模塊之間，類(lèi)與類(lèi)之間，共享接口的主要方式。
C中的效率性，傳遞性，差異性，一致性，C++都一個(gè)不落地繼承了。除此之外，C++頭文件還帶來(lái)如下麻煩：
2.1 順序性
由于C++頭文件包含更多的內(nèi)容：template, typedef, #define, #pragma, class,等等，不同的頭文件包含順序，將可能導(dǎo)致完全不同的語(yǔ)義?；蛘咧苯訉?dǎo)致編譯錯(cuò)誤。
2.2 又見(jiàn)重載
由于C++支持重載，因此如果頭文件中的函數(shù)聲明和源文件中函數(shù)實(shí)現(xiàn)不一致(如參數(shù)個(gè)數(shù)，const屬性等)，將可能構(gòu)成重載，這個(gè)時(shí)候”聰明”的C++編譯器不錯(cuò)報(bào)錯(cuò)，它將該函數(shù)的調(diào)用地址交給鏈接器去填，而源文件中寫(xiě)錯(cuò)了的實(shí)現(xiàn)將被認(rèn)定為一個(gè)全新的重載。從而到鏈接階段才報(bào)錯(cuò)。這一點(diǎn)在C中會(huì)得到編譯錯(cuò)誤，因?yàn)镃沒(méi)有重載，也就沒(méi)有名字改編(name mangling)，將會(huì)在編譯時(shí)得到符號(hào)沖突。
2.3 重復(fù)包含
由于頭文件的傳遞性，有可能造成某上層頭文件的重復(fù)包含。重復(fù)包含的頭文件在展開(kāi)后，將可能導(dǎo)致符號(hào)重定義，如：

// common.h
class Common
{
 // ...
};

// h1.h
#include "common.h"

// h2.h
#include "common.h"

// test.cpp
#include "h1.h"
#include "h2.h"
int main()
{
 return 0;
}

如果common.h中，有函數(shù)定義，結(jié)構(gòu)體定義，類(lèi)聲明，外部變量定義等等。test.cpp中將展開(kāi)兩份common.h，編譯時(shí)得到符號(hào)重定義的錯(cuò)誤。而如果common.h中只有外部函數(shù)聲明，則OK，因?yàn)楹瘮?shù)可在多處聲明，但只能在一處定義。關(guān)于類(lèi)聲明，C++類(lèi)保持了C結(jié)構(gòu)體語(yǔ)義，因此叫做”類(lèi)定義”更為適合。始終記得，頭文件只是一個(gè)公共代碼的整合，這些代碼會(huì)在預(yù)編譯期替換到源文件中。
為了解決重復(fù)包含，C++頭文件常用 #ifndef #define #endif或#pragma once來(lái)保證頭文件不被重復(fù)包含。
2.4 交叉包含
C++中的類(lèi)出現(xiàn)相互引用時(shí)，就會(huì)出現(xiàn)交叉包含的情況。如Parent包含一個(gè)Child對(duì)象，而Child類(lèi)包含Parent的引用。因此相互包含對(duì)方的頭文件，編譯器展開(kāi)Child.h需要展開(kāi)Parent.h，展開(kāi)Parent.h又要展開(kāi)Child.h，如此無(wú)限循環(huán)，最終g++給出：error: #include nested too deeply的編譯錯(cuò)誤。
解決這個(gè)問(wèn)題的方案是前向聲明，在Child類(lèi)定義前面加上 class Parent; 聲明Parent類(lèi)，而無(wú)需包含其頭文件。前向聲明不止可以用于類(lèi)，還可以用于函數(shù)(即顯式的函數(shù)聲明)。前向聲明應(yīng)該被大量使用，它可以解決頭文件帶來(lái)的絕大多數(shù)問(wèn)題，如效率性，傳遞性，重復(fù)包含，交叉包含等等。這一點(diǎn)有點(diǎn)像包(package)機(jī)制，需要什么，就聲明(導(dǎo)入)什么。前向聲明也有局限：僅當(dāng)編譯器無(wú)需知道目標(biāo)類(lèi)完整定義時(shí)。如下情形，類(lèi)A可使用 class B;：
類(lèi)A中使用B聲明引用或指針；
類(lèi)A使用B作為函數(shù)參數(shù)類(lèi)型或返回類(lèi)型，而不使用該對(duì)象，即無(wú)需知道其構(gòu)造函數(shù)和析構(gòu)函數(shù)或成員函數(shù)；
2.5 如何使用頭文件
關(guān)于頭文件使用的建議：
降低將文件間的編譯依賴(lài)(如使用前向聲明)；
將頭文件歸類(lèi)，按照特定順序包含，如C語(yǔ)言系統(tǒng)頭文件，C++系統(tǒng)頭文件，項(xiàng)目基礎(chǔ)頭文件，項(xiàng)目頭文件；
防止頭文件重復(fù)編譯(#ifndef or #pragma)；
確保頭文件和源文件的一致；
3.總結(jié)
C語(yǔ)言本身一些比較簡(jiǎn)單的特性，放在C++中卻引起了很多麻煩，主要是因?yàn)镃++復(fù)雜的語(yǔ)言特性：類(lèi)，模板，各種宏… 舉個(gè)例子來(lái)說(shuō)，對(duì)于一個(gè)類(lèi)A，它有一個(gè)私有函數(shù)，需要用到類(lèi)B，而這個(gè)私有函數(shù)必須出現(xiàn)在類(lèi)定義即頭文件中，因此就增加了A頭文件對(duì)B的不必要引用。這是因?yàn)镃++類(lèi)遵循C結(jié)構(gòu)體的語(yǔ)義，所有類(lèi)成員都必須出現(xiàn)在類(lèi)定義中，”屬于這個(gè)類(lèi)的一部分”。這不僅在定義上造成不便，也在容易在語(yǔ)義上造成誤解，事實(shí)上，C++類(lèi)的成員函數(shù)不屬于對(duì)象，它更像普通函數(shù)(虛函數(shù)除外)。
而在C中，沒(méi)有”類(lèi)的捆綁”，實(shí)現(xiàn)起來(lái)就要簡(jiǎn)單多了，將該函數(shù)放在A.c中，函數(shù)不在A.h中聲明。由A.c包含B.h，解除了A.h和B.h之間的關(guān)聯(lián)，這也是C將數(shù)據(jù)和操作分離的優(yōu)勢(shì)之一。
最后，看看其它語(yǔ)言是如何避免這些”坑”的：
對(duì)于解釋型語(yǔ)言，import的時(shí)候直接將對(duì)應(yīng)模塊的源文件解析一遍，而不是將文件包含進(jìn)來(lái)；
對(duì)于編譯型語(yǔ)言，編譯后的目標(biāo)文件中包含了足夠的元數(shù)據(jù)，不需要讀取源文件(也就沒(méi)有頭文件一說(shuō)了)；
它們都避免了定義和聲明不一致的問(wèn)題，并且在這些語(yǔ)言里面，定義和聲明是一體的。import機(jī)制可以確保只到處必要的名字符號(hào)，不會(huì)有多余的符號(hào)加進(jìn)來(lái)。