隨機性死機故障分析與排除
更新時間:2006年12月31日 00:00:00 作者:
隨機性故障是計算機使用過程中經(jīng)常遇到的一種常見故障,由于出現(xiàn)死機的故障不確定,所做操作性質(zhì)不固定,而且死機發(fā)生時,顯示的現(xiàn)象也不統(tǒng)一,所以故障發(fā)生的范圍不易確定,給維修工作帶來了一定的難度。
根據(jù)大量的維修實例分析總結(jié),隨機性死機故障產(chǎn)生的原因主要是以下三個方面:
一、環(huán)境因素
環(huán)境因素對于機器的正常運行有著很大的影響。計算機對環(huán)境的要求主要包括:溫度、濕度、電網(wǎng)干擾、電磁沖擊、外界振動沖擊、靜電、接地系統(tǒng)、供電系統(tǒng)等方面內(nèi)容。其中尤以溫度、濕度、靜電、接地系統(tǒng)、供電系統(tǒng)對機器的正常運行影響最大。由于機器工作環(huán)境,如灰塵、潮濕引起芯片間線路短路或插拔件接觸不良,都有可能引起系統(tǒng)死機。根據(jù)實際維修統(tǒng)計,環(huán)境因素造成的隨機性故障占故障總數(shù)的10%左右。
二、軟件原因
軟件系統(tǒng)引起的隨機性死機包括兩種情況。一是病毒破壞,雖然有時可以通過冷、熱啟動再次啟動機器,但運行不久又會死機。二是應(yīng)用軟件與操作系統(tǒng)不完全兼容,它們之間有沖突或者與硬件固有特性發(fā)生沖突,這種死機大多沒有鍵盤響應(yīng),只能通過冷啟動再次啟動機器。
對于軟件原因造成的隨機性故障的檢查方法是,可以使用干凈的引導(dǎo)盤重新引導(dǎo)機器后,再運行殺毒軟件清除病毒。對于應(yīng)用軟件與操作系統(tǒng)有沖突,建議采用修改程序配置與改變機器硬件配置相結(jié)合的方法解決。根據(jù)實際維修統(tǒng)計,軟件原因造成的隨機性故障占故障總數(shù)的20%左右。
三、硬件原因
硬件系統(tǒng)引起死機,主要是由于機器內(nèi)部元件質(zhì)量、兼容性或匹配不當(dāng)引起的。通常包括:
1.可插拔芯片接觸性故障。主板上有一些可插拔芯片接觸不良,這類故障極易發(fā)生在CPU芯片、內(nèi)存芯片以及各種擴展槽上,另外,AGP擴展槽普遍存在插不緊的問題。
2.芯片工作時序不匹配。在一個電路中如果幾個芯片共同完成一個功能,而幾個芯片之間的執(zhí)行速度不匹配,當(dāng)一個信號在芯片內(nèi)部通過邏輯變換,傳輸所需的延時時間比較長,就容易產(chǎn)生時序故障?;驎r序電路的控制時間關(guān)系要求比較嚴(yán)格,偶爾發(fā)生時序信號漂移,這種情況最常見于組裝的兼容機。此外,由于采用了不同廠家的板卡或芯片也存在不完全兼容的現(xiàn)象,時鐘頻率過高,也是造成死機的原因。
3.熱穩(wěn)定性差。所謂的熱穩(wěn)定性差是指機器在開始時運行正常,運行一段時間后,隨著芯片溫度的上升,開始出現(xiàn)死機。關(guān)機后,冷卻休息一段時間后開機又可以正常工作,之后又出現(xiàn)死機。其主要原因還是在于元器件本身質(zhì)量不過關(guān)。
4.芯片驅(qū)動能力差。因為每個芯片的扇出值是固定的,在電路設(shè)計中要求芯片的輸出信號驅(qū)動的芯片數(shù)必須小于允許的扇出值。如果芯片的扇出值不滿足其額定指標(biāo),當(dāng)系統(tǒng)或某個電路連接較多設(shè)備時,就會造成芯片工作死機。這種故障經(jīng)常出現(xiàn)在主板上的I/O接口、內(nèi)存的地址或數(shù)據(jù)驅(qū)動芯片。
5.抗干擾能力差。芯片的電源線和地線在印刷電路板上的布線寬度過小,線與線之間距離過近或芯片之間的電平匹配不好,使傳輸信號有“振蕩”或“反射”造成信號干擾,使芯片具有抗干擾能力而引起系統(tǒng)死機。根據(jù)實際維修統(tǒng)計,硬件原因造成的隨機性故障占故障總數(shù)的70%左右,是造成隨機性故障的主要原因,也是本文重點介紹的部分。
四、隨機性故障分析與維修方法
該類故障的檢查原則是,首先根據(jù)故障現(xiàn)象,推斷出故障的性質(zhì),然后根據(jù)這種推斷,利用萬用表、邏輯筆、示波器等工具,檢查硬件線路上的相應(yīng)信號是否有隨機的干擾或時序漂移等現(xiàn)象,如果有則找到相應(yīng)的硬件進行維修和更換。
首先檢查是否有接觸性故障。在關(guān)機狀態(tài)下取下各種擴展卡,用手指卡住板卡邊緣輕輕彎折、敲打,然后在開機通電狀態(tài)下,用手指按壓板卡邊緣、主板上的CPU插座、內(nèi)存條以及各種插頭或插座,如果在某個情況下機器可以啟動,則說明發(fā)生了接觸性不良故障。
如果經(jīng)反復(fù)試驗證明不是接觸性故障,就要檢查是否控制電路的時序故障。重點檢查:
1.系統(tǒng)控制電路芯片。主要是地址總線和數(shù)據(jù)總線芯片,ALE的地址鎖存信號,以及主板上的南、北橋芯片等其它門陣芯片。
2.系統(tǒng)內(nèi)存控制電路、驅(qū)動電路。主要是RAM的行選通信號RAS、列選通信號CAS、行列地址轉(zhuǎn)換控制信號和內(nèi)存數(shù)據(jù)讀出驅(qū)動、內(nèi)存芯片速度匹配關(guān)系。
3.系統(tǒng)各種時鐘信號電路,主要是SYSCLK、PROCCLK、PCLK、DMACLK。
通過使用100MHz以上的高頻示波器檢查上述信號,希望發(fā)現(xiàn)某個信號在某一瞬間出現(xiàn)不正常狀態(tài),如時序漂移或毛刺等干擾信號,發(fā)現(xiàn)后找到相應(yīng)的芯片進行更換。
三是熱穩(wěn)定性差是隨時性故障的另一種主要的表現(xiàn)形式,隨著夏季的到來或超頻使用CPU等,這類故障變得越來越頻繁。檢查時可以使用電吹風(fēng)距離打開的機箱20厘米~30厘米處進行加熱,當(dāng)機箱內(nèi)溫度上升到60℃~70℃左右時,故障可能開始頻繁出現(xiàn)。當(dāng)機器置于18℃~25℃的空調(diào)房間內(nèi),如果故障發(fā)生率大大降低,則確定是熱穩(wěn)定性差故障。再使用示波器主板上的數(shù)據(jù)總線、地址總線、控制芯片的進行輸出波形的檢查,如果發(fā)現(xiàn)有明顯的干擾信號,則找到對應(yīng)的芯片進行更換。
四是信號之間的相互干擾和芯片驅(qū)動能力差問題也是造成隨機性故障的常見原因之一。在維修中發(fā)現(xiàn),此類故障多產(chǎn)生在74FXX芯片與74LSXX、ALSXX芯片之間。
根據(jù)大量的維修實例分析總結(jié),隨機性死機故障產(chǎn)生的原因主要是以下三個方面:
一、環(huán)境因素
環(huán)境因素對于機器的正常運行有著很大的影響。計算機對環(huán)境的要求主要包括:溫度、濕度、電網(wǎng)干擾、電磁沖擊、外界振動沖擊、靜電、接地系統(tǒng)、供電系統(tǒng)等方面內(nèi)容。其中尤以溫度、濕度、靜電、接地系統(tǒng)、供電系統(tǒng)對機器的正常運行影響最大。由于機器工作環(huán)境,如灰塵、潮濕引起芯片間線路短路或插拔件接觸不良,都有可能引起系統(tǒng)死機。根據(jù)實際維修統(tǒng)計,環(huán)境因素造成的隨機性故障占故障總數(shù)的10%左右。
二、軟件原因
軟件系統(tǒng)引起的隨機性死機包括兩種情況。一是病毒破壞,雖然有時可以通過冷、熱啟動再次啟動機器,但運行不久又會死機。二是應(yīng)用軟件與操作系統(tǒng)不完全兼容,它們之間有沖突或者與硬件固有特性發(fā)生沖突,這種死機大多沒有鍵盤響應(yīng),只能通過冷啟動再次啟動機器。
對于軟件原因造成的隨機性故障的檢查方法是,可以使用干凈的引導(dǎo)盤重新引導(dǎo)機器后,再運行殺毒軟件清除病毒。對于應(yīng)用軟件與操作系統(tǒng)有沖突,建議采用修改程序配置與改變機器硬件配置相結(jié)合的方法解決。根據(jù)實際維修統(tǒng)計,軟件原因造成的隨機性故障占故障總數(shù)的20%左右。
三、硬件原因
硬件系統(tǒng)引起死機,主要是由于機器內(nèi)部元件質(zhì)量、兼容性或匹配不當(dāng)引起的。通常包括:
1.可插拔芯片接觸性故障。主板上有一些可插拔芯片接觸不良,這類故障極易發(fā)生在CPU芯片、內(nèi)存芯片以及各種擴展槽上,另外,AGP擴展槽普遍存在插不緊的問題。
2.芯片工作時序不匹配。在一個電路中如果幾個芯片共同完成一個功能,而幾個芯片之間的執(zhí)行速度不匹配,當(dāng)一個信號在芯片內(nèi)部通過邏輯變換,傳輸所需的延時時間比較長,就容易產(chǎn)生時序故障?;驎r序電路的控制時間關(guān)系要求比較嚴(yán)格,偶爾發(fā)生時序信號漂移,這種情況最常見于組裝的兼容機。此外,由于采用了不同廠家的板卡或芯片也存在不完全兼容的現(xiàn)象,時鐘頻率過高,也是造成死機的原因。
3.熱穩(wěn)定性差。所謂的熱穩(wěn)定性差是指機器在開始時運行正常,運行一段時間后,隨著芯片溫度的上升,開始出現(xiàn)死機。關(guān)機后,冷卻休息一段時間后開機又可以正常工作,之后又出現(xiàn)死機。其主要原因還是在于元器件本身質(zhì)量不過關(guān)。
4.芯片驅(qū)動能力差。因為每個芯片的扇出值是固定的,在電路設(shè)計中要求芯片的輸出信號驅(qū)動的芯片數(shù)必須小于允許的扇出值。如果芯片的扇出值不滿足其額定指標(biāo),當(dāng)系統(tǒng)或某個電路連接較多設(shè)備時,就會造成芯片工作死機。這種故障經(jīng)常出現(xiàn)在主板上的I/O接口、內(nèi)存的地址或數(shù)據(jù)驅(qū)動芯片。
5.抗干擾能力差。芯片的電源線和地線在印刷電路板上的布線寬度過小,線與線之間距離過近或芯片之間的電平匹配不好,使傳輸信號有“振蕩”或“反射”造成信號干擾,使芯片具有抗干擾能力而引起系統(tǒng)死機。根據(jù)實際維修統(tǒng)計,硬件原因造成的隨機性故障占故障總數(shù)的70%左右,是造成隨機性故障的主要原因,也是本文重點介紹的部分。
四、隨機性故障分析與維修方法
該類故障的檢查原則是,首先根據(jù)故障現(xiàn)象,推斷出故障的性質(zhì),然后根據(jù)這種推斷,利用萬用表、邏輯筆、示波器等工具,檢查硬件線路上的相應(yīng)信號是否有隨機的干擾或時序漂移等現(xiàn)象,如果有則找到相應(yīng)的硬件進行維修和更換。
首先檢查是否有接觸性故障。在關(guān)機狀態(tài)下取下各種擴展卡,用手指卡住板卡邊緣輕輕彎折、敲打,然后在開機通電狀態(tài)下,用手指按壓板卡邊緣、主板上的CPU插座、內(nèi)存條以及各種插頭或插座,如果在某個情況下機器可以啟動,則說明發(fā)生了接觸性不良故障。
如果經(jīng)反復(fù)試驗證明不是接觸性故障,就要檢查是否控制電路的時序故障。重點檢查:
1.系統(tǒng)控制電路芯片。主要是地址總線和數(shù)據(jù)總線芯片,ALE的地址鎖存信號,以及主板上的南、北橋芯片等其它門陣芯片。
2.系統(tǒng)內(nèi)存控制電路、驅(qū)動電路。主要是RAM的行選通信號RAS、列選通信號CAS、行列地址轉(zhuǎn)換控制信號和內(nèi)存數(shù)據(jù)讀出驅(qū)動、內(nèi)存芯片速度匹配關(guān)系。
3.系統(tǒng)各種時鐘信號電路,主要是SYSCLK、PROCCLK、PCLK、DMACLK。
通過使用100MHz以上的高頻示波器檢查上述信號,希望發(fā)現(xiàn)某個信號在某一瞬間出現(xiàn)不正常狀態(tài),如時序漂移或毛刺等干擾信號,發(fā)現(xiàn)后找到相應(yīng)的芯片進行更換。
三是熱穩(wěn)定性差是隨時性故障的另一種主要的表現(xiàn)形式,隨著夏季的到來或超頻使用CPU等,這類故障變得越來越頻繁。檢查時可以使用電吹風(fēng)距離打開的機箱20厘米~30厘米處進行加熱,當(dāng)機箱內(nèi)溫度上升到60℃~70℃左右時,故障可能開始頻繁出現(xiàn)。當(dāng)機器置于18℃~25℃的空調(diào)房間內(nèi),如果故障發(fā)生率大大降低,則確定是熱穩(wěn)定性差故障。再使用示波器主板上的數(shù)據(jù)總線、地址總線、控制芯片的進行輸出波形的檢查,如果發(fā)現(xiàn)有明顯的干擾信號,則找到對應(yīng)的芯片進行更換。
四是信號之間的相互干擾和芯片驅(qū)動能力差問題也是造成隨機性故障的常見原因之一。在維修中發(fā)現(xiàn),此類故障多產(chǎn)生在74FXX芯片與74LSXX、ALSXX芯片之間。
相關(guān)文章
硬盤啟動提示verifying DMI Pool Data錯誤的解決方法
硬盤啟動提示verifying DMI Pool Data錯誤的解決方法...2007-02-02

