網絡故障處理案例

2015-01-19 00:17:00
dxt001
原創
1502

       某大公司規模發展很快,兩周前對網絡實施了一次比較大的擴容工程,新增加了200臺工作站(為新員工配備),網絡規模由2000個站點增加到2200個站點,全部在一個網段中。該公司采用100BaseT以太網結構,用兩個路由器實現與生產基地和開發基地的連接(新換2個155ATM骨干),以前我曾建議他們將網段劃分小一些,以便管理和隔離故障,但因網絡未出現什么大的故障,加上公司網絡管理員的豐富經驗和自信以及維護經費未落實等原因,網絡一直保持了這種大型網段的“危險結構”。這次擴容同時將兩條廣域網骨干鏈路升級到155ATM,但網段結構仍然未作根本調整,計劃留待下期工程時再作打算。本周內網絡已多次出現阻塞現象,每天至少兩次,每次阻塞時間10~30分鐘不等。逐個仔細檢查了新安裝的200臺工作站,沒有發現任何問題。由于故障不是持續存在,Boss催得又緊,故令公司網絡管理員頗有些“精疲力盡”的感覺。

[診斷過程]

上午10:00,打開路由器的MIB庫,記錄的參數基本正常,網絡平均流量13%。其中有約1.5%左右的碰撞,表明網絡結構的絕大部分構件是好的。給新增加的200臺工作站Share一個軟件,然后每40臺一組同時下載并操作該軟件,結果證明200臺工作站工作基本正常。將F683網絡測試儀接入網絡,同時將F693網絡流量分析儀也接入網絡進行監測。下午14:21分,網絡阻塞現象出現,持續時間15分鐘,F693流量分析儀監測的流量正常,平均流量從9%上升到13%,一分鐘后下降為8%,但F683網絡測試儀的流量報告為84%左右,其中碰撞幀占82%~87%,少量FCS損壞幀(約2%~4%左右)。記錄該時間前后的Protocol Matrix協議對話圖譜,發現在15分鐘阻塞時間內共有137個工作站曾發送或接收過數據,其中4個工作站一直在持續收發數據,有一個工作站發送的數據包流量一直占其它工作站流量總和的15倍左右。幸好公司網絡管理員以前對站點的Mac地址做過文檔備案,依據儀器顯示的Mac地址我們立即確定了這4個工作站的使用者(流量最大者是財務科陳小姐的地址)。隨即詢問他們最近有無更動過硬件和網線,有無增刪或調整過軟件,回答均是“沒有”。詢問陳小姐剛才在使用何種軟件與生產基地的小張聯絡 (Protocol Matrix協議矩陣指示為小張的工作站)。回答是“機器一直就連在網上,但剛才沒有使用計算機”。將網絡測試儀連接到陳小姐的臺式機網卡接口上,模擬發送流量,結果碰撞隨流量的增加而大幅增加。測試該鏈路的網卡和網線,顯示插頭為3類插頭,鏈路近端串擾超差比較多。重新更換5類插頭后,網絡恢復正常。

經過私下再三詢問原因,陳小姐才道出了實情。

[診斷評點]

本故障是由更換不適當的3類插頭引起的。新員工小張是陳小姐的多年不見的同學,也是個網蟲。此次與陳小姐在新公司相遇,自然倍感親切。一周前小張在幫陳小姐安裝新聲卡時不慎將插頭損壞,隨意用一個3類插頭更換之。臨近新年,陳小姐在小張的指點下從網上陸續下載了不少大容量的賀年卡,均為動態電影格式,可以在網絡上實時傳送播放并加上雙方對話,非常有趣。該站點平時使用的財務軟件無論是傳輸速度和數據量都很小(3k左右),對整個網絡系統影響不大。但在向小張放送解壓后的動態電影賀年卡時數據流量約在3~4Mbps左右。由于網線問題,事后推算傳輸的數據幀約有13%是有效的,其余均被反射和串繞所破壞須重新發送,表現為網絡上大量的碰撞幀和少量的FCS幀。


[建議]

大型網絡不劃分網段既不便于管理又很難隔離網絡故障,此種結構是非常少見的,同時也是非常危險的。該公司網絡大部分采用的是集線器,只有很少幾臺交換機,這對故障隔離也是不利的。另外,一定要對員工進行上機前教育,不能隨意增刪、更改軟件和網絡設置。所幸的是公司網絡管理員本人經驗非常豐富,平時已將文檔備案工作做得很細致(國內多數網絡在文檔備案時不將網卡的Mac地址備案),否則是不可能在半小時內查出本故障,一般來講,可能會耗費1~3天左右的時間才行。


[后記]

公司網絡管理員經過此次“洗禮”,也悟出一點當好IT經理經理的絕招。至少他已不再認為僅憑經驗就可以“打遍天下無敵手”。網絡維護是一門藝術,更是一門科學或工程,沒有適用的工具和科學的方法是達不到這最高的“藝術境界”的。至于陳小姐,我們還是愿意善意地再為她,也為小張保守一段時間的“秘密”。

發表評論
評論通過審核后顯示。
文章分類
聯系我們
聯系人: 牟經理
電話: 028-85666248
傳真: 028-85666248-8008
Email: business@cd-dxt.com
QQ: 489323802
地址: 成都市二環路西一段80號金科雙楠天都2號樓
福彩3d相年富