
特斯拉近日公布了其百萬核心級Dojo超算系統(tǒng)的創(chuàng)新故障檢測技術(shù),通過自主研發(fā)的Stress工具,可在不停機(jī)狀態(tài)下跨處理器和集群識別靜默數(shù)據(jù)錯誤(SDC)的核心缺陷。這一突破至關(guān)重要,因?yàn)閱蝹€錯誤即可導(dǎo)致耗時數(shù)周的AI訓(xùn)練任務(wù)功虧一簣,尤其Dojo作為全球唯二的最大處理器之一,其晶圓級芯片尺寸已達(dá)物理極限,制造缺陷難以完全避免。
由于Dojo處理器包含8850個核心,功耗高達(dá)15000W,靜默數(shù)據(jù)錯誤的風(fēng)險被顯著放大,對訓(xùn)練數(shù)據(jù)完整性構(gòu)成嚴(yán)重威脅。特斯拉將每個Dojo單元稱為“訓(xùn)練模塊”,由25個D1芯片組成,采用臺積電InFO_SoW封裝技術(shù),總帶寬達(dá)10TB/s,但其復(fù)雜性迫使公司升級檢測方案。初期使用的差分模糊測試方法因主機(jī)通信延遲而效率低下,特斯拉通過三項(xiàng)創(chuàng)新實(shí)現(xiàn)優(yōu)化:為每個核心分配0.5MB專屬負(fù)載,利用內(nèi)部高帶寬縮短測試時間;多次運(yùn)行負(fù)載以暴露潛在錯誤;并通過XOR操作提升缺陷識別率10倍,同時控制性能損耗。
改進(jìn)后的Stress工具已擴(kuò)展至模塊、機(jī)柜及集群層級,支持百萬核心規(guī)模的實(shí)時故障定位。測試數(shù)據(jù)顯示,多數(shù)缺陷可在數(shù)秒至數(shù)分鐘內(nèi)檢出,但頑固故障需執(zhí)行數(shù)小時指令才能暴露。該系統(tǒng)運(yùn)行輕量級負(fù)載,僅禁用故障核心,且單個D1芯片可容忍多個核心失效而不影響整體功能,還意外幫助修復(fù)了底層設(shè)計缺陷。
目前,Stress工具已全面集成至Dojo集群,監(jiān)測到的故障率與谷歌、Meta等企業(yè)相當(dāng),標(biāo)志著特斯拉在AI硬件健康管理上達(dá)到行業(yè)前列。此舉恰逢下一代Dojo 2芯片即將上線,有望進(jìn)一步強(qiáng)化系統(tǒng)可靠性,支撐特斯拉自動駕駛及機(jī)器人訓(xùn)練的長期目標(biāo)。
原創(chuàng)文章,作者:Tesla,如若轉(zhuǎn)載,請注明出處:http://www.2079x.cn/article/722834.html