「chiplet」準備在資料中心初試啼聲
2019-09-25
近期有一個號稱成員包括53家公司的組織,首次舉辦了為加速器訂定小晶片(chiplet)開放標準的工作會議;該組織的目標是在半導體進展步伐趨緩的當下,催生SoC的低成本替代方案。
這個名為「開放領域特定架構」(Open Domain-Specific Architecture,ODSA)的組織,隸屬於Facebook創建的開放運算計畫(Open Compute Project,OCP)框架下;OCP最近宣佈了第一個開放源碼晶片專案,但該專案正面臨技術難題和商業障礙,阻礙了其市場化動力,目前尚不清楚這項躊躇滿志的計畫能否獲得積極回應和廣泛參與。
迄今為止,已經有很多公司早早地創建了自己的chiplet生態系統,包括Marvell的MoChi、英特爾(Intel)的EMIB以及新創公司zGlue提供的產品。2018年夏天,英特爾就已發佈了針對其EMIB封裝技術的開放源碼AIB協議,作為所參與的美國國防部高等研究計畫署(DARPA)的chiplet研究專案之一部分。
chiplet是業界為了彌補矽製程技術進展趨緩所做的幾項努力之一,起源於1970年代誕生的多晶片模組(multi-chip modules),最近因為被視為一種節省成本的技術應用於AMD的Ryzen和Epyc系列x86處理器而復活。
「目前所有的多晶片介面都是專有的,我們這個組織想建立一個開放性介面,讓你可以組裝出最好的晶片;」 網路處理器設計業者Netronome工程師、ODSA的發起人之一Bapi Vinnakota表示,其目標是為OSDA組織提供該公司多核心網路處理器中使用的800Gbps架構RTL。
作為一個開始,其他ODSA成員在研討會上提出以一個簡單的「線束」(bunch of wires)作為初始實體層介面,可能以每接腳(pin) 1、2或4 Gbp的可選速率在有機基板上運作。
未來的介面還可能包括CCIX、112G和56G serdes以及RISC-V TileLink;該組織建議將來使用PCIe PIPE抽象層來實現各種協議和PHY實體層。儘管OSDA的成員主要聚焦於資料中心,但該組織的終極目標也包括催生行動裝置與邊緣系統晶片。
ODSA的目標是圍繞PCIe建立快速概念驗證,同時定義其介面。
(圖片來源:ODSA)
ODSA將支援同調(coherent)和非同調(non-coherent)記憶體鏈路的混合應用,並採用turbo模式實現雙向流量;但他們似乎排除了英特爾的AIB協定,因為其資料速率和接腳排列限制太多。該組織計劃在今年底前建立以PCIe為基礎的概念驗證,同時將充實其PHY、協定以及其他規格,建議工程師們可以準備為明年的商業化佈署著手展開工作。
此外ODSA還要為chiplet定義商業模式;該組織另一位發起人,恩智浦半導體(NXP)行銷總監Sam Fuller表示,將為不同的產業別提出價值主張,並為已知合格晶片(KGD)定義測試認證。他補充指出,ODSA還需要吸引包括封裝業者在內的幾個關鍵參與者。
ODSA其他活躍成員還包括監督概念驗證的FPGA供應商Achronix,以及提供電源和散熱問題觀點的安森美半導體(On Semiconductor);新創公司Kandou、SiFive和zGlue也是該組織的聯合創始公司。大約有70人參與了ODSA的第一場活動,包括線上直播的20位左右參與者。Vinnakota表示:「每隔兩、三個星期就會4~5位新的菁英加入;」該組織於2018年10月開始與7家公司合作。
三星(Samsung)曾在其北美總部舉辦的一場活動中提及ODSA,並表示對該組織的支持;該公司美洲市場策略資深總監Craig Orr表示「我們正在擬定公司的chiplet策略,但我個人看到業界對chiplet的濃厚興趣。」
他指出,有不少公司利用3D堆疊技術將一片晶圓可以切割出的元件最大程度地拼在一起,還有不少網路公司將I/O裸晶分開,因此目前的serdes能在未來轉向使用矽光子技術(silicon photonics);隨著成本上升,「能以尖端製程生產晶片的公司越來越少,因此如果我們可以透過chiplet降低成本,可望為我們帶來更多的客戶。」
對於Facebook和其他大型資料中心業者而言,定義矽晶片是定義一系列系統、電路板和模組之後的下一個重大飛躍;因為晶片發熱量已經達到了得廣泛使用液冷方案的程度,這讓他們倍感壓力。
一個成員包括AMD、英特爾、Nvidia、高通(Qualcomm)、賽靈思(Xilinx)和人工智慧(AI)新創公司Graphcore和Habana等的組織,與Facebook合作定義了一個用於冷卻高階晶片的模組;這個被稱為OCP加速器模組(OCP Accelerator Module,OAM)的方案,就跟一個大的咖啡馬克杯差不多大小,其設計目標為最多容納8個晶片,在風扇冷卻系統中支援450W運作功率,在液冷系統中則可支援700W運作功率。
OAM最初只瞄準要求高性能的AI訓練任務,但現在Facebook認為該方案它也能應用於推理系統。Facebook硬體工程師Whitney Zhao表示:「我們定義了一個700W功率的選項,因為確實有公司在考慮採用;」她提及Nvidia與一所大學合作研究的多晶片GPU。
Zhao指出,「450W是界線,超過該界線時,冷卻問題就可能對我們產生很大影響。液體冷卻對資料中心來說是一大衝擊,我們需要時間來打造這種基礎設施,這也是我們現在面臨的關鍵議題之一。」
Open Compute組織成員已經開始將各種規格的系統用於加速器。
(圖片來源:ODSA)
在此同時,Facebook與微軟(Microsoft)已經開始在他們的資料中心中採用包括OAM在內的至少五種系統外觀規格,未來還會有更多。Facebook和合作夥伴將在今年開始為新模組定義通用基板(baseboard)、主機殼和托盤。Zhao表示:「我們需要一個開放的加速器基礎設施,」她也提及參與了ODSA的會議以了解晶片等級的選項。
Netronome的Vinnakota認為,對晶片供應商來說,不斷增加的目標系統種類「令人大開眼界,我們的『著陸區』就有一堆選項;他補充指出:「我們得決定要以哪種模組為目標,再反過去思考該用哪些產品。簡單來說,我們目前還沒有明確的想法,也願意接受任何幫助來搞清楚我們要的是什麼。」