來源:半導體產(chǎn)業(yè)縱橫
數(shù)據(jù)之亂,正在拖慢整個芯片AI。
將人工智能融入芯片設計流程,正推動企業(yè)全面重構數(shù)據(jù)管理策略,從被動存儲轉向主動、結構化、機器可讀的系統(tǒng)。隨著訓練與推理負載不斷增長,數(shù)據(jù)遷移、擁堵和能效已成為核心挑戰(zhàn),其重要性甚至超過了單純的算力。EDA專用且復雜的數(shù)據(jù)格式,加上公開數(shù)據(jù)有限,使得針對半導體設計的AI模型微調變得非常困難。無論是用于RAG還是模型微調,都需要大量解析工作和深厚的領域專業(yè)知識。AI正迫使半導體企業(yè)從底層重新思考數(shù)據(jù)管理,將其從被動存儲轉變?yōu)橐婚T主動的工程學科。
工程團隊首先必須將分散的日志和設計成果整合到機器可讀的數(shù)據(jù)湖中,用元數(shù)據(jù)和本體論進行豐富,并在工具之間搭建穩(wěn)定的數(shù)據(jù)流管道。為此,他們會使用智能助手、檢索增強生成(RAG)和微調模型,而這一切都必須在嚴格安全與本地部署的約束下完成。隨著數(shù)據(jù)量增長,企業(yè)將需要新增EDA數(shù)據(jù)管理員這類角色,并持續(xù)投入數(shù)據(jù)結構與質量建設。無論工程團隊使用RAG、訓練模型還是微調數(shù)據(jù),數(shù)據(jù)如果只是躺在那里,就毫無價值。歷史數(shù)據(jù)與現(xiàn)有數(shù)據(jù)必須從不同集群、工具和項目中收集,再按項目、流程階段和團隊進行清洗與整理。此外,代碼、文本、圖像、時序數(shù)據(jù)和二進制格式都需要解析與分塊。這些需求共同推動團隊轉向集中式數(shù)據(jù)湖和向量數(shù)據(jù)庫,取代臨時文件共享,數(shù)據(jù)管理也更強調機器可讀性與檢索能力。這也解釋了為什么如今圍繞AI設計的數(shù)據(jù)管理活動如此活躍,而僅僅一年前,行業(yè)還更關注可以使用哪些AI工具。
是德科技EDA部門IP與數(shù)據(jù)管理業(yè)務總經(jīng)理Simon Rance表示,當時大家問的問題是需要在方法或設計流程中做哪些改變,才能融入并利用AI,他們也在思考如何訓練AI。隨著企業(yè)開始真正思考并著手落地,這個領域不斷發(fā)展。企業(yè)面臨數(shù)據(jù)安全挑戰(zhàn)、算力問題、AI計算的能耗問題。現(xiàn)在人們越來越了解AI幻覺及其成因,也想知道如何緩解或減少幻覺。當前的重點大量集中在數(shù)據(jù)安全上。相比于創(chuàng)建大語言模型或訓練方法,數(shù)據(jù)編排的優(yōu)先級變得更高。大家都想直接深入應用,但如果基礎沒打好,就會在各種地方卡住,很多企業(yè)確實卡住了,某種程度上就像陷入癱瘓。這不是只改一個點就能解決的問題,會引發(fā)一連串連鎖反應。
西門子EDA生成式AI產(chǎn)品總監(jiān)Niranjan Sitapure也持相同觀點。從AI設計對數(shù)據(jù)管理的影響來看,主要可以分為兩類,一類是訓練新AI模型、大模型或微調現(xiàn)有模型,另一類是檢索增強生成(RAG),不需要訓練或微調模型,也能利用已有數(shù)據(jù)。第三類,對半導體設計尤其重要,是前兩類都共用的數(shù)據(jù)格式問題。像ChatGPT、Gemini這類大模型非常擅長文本、代碼和多模態(tài)處理,因為它們在互聯(lián)網(wǎng)上有大量這類格式的數(shù)據(jù)。但在EDA領域,代碼高度專有,存在專用語言,很多EDA工具還有自己的語法且不對外公開,即便是最新模型也很難獲取這些信息。部分EDA數(shù)據(jù)的格式甚至不支持機器讀取,即便有圖像和表格,也都是極其復雜的電路圖、原理圖,當前AI模型很難理解其含義。這直接影響模型微調和RAG兩類應用。
Sitapure指出,在微調方面,現(xiàn)有模型并沒有EDA數(shù)據(jù),它們可能很擅長寫Python代碼、回答光刻原理這類通用問題,但并不真正懂如何深入設計電路。此外,微調需要大量數(shù)據(jù),而很多芯片設計數(shù)據(jù)并不在EDA廠商手里,而是在客戶和代工廠手中,它們不會公開。想要微調當前頂尖模型,既要解決EDA文件格式解析問題,又要面對公開數(shù)據(jù)不足的問題。而在RAG方面,比如在工具里打開一個設計做DRC,想理解設計狀態(tài)或從日志文件排查錯誤,這類場景用RAG會更可行、更直接。
工程團隊主要有兩種應對方式。第一種是為所有數(shù)據(jù)搭建智能助手,配合RAG使用,相當于EDA領域的ChatGPT,廠商提供模型、RAG管道和友好界面,用戶直接提問即可。另一些用戶則希望擁有自己的微調AI模型,他們希望搭建訓練或微調管道,在不同設計上運行仿真,讓本地AI模型理解仿真數(shù)據(jù),預測運行時間、內存占用,甚至預估PPA。目前EDA廠商會向用戶提供這類技術。用戶將信息集中到自己的機器可讀數(shù)據(jù)湖中,再整體遷移到EDA廠商的AI服務基礎設施里,但數(shù)據(jù)保留在本地、完全物理隔離,既保證安全,又能精準響應用戶需求。換句話說,AI芯片與系統(tǒng)設計迫使數(shù)據(jù)管理從孤立、基于文件的結果,演進為云原生、大數(shù)據(jù)基礎設施,能夠承載跨物理域模型、減少昂貴的數(shù)據(jù)遷移,最終將設計階段與運行階段數(shù)據(jù)整合為統(tǒng)一、可擴展的系統(tǒng)。
部分企業(yè)已采用大數(shù)據(jù)技術,打造專門面向芯片設計的數(shù)據(jù)基礎設施,例如如今并入新思科技的Seascape數(shù)據(jù)庫。新思科技產(chǎn)品營銷總監(jiān)Marc Swinnen表示,他們重寫了大量工具,讓它們直接運行在Seascape之上,通過MapReduce等大數(shù)據(jù)技術,部分工具可以原生部署在云端。在EDA行業(yè),通常是先做數(shù)據(jù)庫或工具,再考慮如何上云,而Gear創(chuàng)始人的思路相反,是云優(yōu)先,算法再去適配。當多個工具都在Seascape上時,可以實現(xiàn)傳統(tǒng)系統(tǒng)無法做到的深度數(shù)據(jù)融合與聯(lián)合分析。
工程數(shù)據(jù)價值極高,但過去長期處于高風險、弱治理狀態(tài)。ChipAgents首席執(zhí)行官William Wang表示,RTL、規(guī)格書、波形、日志、ECO歷史都極度敏感、碎片化且難以審計。數(shù)據(jù)質量,而非模型質量,才是瓶頸。無論模型多大,錯誤上下文都會導致智能體輸出錯誤。這意味著安全與溯源比規(guī)模更重要。用戶不再只關心大數(shù)據(jù),更關心數(shù)據(jù)來源、權限、被哪些模型使用過。為解決數(shù)據(jù)質量、安全與溯源問題,有效的做法是嵌入工作流的數(shù)據(jù)治理,數(shù)據(jù)管理必須融入工程流程,而不是放在獨立平臺里。每份成果都需要歸屬、溯源和權限,溯源與訪問控制必須默認開啟,現(xiàn)在還可以通過智能體介導訪問,由智能體自動管控可見范圍與安全使用規(guī)則。
弗勞恩霍夫研究所研究員Martin Neumann-Kipping認為,今天談AI,必須拋棄大數(shù)據(jù)就是答案的觀念,大數(shù)據(jù)熱潮已經(jīng)在退去,單純收集盡可能多的數(shù)據(jù)不再是終極目標。企業(yè)需要的是有信息含量的數(shù)據(jù),描述清晰、關聯(lián)充分、上下文準確。大多數(shù)企業(yè)的問題不是數(shù)據(jù)不夠,而是數(shù)據(jù)被鎖在豎井里,每個豎井本身都有價值,但真正的潛力在于打通它們,把生產(chǎn)系統(tǒng)看作整體,從而建立關于系統(tǒng)的真實知識庫。要做出優(yōu)秀的AI方案,僅僅擁有數(shù)據(jù)遠遠不夠,必須精確知道數(shù)據(jù)代表什么,需要語義描述、本體論、統(tǒng)一的數(shù)據(jù)語言。企業(yè)現(xiàn)有數(shù)據(jù)管理系統(tǒng)可以是很好的基礎,但需要擴展語義層,跨源連接信息。AI時代的數(shù)據(jù)管理不是獨立話題,而是前提條件。如果不投入精力去描述、結構化、關聯(lián)數(shù)據(jù),就永遠只能做狹隘、局部的優(yōu)化。如果把數(shù)據(jù)當作系統(tǒng)數(shù)字孿生的一部分,就能優(yōu)化整個流程,而不只是孤立環(huán)節(jié),這才是AI在工業(yè)界真正的長期價值。
幾年前,英偉達CEO黃仁勛曾說,未來工程師會成為AI智能體的管理者。沿著這個方向,EDA數(shù)據(jù)管理員的需求正在快速增長,其職責是確保數(shù)據(jù)結構化、配有正確元數(shù)據(jù)、格式合規(guī)、目錄清晰、權限合理等。西門子Sitapure表示,這類角色的重要性正在顯著提升,它可能看起來不那么光鮮,處于設計后端,但卻是基礎性角色,必須有人搭建這套體系,并且需要大量投入。從企業(yè)級AI視角來看,全行業(yè)都必須加大數(shù)據(jù)管理與結構化投入,否則就是垃圾進,垃圾出。
企業(yè)規(guī)模越大,數(shù)據(jù)越容易碎片化,并購后尤其嚴重。是德科技Rance表示,不同部門用著不同的數(shù)據(jù)管理系統(tǒng),有些甚至不用系統(tǒng),只用Confluence、SharePoint、文件服務器,沒有索引、沒有目錄、沒有版本控制。當數(shù)據(jù)到處分散時,AI會出現(xiàn)延遲、重復,進而因數(shù)據(jù)質量、位置、可達性、算力等問題引發(fā)幻覺。找數(shù)據(jù)和數(shù)據(jù)質量本身才是很多問題的根源。過去企業(yè)沒有專人來清理數(shù)據(jù),現(xiàn)在必須有這類角色和數(shù)據(jù)治理團隊,明確如何結構化數(shù)據(jù)、存儲位置、唯一可信源、數(shù)據(jù)安全、加密、防泄漏以及算力支撐。
歷史上,很多數(shù)據(jù)管理系統(tǒng)都運行在普通服務器或工作站上,但要真正支撐模型訓練、推理和流程編排,數(shù)據(jù)必須放在高性能計算平臺上。Rance表示,底層也存在IT和基礎設施問題,現(xiàn)在大家都聚焦于如何創(chuàng)建和管理模型,卻發(fā)現(xiàn)必須先整理數(shù)據(jù)、存儲位置、算力資源和安全問題。把基礎打好后,下一個挑戰(zhàn)就是建立唯一可信源,并在設計流程中保留以往從未保留過的數(shù)據(jù),用于機器學習,這會讓數(shù)據(jù)量暴增,而傳統(tǒng)IT服務器根本沒有為這種海量存儲做過配置。
向全新數(shù)據(jù)管理理念轉型,也帶來了獨特的組織挑戰(zhàn)。Rance說,以前合作的主要是工程師、架構師、CAD團隊、工程管理層,現(xiàn)在還要加上IT、安全工程師、安全專家,在大型客戶那里甚至需要法務團隊參與,評估數(shù)據(jù)風險、分級規(guī)則,確保受出口管制的內容不會進入機器學習。這些工作以前由不同團隊在后臺分別完成,現(xiàn)在所有角色都要參與整體方案評估,事情明顯變得更復雜。
-
數(shù)據(jù)
+關注
關注
8文章
7342瀏覽量
94916 -
芯片設計
+關注
關注
15文章
1159瀏覽量
56710 -
AI
+關注
關注
91文章
40363瀏覽量
301945
發(fā)布評論請先 登錄
芯片設計AI化,數(shù)據(jù)才是真難題
評論