本站真誠介紹香港這個「東方之珠」和「亞洲國際都會」

亞洲國際都會 asiasworldcity

一條芯片新賽道崛起

(本文内容不代表本站观点。)
香港飛龍 Hong Kong HK Dragon
「香港飛龍」標誌

本文内容:

公衆號記得加星標??,第一時間看推送不會錯過。近幾年時間裏,NPU成爲了AI浪潮中意外爆火的芯片之一,除了人手一部的智能手機外,愈來愈多的筆記本電腦也開始內置NPU,在廠商不斷吹捧AI功能的背後,都離不開NPU的助力。近幾年時間裏,NPU成爲了AI浪潮中意外爆火的芯片之一,除了人手一部的智能手機外,愈來愈多的筆記本電腦也開始內置NPU,在廠商不斷吹捧AI功能的背後,都離不開NPU的助力。然而,對於大多數人而言,NPU仍然是一箇相對陌生的概念。它與我們熟悉的CPU、GPU有何不同?爲什麼在AI時代突然變得如此重要?這個看似神祕的芯片,其實有着深厚的技術積澱和清晰的發展脈絡,要理解NPU爲何能在短短几年內從實驗室的概念驗證走向大規模商用,我們不妨從它最初的起源開始。NPU的誕生傳統的中央處理器(CPU)在數學運算與邏輯控制方面表現卓越,但其工作原理與人腦運行機制存在根本差異。CPU採用串行指令處理方式,而人腦則依託數以千億計的神經元實現並行激活與實時響應。這種架構差異使得CPU在模擬類腦計算時效率低下,難以勝任複雜的智能任務。NPU的設計理念則另闢蹊徑。它並非簡單模擬大腦功能,而是從結構層面汲取靈感——通過硬件級並行處理架構,重新定義計算範式。這一理唸的萌芽可以追溯到20世紀中葉的開創性研究。1943年,神經生理學家沃倫·麥卡洛克(Warren McCulloch)與數學邏輯學家沃爾特·皮茨(Walter Pitts)聯合提出了人工神經網絡的數學模型,並設計了首個"神經網絡"電路原型。這項里程碑式的研究在1950-60年代引發了學術界的熱烈探索,但由於技術條件限制和計算能力不足,進展緩慢,最終被傳統數字計算的迅猛發展所掩蓋,逐漸邊緣化。"那個時代,只有日本和德國的少數研究者還在堅持神經網絡研究,但它遠未形成完整的學科體系。"圖靈獎得主、被譽爲"深度學習三巨頭"之一的揚·勒坎(Yann LeCun)回憶起1980年代初期與傑弗裏·辛頓(Geoffrey Hinton)等先驅合作的歲月時說道,"直到1986年反向傳播算法的突破,這個領域才重新煥發生機。"然而,神經網絡真正重返計算科學主流,還要歸功於2000年代初期語音識別技術的商業化成功。即便如此,勒坎坦言:"當時'神經網絡'這個概念揹負着太多歷史包袱,爲了擺脫刻板印象,我們乾脆創造了一箇新名詞——'深度學習'。""神經處理單元"(NPU)這一術語最早出現在1990年代末期的學術論文中,但NPU從象牙塔走向產業化,離不開蘋果、IBM、谷歌等科技巨頭的鉅額投入。這些公司斥資數百億美元推動專用芯片研發,最終將數十年的理論積累轉化爲可以嵌入智能手機和筆記本電腦的實用產品——一種真正受人腦啓發的全新處理器架構。如今,勒坎已成爲Meta公司的首席AI科學家,見證着這一技術的商業化浪潮。從本質上看,現代NPU的核心架構與麥卡洛克-皮茨模型並無根本差異:都採用了仿生的並行處理框架。不同於傳統CPU的串行執行模式,NPU能夠同時進行數百萬乃至數萬億次微小運算,這正是業界常提及的"每秒萬億次運算(TOPS)"性能指標的技術基礎。但NPU的工作機制遠比表面看起來複雜。它依賴於深度學習算法框架,這些模型需要在海量數據集上完成預訓練才能發揮效用。以圖像邊緣檢測爲例,系統通常採用卷積神經網絡(CNN)架構來實現這一功能。在CNN運算過程中,卷積層會將預設的"卷積核"濾波器在圖像的每個區域進行滑動掃描,利用訓練階段習得的特徵模式來識別圖像中的"邊緣"信息。NPU執行的核心數學運算即"卷積計算",通過在原始圖像上生成多層特徵圖譜,逐步提取和強化目標特徵,直至神經網絡達到預設的識別置信度。NPU在執行此類卷積密集型計算時展現出顯著優勢——處理速度快且功耗控制出色,相比CPU具有壓倒性的效率優勢。雖然圖形處理器(GPU)同樣支持並行計算,但其架構針對通用圖形渲染進行了優化,在AI推理任務上的專業化程度不及NPU,因此能效比相對較低。這種差異在移動設備上尤爲關鍵,直接影響續航表現,成爲推動NPU在智能手機領域普及的重要驅動力。2017年成爲NPU商業化的關鍵節點。華爲率先在Mate 10中集成了基於寒武紀架構的NPU,而蘋果也在iPhone X中首次引入了集成NPU的A11仿生芯片。儘管這些初代NPU性能有限——算力不足1 TOPS,但已經開啓了移動AI計算的新紀元。相比之下,當今高端筆記本搭載的高通驍龍X系列芯片,其NPU算力已經達到45 TOPS的驚人水平。經過短短八年發展,AI功能已經深度融入日常使用場景。手機上"智能摳圖"、"背景虛化"等功能均由NPU驅動實現,而谷歌的"圈選搜索"(Circle to Search)、"魔法消除"(Magic Eraser)等創新體驗也依託NPU的強大算力支撐。如今,NPU的應用版圖正在向筆記本電腦領域全面擴張。2024年,微軟正式推出"AI PC"產品類別——Copilot+ PC,明確要求設備內置不低於40 TOPS的NPU算力。這一標準直接將AMD和英特爾的早期芯片(僅支持15 TOPS)排除在外,而高通憑藉驍龍X系列的45 TOPS高算力NPU搶佔先機,率先獲得微軟Surface Laptop、宏碁Swift AI等旗艦產品的採用。儘管後續AMD和英特爾都推出了符合微軟最低門檻的新一代處理器,但也暴露出市場分化的現實——大量定價在800美元以下的入門級筆記本仍然採用不滿足AI PC要求的傳統處理器。更加值得關注的是,更多的企業和用戶並不滿足於目前集成NPU的算力,一場獨屬於NPU發展的革命,似乎已然到來。獨立NPU的崛起在剛剛閉幕的2025年戴爾科技世界大會(Dell Technologies World)上,AI工作負載的去中心化成爲了一項重要議題,這意味着AI工作需要從雲端數據中心向邊緣計算節點分散,最終下沉至各類終端設備,儘管集成NPU的AMD Ryzen AI 300系列和英特爾酷睿Ultra 200系列等產品可以勝任這一工作,但獨立得NPU顯然能工作得更好。在大會展臺上,戴爾展示了一款名爲Pro Max Plus的概念筆記本,其內部搭載了兩顆高通Cloud AI 100處理器——它們佔據了傳統NVIDIA GPU的位置,形成了全新的AI加速架構。這款設備本質上仍是原型產品,目前僅有少量手工組裝的樣機,但其技術規格已經令人矚目。每顆Cloud AI 100處理器配備32GB專用內存,兩顆處理器以統一內存架構呈現,可爲AI模型提供高達64GB的加速器內存空間。戴爾技術團隊已成功在該平臺上運行了包括1090億參數的Llama 4 Scout在內的多箇大型AI模型,展現出遠超傳統集成NPU的處理能力。這種獨立NPU方案的核心優勢在於突破了內存瓶頸。以目前頂級的NVIDIA RTX PRO 5000 Blackwell Generation爲例,其24GB顯存根本無法容納千億參數級別的大模型,而64GB的NPU內存則爲移動端部署超大規模AI模型開闢了可能。儘管具體的能效數據尚未公佈,但戴爾聲稱這套高通獨立NPU系統的功耗顯著低於同等性能的NVIDIA GPU,值得一提的是,戴爾推出的Pro AI Studio軟件平臺旨在降低AI應用開發門檻,通過預驗證的AI模型庫和一鍵式部署工具,讓開發者能夠更便捷地利用NPU算力。在現場演示中,開發人員使用這套軟件-硬件組合完成了遊戲引擎的AI驅動開發任務,展現了獨立NPU在專業創作領域的應用潛力。目前,戴爾-高通的獨立NPU方案仍處於原型階段,具體的產品規格、定價策略和上市時間尚未最終確定。但戴爾方面明確表示,他們正在推進這一產品的商業化進程。無獨有偶,一家源自普林斯頓大學的初創公司Encharge AI,憑藉其革命性的模擬內存計算技術,已成功籌集1.44億美元資金,並推出了一款AI加速器——EnCharge EN100。據Encharge AI介紹,EN100的核心創新在於採用了精確且可擴展的模擬內存計算架構。與傳統數字芯片不同,這種技術通過精密的金屬線開關電容器替代易受噪聲影響的晶體管,從根本上解決了模擬計算長期面臨的噪聲挑戰。這一技術突破帶來了顯著的性能提升:相比競品解決方案,EN100在各種AI工作負載下展現出高達20倍的每瓦性能提升,其約30 TOPS/mm2的計算密度,也遠超傳統數字架構的3 TOPS/mm2,它同時還支持了高達128GB的高密度LPDDR內存,帶寬達272 GB/s。目前,EN100提供了兩種規格配置,其中M.2版本可以在8.25W功耗範圍內提供超過200 TOPS的AI計算能力,使筆記本電腦能夠本地運行復雜AI應用,而不影響電池續航和便攜性,而PCIe版本:配備四個NPU,計算能力約爲1 PetaOPS,以極低成本和功耗提供GPU級計算性能,專爲使用複雜模型和大型數據集的專業AI應用而設計。除此之外,EnCharge AI還構建了全面的軟件生態系統。該平臺支持PyTorch和TensorFlow等主流框架,結合專業優化工具、高性能編譯器和豐富的開發資源,爲開發者提供了完整的解決方案。這種全棧方法確保了對當前AI模型的優化性能,同時具備適應未來AI模型演進的能力。EnCharge AI強調,其採用差異化的市場策略,重點佈局快速增長的AI PC和邊緣設備市場,而非直接挑戰數據中心領域的既有巨頭。EN100的高計算密度使OEM廠商能夠在不犧牲設備尺寸和重量的前提下集成強大AI功能,打造更時尚緊湊的產品,同時它運行最先進AI模型的能耗僅相當於一箇燈泡,使其在移動和邊緣設備應用中極具競爭力。事實上,戴爾的概念筆記本與EnCharge AI推出的AI加速器,正標誌着AI PC正在從“AI功能”的試水階段,走向“AI能力”的專職部署。NPU革命EnCharge AI和戴爾概念筆記本之所以引人關注,就是它們契合了目前AI計算的發展趨勢。目前AI計算有兩個主要陣地:一箇是數據中心,另一箇是本地終端。前者強調集中、強大,後者關注隱私、延遲與能效。而上述兩者,顯然是站在“本地派”陣營。過去,複雜AI推理模型幾乎只能在雲端完成,原因是本地芯片性能有限,但隨着AI的不斷髮展,獨立NPU反而展現出了自己相對於傳統GPU的優勢。首先,GPU在AI計算領域雖然強大,但它們的資源分配更偏向圖形渲染與CUDA生態維護,對純AI推理任務而言存在"資源冗餘"和"能效浪費"。專爲AI定製的NPU,在功耗控制、封裝密度、並行優化等方面都能實現每瓦更高效、每成本更專一的表現。其次,內存一直是GPU的痛點之一,並非所有用戶都需要GPU進行圖形渲染,但越來越多的專業用戶、AI開發者、行業解決方案廠商迫切需要能夠本地加載50B+參數模型的AI平臺。NPU搭配大容量LPDDR或HBM內存,更符合未來"本地大模型"的發展趨勢。最後,專用的NPU也展現出了更多的可能性,它們在爲一種全新的計算架構探索路徑:CPU負責通用計算和系統管理,NPU專注高效AI推理,GPU(選配)提供圖形渲染能力。這種模塊化AI協處理器設計,將NPU從SoC內核中獨立出來,根據應用場景靈活組合。這也催生出了多種AI PC形態的可能性:輕量辦公設備採用集成NPU(如酷睿Ultra系列),專業AI創作平臺配備獨立NPU(如戴爾Pro Max Plus和EnCharge AI),遊戲與AI雙重需求場景則選擇GPU+NPU雙芯協同工作。目前來看,戴爾與高通的Pro Max Plus仍是原型產品,EnCharge AI的商業化進程也剛剛起步,產品形態、量產成本、市場接受度都尚未完全明朗。但它們共同展示的未來圖景令人振奮:當NPU性能和容量超越GPU,卻不承擔圖形任務時,一種新的、純粹爲AI服務的"智能計算層"正在浮出水面。無論最終形態如何演進,這些先行者敢於繞開既有生態、押注專用NPU的勇氣,已在AI PC芯片賽道上樹立了鮮明旗幟。從集成到獨立,從通用到專用,NPU正在經歷一場全新革命,這塊全新的芯片也許不會讓人一夜之間扔掉老電腦,但它讓人看到一箇不遠的未來:AI開始真正從雲端走入用戶設備之中。*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅爲了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。今天是《半導體行業觀察》爲您分享的第4058期內容,歡迎關注。加星標??第一時間看推送,小號防走丟求推薦


(本文内容不代表本站观点。)
---------------------------------
本网站以及域名有仲裁协议(arbitration agreement)。

依据《伯尔尼公约》、香港、中国内地的法律规定,本站对部分文章享有对应的版权。

本站真诚介绍香港这个「东方之珠」和「亚洲国际都会」,香港和「东方之珠」和「亚洲国际都会」是本站的业务地点名称。

本网站是"非商业"(non-commercial),没有涉及商业利益或竞争。


2025-Jun-08 09:08am (UTC +8)
栏目列表