Deep-seek or Deep-adaptability ? 到底是某AI 科技公司所標榜的「深度搜尋」?還是實質為「深度調適」?
事實上,半導體工藝的進步不只顯示在物理技術上,例如說 :從3nm 到2nm,「鐵杵磨出繡花針」,可以刺繡成華麗的織錦 ; 也可因為在 Architecture 上的適應和調整,可以不必需要那麼細而長的刺針,也可刺繡成(某類)的織錦。
近年來號稱的「 AI 革命」,到底進行的時間仍然短促,不像是成熟的工藝,有各種的 Benchmark 可以測試不同狀態下的各種 performance 。以「大型語言模型」為例,有公認的 Benchmark,來作test 嗎 ?那麼Deep-seek 公司的產品和別家公認是「領頭羊」的廠牌,有同等的效能,許多人會問是在何種條件下所做的測試結論 ?
近日,Deep-seek 公司號稱他們的機組,使用較為低廉的、次級的Nvidia 晶片,和用最先進、價格昂貴的Nvidia 晶片組裝的機器,可以一拚高下,有相等的效能。此說一發,掀動全球股市的狂風暴雨;事過一日,股情卻立即回魂,和緩下來:如此的激烈的反覆變動,可見股市投資人對所謂 AI 的本質並不十分清楚,才會如此的驚惶失措!
Nvidia 的發言人說:此次風暴,足以証明高速度計算能力晶片的重要性!此種說法倒像是答非所問,顧左右而言它。Deep-seek 公司所宣稱的意含:對於AI 市場的需求而言,並不需要價昻、最先進的晶片來組裝,至少就目前市場而論,—— 殺鷄焉用牛刀,只要在Architecture 系統上,用點心,動些手腳,mapping 到次級晶片所組裝的機器上,也可勝任特定工作,達成目標。
是不是 Nvidia 的發言人有意引導到 processing technology 上,而不要有心人士,專注到 Nvidia Architecture 的核心設計。若要挑戰 Nvidia , 首要目標是它的Architecture ,主要重點不在於3nm 或是2nm ,所帶來「速度」的提升。如果「摩爾定律」仍然適用:每兩年晶體密度增加一倍,晶片的performance 也倍增,那麼 Nvidia 的 CUDA 系統設計,不會有百倍餘的效能的躍升,Intel 的命運就不會那麼淒慘。
效能的躍升來自 Architecture 。Nvidia系統因為製作程序工程上的進步,( 很幸運 )越過某些神秘的壁壘,打通經脈,有如「相變化」進入新的「相空間」:這是人家的 trade secret,不會太樂意人家注意到,刻意摸索,seek !
這才是Deep-seek 產品出現的真正的意義,它指出AI 發展的重點可能是在系統設計。似乎有種神秘的 scaling laws 在某些地方,要越過這些障礙,AI 才會是真正的「人工智慧」。智慧不只是計算(computation)的演進。可以有效的計算,不等於可以是智慧的產生,或許它需要某類的「拓樸空間」,—— 半導體製作程序工程的進步,只是幫助 boost Up 「人工智慧」的發展的速度耳 —— 飛機起飛要有浮力,重要的是浮力不僅只靠引擎推力的幫助而已 !
作者: 張柏年