中國AI公司DeepSeek在去年底釋出了他們的DeepSeek-V3的模型, 根據第三方測試的結果,無論在數學、編程和複雜邏輯問題上面,暫時都是領先其他模型。而最近發佈DeepSeek-R1,在表現上可以說已追過OpenAI的o1模型。
由於DeepSeek表示他們採用較低級的Nvida H800的晶片,用了2048個GPU訓練了兩個月,成本只是600萬美金。據前OpenAI創辦人之一Andrej Karpathy說,要達到這個級數的模型,最少要用上10倍以上的GPU小時。
DeepSeek令美國矽谷的巨企懷疑這幾年大力投資AI數據中心,花費不菲在基礎建設上是否白花。甚至令美國科技股出現小股災。該公司帶出的問題是AI發展中,如何發揮手頭上的GPU到極限,把數據處理及演算法效率提升,比大量購置GPU更重要,可能是業界需要研究。
DeepSeek的出現,會不會令美國政府在科技領域上的禁令再加碼呢?各美國科技巨企又會如何應對呢?真的要看下去才知道。