1月27日,Deepseek應用登頂蘋果中國地區和美國地區應用商店免費APP下載排行榜,在美區下載榜上超越了ChatGPT。
蘋果美國區應用商店
蘋果APP Store中國區免費榜
Deepseek來自國產大模型公司深度求索,系量化巨頭幻方量化旗下大模型公司。1月20日,該公司正式發布推理大模型DeepSeek-R1。一經推出,DeepSeek-R1便憑借其“物美價廉”的特性在海外開發者社區中引發了轟動。
作為一款開源模型,R1在數學、代碼、自然語言推理等任務上的性能能夠比肩OpenAI o1模型正式版,并采用MIT許可協議,支持免費商用、任意修改和衍生開發等。目前,在國外大模型排名榜Chatbot Arena上,DeepSeek-R1的基準測試排名已經升至全類別大模型第三,與OpenAI的ChatGPT-4o最新版并列,并在風格控制類模型(StyleCtrl)分類中與OpenAI的o1模型并列第一。
更令市場驚訝的是,據DeepSeek介紹,R1的預訓練費用只有557.6萬美元,在2048塊英偉達H800 GPU(針對中國市場的低配版GPU)集群上運行55天完成,僅是OpenAI GPT-4o模型訓練成本的不到十分之一。DeepSeek表示,R1在后訓練階段大規模使用了強化學習技術,在僅有極少標注數據的情況下,極大提升了模型推理能力。此外,DeepSeek不僅將R1訓練技術全部公開,還蒸餾了6個小模型向社區開源,允許用戶借此訓練其他模型。
英偉達高級研究科學家Jim Fan表示,DeepSeek-R1可能是“首個展示了RL(強化學習)飛輪可以發揮作用且能帶來持續增長的OSS(開源軟件)項目”。其中,“飛輪”用來形容AI系統中自我強化、正向循環的過程。DeepSeek的論文顯示,不同于過去AI模型往往依賴于監督微調(SFT,指AI模型通過已標注的數據進行訓練),R1完全由強化學習驅動,證明了直接強化學習是可行的。
Jim Fan寫道:“我們正處于一個奇特的時間線上,一家非美國公司正在踐行OpenAI最初的使命,即實現真正開放的前沿研究并讓所有人受益。這種情況簡直無法理解。最有娛樂性的結果卻是可能性最大的結果。”