DeepSeek
DeepSeek,全稱杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司。DeepSeek 是一家創(chuàng)新型科技公司,成立于2023年7月17日,使用數(shù)據(jù)蒸餾技術(shù),得到更為精煉、有用的數(shù)據(jù)。由知名私募巨頭幻方量化孕育而生,專注于開發(fā)先進(jìn)的大語言模型(LLM)和相關(guān)技術(shù)。
2024年1月5日,發(fā)布DeepSeek LLM(深度求索的第一個大模型)。1月25日,發(fā)布DeepSeek-Coder。2月5日,發(fā)布DeepSeekMath。3月11日,發(fā)布DeepSeek-VL。5月7日,發(fā)布DeepSeek-V2。6月17日,發(fā)布DeepSeek-Coder-V2。9月5日,更新 API 支持文檔,宣布合并 DeepSeek Coder V2 和 DeepSeek V2 Chat ,推出?DeepSeek V2.5。12月13日,發(fā)布DeepSeek-VL2。12月26日晚,正式上線DeepSeek-V3首個版本并同步開源。2025年1月31日,英偉達(dá)宣布DeepSeek-R1模型登陸NVIDIANIM。同一時段內(nèi),亞馬遜和微軟也接入DeepSeek-R1模型。英偉達(dá)稱,DeepSeek-R1是最先進(jìn)的大語言模型。2月5日消息,DeepSeek-R1、V3、Coder 等系列模型,已陸續(xù)上線國家超算互聯(lián)網(wǎng)平臺。2月6日消息,澳大利亞政府以所謂“擔(dān)心安全風(fēng)險”為由,已禁止在所有政府設(shè)備中使用DeepSeek。2月8日,DeepSeek正式登陸蘇州,并在蘇州市公共算力服務(wù)平臺上完成部署上線,為用戶提供開箱即用的軟硬件一體服務(wù)。
主要產(chǎn)品
2024年1月5日,發(fā)布DeepSeek LLM,這是深度求索的第一個大模型。DeepSeek LLM包含670億參數(shù),從零開始在一個包含2萬億token的數(shù)據(jù)集上進(jìn)行了訓(xùn)練,數(shù)據(jù)集涵蓋中英文。全部開源DeepSeek LLM 7B/67B Base和DeepSeek LLM 7B/67B Chat,供研究社區(qū)使用。DeepSeek LLM 67B Base在推理、編碼、數(shù)學(xué)和中文理解等方面超越了Llama2 70B Base。DeepSeek LLM 67B Chat在編碼和數(shù)學(xué)方面表現(xiàn)出色。它還展現(xiàn)了顯著的泛化能力,在匈牙利國家高中考試中取得了65分的成績。當(dāng)然,它還精通中文:DeepSeek LLM 67B Chat在中文表現(xiàn)上超越了GPT-3.5。
2024年1月25日,發(fā)布DeepSeek-Coder,DeepSeek Coder由一系列代碼語言模型組成,每個模型均從零開始在2萬億token上訓(xùn)練,數(shù)據(jù)集包含87%的代碼和13%的中英文自然語言。代碼模型尺寸從1B到33B版本不等。每個模型通過在項(xiàng)目級代碼語料庫上進(jìn)行預(yù)訓(xùn)練,采用16K的窗口大小和額外的填空任務(wù),以支持項(xiàng)目級代碼補(bǔ)全和填充。DeepSeek Coder在多種編程語言和各種基準(zhǔn)測試中達(dá)到了開源代碼模型的最先進(jìn)性能。
2024年2月5日,發(fā)布DeepSeekMath,DeepSeekMath以DeepSeek-Coder-v1.5 7B為基礎(chǔ),繼續(xù)在從Common Crawl中提取的數(shù)學(xué)相關(guān)token以及自然語言和代碼數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,訓(xùn)練規(guī)模達(dá)5000億token。DeepSeekMath 7B在競賽級MATH基準(zhǔn)測試中取得了51.7%的優(yōu)異成績,且未依賴外部工具包和投票技術(shù),接近Gemini-Ultra和GPT-4的性能水平。
2024年3月11日,發(fā)布DeepSeek-VL,DeepSeek-VL是一個開源的視覺-語言(VL)模型,采用了混合視覺編碼器,能夠在固定的token預(yù)算內(nèi)高效處理高分辨率圖像(1024 x 1024),同時保持相對較低的計(jì)算開銷。這一設(shè)計(jì)確保了模型在各種視覺任務(wù)中捕捉關(guān)鍵語義和細(xì)節(jié)信息的能力。DeepSeek-VL系列(包括1.3B和7B模型)在相同模型尺寸下,在廣泛的視覺-語言基準(zhǔn)測試中達(dá)到了最先進(jìn)或可競爭的性能。
2024年5月7日,發(fā)布第二代開源Mixture-of-Experts(MoE)模型——DeepSeek-V2。DeepSeek-V2是一個強(qiáng)大的混合專家(MoE)語言模型,以經(jīng)濟(jì)高效的訓(xùn)練和推理為特點(diǎn)。它包含2360億個總參數(shù),其中每個token激活210億個參數(shù)。與DeepSeek 67B相比,DeepSeek-V2不僅實(shí)現(xiàn)了更強(qiáng)的性能,同時還節(jié)省了42.5%的訓(xùn)練成本,將KV緩存減少了93.3%,并將最大生成吞吐量提升至5.76倍。在一個包含8.1萬億token的多樣化且高質(zhì)量的語料庫上對DeepSeek-V2進(jìn)行了預(yù)訓(xùn)練。在完成全面的預(yù)訓(xùn)練后,通過監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)進(jìn)一步釋放了模型的潛力。評估結(jié)果驗(yàn)證了方法的有效性,DeepSeek-V2在標(biāo)準(zhǔn)基準(zhǔn)測試和開放式生成評估中均取得了顯著的表現(xiàn)。DeepSeek V2模型因在中文綜合能力評測中的出色表現(xiàn),且以極低的推理成本引發(fā)行業(yè)關(guān)注,被稱為“AI界的拼多多”。