2025年這個春節(jié),一舉改寫了全球大敘事。在萬般熱鬧之際,我們特別想沉下來做一些基礎(chǔ)科普工作。
在《商業(yè)訪談錄》89集節(jié)目中,我邀請了加州大學(xué)伯克利分校人工智能實(shí)驗(yàn)室在讀博士生潘家怡,為大家對照解讀了春節(jié)前的DeepSeek-R1-Zero、R1、Kimi發(fā)布的K1.5,以及OpenAI更早發(fā)布的o1技術(shù)報(bào)告。這些模型聚焦的都是大模型最新技術(shù)范式,RL強(qiáng)化學(xué)習(xí),簡單來說就是o1路線。
今天這集,我邀請的是香港科技大學(xué)計(jì)算機(jī)系助理教授何俊賢。他的研究方向是大模型推理,從很早就開始關(guān)注DeepSeek的系列研究。我們會focus在最近引發(fā)全球AI屆關(guān)注的DeepSeek上。
何老師將帶領(lǐng)大家從DeepSeek的第一篇論文開始,閱讀經(jīng)過挑選的這家公司歷史上發(fā)布的9篇論文。
我們希望幫助大家從一個更延續(xù)、更長期、也更技術(shù)底層的視角來理解DeepSeek,以及它所做的復(fù)現(xiàn)與創(chuàng)新工作;與此同時也希望能讓更多人感受到技術(shù)之美。
我們的播客節(jié)目在騰訊新聞首發(fā),大家可以前往關(guān)注哦,這樣可以第一時間獲取節(jié)目信息和更多新聞資訊:)
02:58 講解開始前,先提問幾個小問題
整體風(fēng)格:Open、Honest、低調(diào)、嚴(yán)謹(jǐn)?shù)目茖W(xué)態(tài)度
DeepSeek基座模型
21:21 《DeepSeek LLM Scaling Open-Source Language Models with Longtermism》技術(shù)講解
45:32 《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》技術(shù)講解
01:06:20 《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》技術(shù)講解
01:40:17 《DeepSeek-V3 Technical Report》技術(shù)講解
DeepSeek推理模型
02:05:03 《DeepSeek-Coder: When the Large Language Model Meets Programming - The Rise of Code Intelligence》技術(shù)講解
02:12:16 《DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence》技術(shù)講解
02:47:18 《DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data》和《DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search》技術(shù)講解
02:52:40 《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》技術(shù)講解
03:01:41 9篇論文到這里都講完啦!最后我們一起強(qiáng)化學(xué)習(xí)一下!