简介
一款国产开源大模型DeepSeek–V3 最近在国内外 AI 界出圈,它在资源受限的情况下展现出了令人印象深刻的研究和工程效率。
OpenAI 创始成员 Andrej Karpathy 发文称,自己会仔细阅读 DeepSeek-V3 的技术本文。本文介绍了 DeepSeek-V3 的架构、训练过程和性能评估。综合评估表明,3e除了 Andrej Karpathy,多位 AI 大牛,如阿里前副总裁贾扬清、MetaAI 科学家田渊栋、英伟达高级研究科学家 Jim Fan 等,纷纷对 DeepSeek-V3 表示赞赏。
有网友认为 DeepSeek-V3 是全球最佳开源大模型,甚至认为这将推动 AGI 比预期更早且能以更低成本实现。
性能媲美全球最强模型,训练成本仅为 GPT-4o 的 1/18
DeepSeek-V3 是一款自研的 MoE(混合专家架构)模型,参数规模从前代的 2360 亿提升到 6710 亿,在 14.8T tokens 上进行了预训练,上下文长度为 128K。
评测结果显示,DeepSeek-V3 的性能已成为目前最强大的开源模型,同时在多个主流评测基准上可媲美目前最强大的闭源模型,特别是在代码和数学方面。
在知识能力方面,DeepSeek-V3 在 MMLU-Pro(综合学科增强版)和 GPQA-Diamond(化学、物理和生物)等基准测试中超越阿里、Meta 等所有开源模型,并领先 GPT-4o,但不及 Claude-3.5-Sonnet。
在数学、代码和推理能力方面,DeepSeek-V3 在 MATH500、AIME2024 及 Codeforces 等多个主流基准测试中,不仅碾压阿里和 Meta 的最新开源模型,同时超越 GPT-4o 和 Claude-3.5-Sonnet。
深度求索还提到,DeepSeek-V3 甚至还在特定基准测试上超过强化推理能力的 o1-preview(预览版),如 MATH-500,展示其出强大的数学推理能力。不过,OpenAI 早前发布的 o1 正式版依然是科学、数学和编码等推理领域的王者。在 GPQA-Diamond 等多个基准评测上,DeepSeek-V3 与 o1 相比均存在明显差距。
训练成本惊人
DeepSeek-V3 训练成本竟然只用了不到 600 万美元,远低于 OpenAI、Meta 等在万卡规模上训练的模型成本。
该模型在由 2048 块 H800 组成的 GPU 集群上训练 3.7 天,预训练耗时不到两个月就完成,完整训练仅用了 278.8 万 GPU 小时。
安德烈用 “ajokeofabudget”(玩笑般的预算)表达了对成本的惊讶。他提到,Llama-3-405B 的训练耗时 3080 万个 GPU 小时,而 DeepSeek-V3 看起来是一个更强大的模型,但用了不到 280 万个 GPU 小时,这意味计算量仅有 Llama-3-405B 的 1/11。
开源模型的突破
DeepSeek-V3 的出现证明了开源模型可以追赶闭源模型,甚至完全有希望超越闭源模型。
此前,业内不少观点认为,开源模型无法追赶闭源模型。但 DeepSeek-V3 则打破了这一观点。