入驻此处(首页+内页),送永久快审,百度隔日收录!
立即入驻

手握万卡 雷军挖走的新黑马 95后天才出走 起底大模型界拼多多

行业新闻1周前发布 XiaoWen
552 00

手握万卡 雷军挖走的新黑马 95后天才出走 起底大模型界拼多多

出品 | 搜狐科技

作者 | 梁昌均

近日,一款国产开源大模型在国内外 AI 界出圈。它以资源受限下的出色表现,给研究和工程领域留下深刻印象。

AI 大神、OpenAI 创始成员 Andrej Karpathy(安德烈·卡帕西)发文称,会仔细阅读非常棒的技术本文。他提到的本文,用 53 页的篇幅介绍了一款开源大模型 DeepSeekV3,其由国内 AI 公司 DeepSeek(深度求索)研发推出。

最近,小米雷军亲自挖 95 后天才,也让这家公司受到更多关注。

媲美全球最强模型,训练成本仅有 GPT-4o 的 1/18

DeepSeek-V3 是一款自研的 MoE(混合专家架构)模型,参数规模从前代的 2360 亿提升到 6710 亿,在 14.8T tokens 上进行了预训练,上下文长度为 128K。

评测结果显示,DeepSeek-V3 的性能已经成为目前最强大的开源模型,同时在多个主流评测基准上可媲美目前最强大的闭源模型,特别是在代码和数学方面。

在知识能力方面,DeepSeek-V3 在 MMLU-Pro(综合学科增强版)和 GPQA-Diamond(化学、物理和生物)等基准测试超越阿里、Meta 等所有开源模型,并领先 GPT-4o,但不及 Claude-3.5-Sonnet。

在数学、代码和推理能力方面,DeepSeek-V3 在 MATH500、AIME2024 及 Codeforces 等多个主流基准测试中,不仅碾压阿里和 Meta 的最新开源模型,同时超越 GPT-4o 和 Claude-3.5-Sonnet。

深度求索还提到,DeepSeek-V/abs/2302.10868

© 版权声明

相关文章

暂无评论

none
暂无评论...