自助文字广告位，限时特惠！

手握万卡雷军挖走的新黑马 95后天才出走起底大模型界拼多多

2,368 00

作者 | 梁昌均

近日，一款国产开源大模型在国内外 AI 界出圈。它以资源受限下的出色表现，给研究和工程领域留下深刻印象。

AI 大神、OpenAI 创始成员 Andrej Karpathy（安德烈·卡帕西）发文称，会仔细阅读非常棒的技术本文。他提到的本文，用 53 页的篇幅介绍了一款开源大模型 DeepSeek–V3，其由国内 AI 公司 DeepSeek（深度求索）研发推出。

最近，小米雷军亲自挖 95 后天才，也让这家公司受到更多关注。

媲美全球最强模型，训练 成本仅有 GPT-4o 的 1/18

DeepSeek-V3 是一款自研的 MoE（混合专家架构）模型，参数规模从前代的 2360 亿提升到 6710 亿，在 14.8T tokens 上进行了预训练，上下文长度为 128K。

评测结果显示，DeepSeek-V3 的性能已经成为目前最强大的开源模型，同时在多个主流评测基准上可媲美目前最强大的闭源模型，特别是在代码和数学方面。

在知识能力方面，DeepSeek-V3 在 MMLU-Pro（综合学科增强版）和 GPQA-Diamond（化学、物理和生物）等基准测试超越阿里、Meta 等所有开源模型，并领先 GPT-4o，但不及 Claude-3.5-Sonnet。

在数学、代码和推理能力方面，DeepSeek-V3 在 MATH500、AIME2024 及 Codeforces 等多个主流基准测试中，不仅碾压阿里和 Meta 的最新开源模型，同时超越 GPT-4o 和 Claude-3.5-Sonnet。

深度求索还提到，DeepSeek-V/abs/2302.10868

行业新闻 # DeepSeek # MetaAI # V # 多多 # 天才 # 成本 # 搜狐科技 # 梁文锋 # 模型 # 消息资讯 # 罗福莉 # 训练 # 闭源 # 雷军 # 黑马

文章版权归作者所有，未经允许请勿转载。

دست握万卡的AI新黑马起底大模型界的拼多多 95后天才刚被雷军挖走

行业新闻 # DeepSeek # MetaAI # V

3个月前

01,8760

Gurman爆料：苹果 WWDC 6 月将发布多项新品，watchOS 系统焕新升级

行业新闻 # Apple # MacBook # Reality头

3个月前

02,4640

微信上线送礼物功能马化腾借你之心再战电商

行业新闻 # 上线 # 功能 # 商品

3个月前

01,5880

张朝阳总结物理课直播三年历程兴趣和直播互动的动力意义感

行业新闻 # 兴趣 # 动力 # 基础

3个月前

02,2560

暂无评论

暂无评论...

手握万卡雷军挖走的新黑马 95后天才出走起底大模型界拼多多

媲美全球最强模型，训练 成本仅有 GPT-4o 的 1/18

单挑对阵集团军余承东抖音追雷军

去年才摆脱华尔街破产黑帮的控制仍无法交车贾跃亭烧光10亿美金

相关文章

دست握万卡的AI新黑马起底大模型界的拼多多 95后天才刚被雷军挖走

Gurman爆料：苹果 WWDC 6 月将发布多项新品，watchOS 系统焕新升级

微信上线送礼物功能马化腾借你之心再战电商

张朝阳总结物理课直播三年历程兴趣和直播互动的动力意义感

暂无评论

大家都在看

给大家推荐几个免费影视网站，免注册，不卡顿，无广告

《狙击精英》CEO直言不讳：部分游戏开发者并非为玩家创作，而是为取悦股东

总台《2025年春节联欢晚会》第二次彩排拉开帷幕，点亮新年盛宴

Gurman爆料：苹果 WWDC 6 月将发布多项新品，watchOS 系统焕新升级

SEO真的不行了吗？

王玮晨微博公开道歉赵露思康复进展

手握万卡 雷军挖走的新黑马 95后天才出走 起底大模型界拼多多

媲美全球最强模型，训练成本仅有 GPT-4o 的 1/18

单挑对阵集团军 余承东抖音追雷军

去年才摆脱华尔街破产黑帮的控制仍无法交车贾跃亭烧光10亿美金

相关文章

标签云

大家都在看

手握万卡雷军挖走的新黑马 95后天才出走起底大模型界拼多多

单挑对阵集团军余承东抖音追雷军