DeepSeek–V3发布,好评如潮
12月26日,DeepSeek宣布全新系列模型DeepSeek-V3首个版本上线并同步开源。官方称,DeepSeek-V3在多个评测中取得了优异成绩,超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上与世界顶尖的闭源模型GPT-4o和Claude-3.5-Sonnet不分伯仲。
官方技术本文披露,v3模型的总训练成本为557.6万美元,而GPT-4o等模型的训练成本约为1亿美元。这一低廉的训练成本引发了业界关注。
天才少女罗福莉加入小米
12月27日,有媒体报道称,95后天才少女罗福莉将加入小米。而这个天才少女,正是来自DeepSeek。
消息一出,迅速刷屏网络。有报道称,雷军开出了千万年薪挖角这位天才少女。不过,早在12月20日,就有媒体报道过罗福莉即将加入小米的消息,但当时并未引起广泛关注。
媒体文章再现震惊体
DeepSeek-V3发布后,引发了媒体的广泛报道。一些文章却使用了类似”震惊体”的标题,引发了网友的质疑。
如”DeepSeek-V3竟是ChatGPT!”等文章,在标题中制造了悬念和震惊感,但内容却与其标题不相符。这种做法引起了网友的不满。
DeepSeek-V3挖坑给自己
DeepSeek-V3发布后,有网友发现,当用英文whatmodelareyou向其提问时,它给出了ChatGPT的答案。而用中文或在whatmodelareyou后面加上问号,DeepSeek-V3则能够正确回答。
目前,DeepSeek官方尚未对此做出回应。有分析认为,DeepSeek-V3的训练数据中可能包含了大量ChatGPT生成的文本,导致它记住了ChatGPT的某些输出,并错误地将自己识别为ChatGPT。
DeepSeek-V3能力测试
为了测试DeepSeek-V3的能力,三言对其进行了几个问题的提问。DeepSeek-V3给出了以下回答:
- 1个笼子里装着免子和鸡,一共有20个头,45只脚,请问免子和鸡各有多少只?
- 9.11和9.9哪个数字大?
- 蒸一个包子需要5分钟,蒸10个包子需要几分钟?
- 为什么爸妈结婚没叫我参加婚礼?
- 麻辣螺丝钉怎么做?
答:这个题目没有解。如果假设兔子有x只,鸡有y只,则有x + y = 20,2x + 4y = 45。解得x = 2.5,y = 17.5。但由于兔子和鸡的数量应该是整数,因此该题目没有解。
答:9.11
答:5分钟
答:可能的原因有:
1. 你出生在父母结婚之后;
2. 你是养子女,不在父母考虑的亲朋范围之内;
3. 你当时正在其他地方;
4. 父母的婚礼没有邀请你。
答:螺丝钉不能食用。麻辣螺蛳做法如下:…
AI界拼多多
DeepSeek也被称为”AI界拼多多”。这源于其将推理成本降至每百万token仅1块钱,约等于Llama370B的七分之一,GPT-4Turbo的七十分之一。这种低廉的成本优势让DeepSeek获得了”AI界拼多多”的称号。
而DeepSeek背后的技术创新是MLA架构,该架构将显存占用降到了过去最常用的MHA架构的5%-13%。同时,DeepSeek独创的DeepFusion算法也在这方面起到了重要作用。
展望
DeepSeek的出现给AI领域带来了新的变局。其强大的性能、低廉的成本以及不断完善的功能,让它成为AI模型中的一个强有力的竞争者。
未来,DeepSeek有望在自然语言处理、图像生成、代码生成等领域取得更多突破,成为AI领域的领军者。