最近,Deepseek在人工智能(AI)圈内可谓是风头正劲。
DeepSeek–V3: 性能卓越,开源可及
12月26日,Deepseek宣布全新系列模型DeepSeek-V3的首个版本正式上线并开源。官方表示,DeepSeek-V3在多项评测中超过了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上与全球顶尖闭源模型GPT-4o和Claude-3.5-Sonnet不相上下。官方技术本文披露,v3模型的总训练成本为557.6万美元,而GPT-4o等模型的训练成本约为1亿美元。
钉怎么做?
DeepSeek-V3指出了螺丝钉不能食用,并给出了麻辣螺蛳的做法。
从回答这些问题来看,DeepSeek-V3的能力确实达到了相当高的水平。
AI界的拼多多
DeepSeek还有另一个称号:“AI界的拼多多”。
这个称号源于今年5月,DeepSeekV2开源模型发布,将推理成本降到每百万token仅1块钱,约等于Llama370B的七分之一,GPT-4Turbo的七十分之一。
当时,DeepSeek就被冠以“AI界拼多多”之称。
据悉,这背后的关键是DeepSeek提出了一种崭新的MLA架构,把显存占用降到了过去最常用的MHA架构的5%-13%。同时,DeepSeek独创的Deep
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...