来了,DeepSeek悄悄上新模型!

 Datawhale分享 

更新:DeepSeek,测试:PaperAgent

DeepSeek 今天悄悄上线最新模型,是V4?
图片[1]-来了,DeepSeek悄悄上新模型!-AI Express News

新版本有什么不同?

一、超长上下文

新版本支持处理更长的文本输入,达到了 1M Token(百万级别)——如果属实,这个容量可以一次性处理《三体》三部曲那么多内容。相比之前 V3.1 的 128K Token,这是近 10 倍的提升。

二、知识更新了

模型在不联网的情况下,已经能准确回答 2025 年上半年的一些事件。知识截止日期从之前的 2024 年 7-8 月更新到了 2025 年 5 月左右

三、回答风格变了

新版本的语言风格明显变得更“热情”、更细腻。看起来 DeepSeek 可能在用户体验上做了一些调整。

四、依然是纯文本

这次更新目前没有加入视觉理解能力,模型仍然只能处理文本和语音,不能直接“看懂”图片(虽然可以通过 OCR 读取图片中的文字)。

DeepSeek实测

如今Agentic Coding能力十分重要,@PaperAgent 简单测了一个烟花coding的案例

打造一个震撼人心的动画烟花盛宴!用单一HTML文件,融合CSS与JavaScript,让屏幕瞬间化为璀璨夜空。烟花要有多种颜色、爆炸轨迹,最好能自动循环绽放。

思考更充分,速度挺快,效果比之前要更加酷炫~

最后测了一个近期较火的经典逻辑难题,快速模式下翻车了

图片[2]-来了,DeepSeek悄悄上新模型!-AI Express News
深度思考模式下是对的。
图片[3]-来了,DeepSeek悄悄上新模型!-AI Express News

DeepSeek 2026 的技术三连发

值得注意的是,DeepSeek 开年的技术三连发

图片[4]-来了,DeepSeek悄悄上新模型!-AI Express News
  • 元旦期间公布了 mHC(流形约束超连接)论文,提出了一种新的网络架构设计思路

  • 1 月 12 日发布了 Engram 论文和代码,探索“条件记忆”机制

  • 1 月 27 日开源了 OCR-2 模型,视觉压缩能力提升明显

这些技术是否已经应用到当前测试版本中?目前还不确定。但从时间节点来看,这些研究成果很可能会出现在即将发布的版本里。

图片

一起“三连

<原文链接:https://mp.weixin.qq.com/s/4IuilHQPKOFkwpUMwwZ_aA

© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容