排名第九、国内第二,DeepSeek V4 凭什么让人又爱又恨?
一周真实业务流、四个中国特色场景和三百组对比测试,V4到底行不行? 作者丨孟一凡 编辑丨马晓宁 梁丙鉴
阅读全文v-HUB 基准将视频幽默理解聚焦于视觉线索与环境声音驱动的无对白短视频场景,系统揭示当前模型从“看见视频”到“理解笑点”之间仍有显著差距。
阅读全文当 Agent 不再是昂贵的实验品,而是像水和电一样的基础设施时,真正的 AI 时代才算真正降临。 作者丨岑峰
阅读全文CMU和Amazon AGI推出首个Agent Skill持续学习系统性基准SkillLearnBench,把答案拆到了Skill 生成、调用、执行的每一层。
阅读全文链路闭环级别的稳定性,是办公 Agent 留在牌桌上的门票。 作者丨吴海明 黄毅硕 编辑丨马晓宁 梁丙鉴
阅读全文