觉察流

稠密监督 × 策略内采样：On-Policy Distillation 如何以 1/10 成本训练专家级小模型
作者：觉察流发布日期：2025-11-03 08:00:00
点击👇🏻可关注，文章来自🙋‍♂️ 想加入社群的朋友，可看文末方法，进群交流。“ 后训练成本高、小模型易遗忘？Thinking Machines Lab 提出 On-Policy Distillatio
阅读全文
Ditto：用百万级合成数据破解指令视频编辑的“不可能三角”
作者：觉察流发布日期：2025-11-02 08:19:21
点击👇🏻可关注，文章来自🙋‍♂️ 想加入社群的朋友，可看文末方法，进群交流。“ 视频编辑长期困于“质量-多样性-效率”不可能三角。HKUST与蚂蚁集团提出Ditto框架，用合成数据破局，首次实现高保真
阅读全文
整体生成 × 精准控制：HoloCine 如何实现分钟级电影叙事？
作者：觉察流发布日期：2025-11-01 08:14:04
点击👇🏻可关注，文章来自🙋‍♂️ 想加入社群的朋友，可看文末方法，进群交流。“ HoloCine首次实现分钟级多镜头视频的整体生成，Transition Control达0.9837，开源模型叙事能力
阅读全文
MemMamba：用"做笔记"机制突破长序列建模的记忆瓶颈
作者：觉察流发布日期：2025-10-31 07:30:00
点击👇🏻可关注，文章来自🙋‍♂️ 想加入社群的朋友，可看文末方法，进群交流。“ MemMamba通过"做笔记"机制突破了SSM的记忆瓶颈，在400k tokens的长序列任务中仍保持90%的准确率。这
阅读全文
当“骆驼打包行李”难倒AI：ImagerySearch如何让视频模型学会想象？
作者：觉察流发布日期：2025-10-30 08:15:00
点击👇🏻可关注，文章来自🙋‍♂️ 想加入社群的朋友，可看文末方法，进群交流。“ 当前T2V模型在“骆驼打包行李”这类想象力提示前集体失语。ImagerySearch通过语义距离感知的动态搜索与奖励机制
阅读全文
TATTOO：让PRM真正"看见"表格的工具集成验证框架
作者：觉察流发布日期：2025-10-29 07:30:00
点击👇🏻可关注，文章来自🙋‍♂️ 想加入社群的朋友，可看文末方法，进群交流。“ 表格数据无处不在，但现有PRM在监督表格推理时却"视而不见"。本文介绍UIUC、Amazon等机构联合提出的TATTOO
阅读全文
静态知识≠动态交易：STOCKBENCH揭示LLM智能体在真实金融市场的表现真相
作者：觉察流发布日期：2025-10-28 08:15:00
点击👇🏻可关注，文章来自🙋‍♂️ 想加入社群的朋友，可看文末方法，进群交流。“ 当LLM智能体走进真实股票市场，它们的表现如何？STOCKBENCH基准测试揭示：静态金融知识≠动态交易能力。文内将解析
阅读全文
1.5倍长上下文突破：Meta混合架构如何重塑语言模型效率边界
作者：觉察流发布日期：2025-10-27 08:15:00
点击👇🏻可关注，文章来自🙋‍♂️ 想加入社群的朋友，可看文末方法，进群交流。“ Meta最新研究系统分析了Transformer与Mamba混合架构的设计原理，通过12组严谨实验揭示了其在长上下文处理
阅读全文
小模型用推理反而性能下降15%！1.6M配对样本揭示推理能力真相
作者：觉察流发布日期：2025-10-26 08:00:00
点击👇🏻可关注，文章来自🙋‍♂️ 想加入社群的朋友，可看文末方法，进群交流。“ 推理热潮之下，我们是否高估了它的普适价值？这项基于 1.6M 配对样本的受控研究揭示：推理并非万能，其有效性高度依赖任务
阅读全文
DATAMIND：构建专业级数据分析智能体的可扩展方法论
作者：觉察流发布日期：2025-10-25 08:10:00
点击👇🏻可关注，文章来自🙋‍♂️ 想加入社群的朋友，可看文末方法，进群交流。“ 浙大与阿里联合提出 DATAMIND 框架，仅用 12K 高质量轨迹即训练出超越 GPT-5 的开源数据分析智能体，系统
阅读全文
"在思考中回忆，在回忆中思考"：MemGen 开启 AI 记忆新范式
作者：觉察流发布日期：2025-10-24 07:30:00
点击👇🏻可关注，文章来自🙋‍♂️ 想加入社群的朋友，可看文末方法，进群交流。“ MemGen突破性地将人类记忆的"动态性"、"重构性"和"与推理交织"三大特性引入AI系统。通过潜记忆机制，它让LLM智
阅读全文
奖励机制的陷阱：自演化智能体如何被"带偏"？
作者：觉察流发布日期：2025-10-23 07:30:00
点击👇🏻可关注，文章来自🙋‍♂️ 想加入社群的朋友，可看文末方法，进群交流。“ 当LLM智能体具备自演化能力后，它们真的会变得更好吗？这篇研究首次揭示"误进化"现象：智能体在模型、记忆、工具、工作流四
阅读全文
全新生成式范式重塑搜推：物品ID序列上也能做推理！
作者：觉察流发布日期：2025-10-22 08:10:00
2024年初，Meta提出HSTU后，整个搜推广工业界掀起了一股“生成式推荐”落地热潮，之后陆续出现的一篇篇工业系统落地的文章，都无一例外地牵动了每个搜推广人的神经。为什么推荐系统会掀起“生成式热”呢
阅读全文
LISA：用审计经验驱动的智能体框架，破解智能合约逻辑漏洞检测难题
作者：觉察流发布日期：2025-10-21 08:10:00
点击👇🏻可关注，文章来自🙋‍♂️ 想加入社群的朋友，可看文末方法，进群交流。“ LISA框架首次实现OWASP Top 10全类别覆盖，并在真实攻击事件中验证可预防超720万美元损失。本文基于其技术报
阅读全文
视频AI的"统一时刻"：UniVideo如何实现理解、生成与编辑的三位一体
作者：觉察流发布日期：2025-10-20 08:10:00
点击👇🏻可关注，文章来自🙋‍♂️ 想加入社群的朋友，可看文末方法，进群交流。“ 可灵UniVideo突破性地将统一多模态模型扩展至视频领域，通过双流架构实现理解、生成与编辑的无缝融合。本文介绍其技术原
阅读全文
4分钟视频生成：Self-Forcing++无需长视频监督的突破性突破
作者：觉察流发布日期：2025-10-19 08:10:00
点击👇🏻可关注，文章来自🙋‍♂️ 想加入社群的朋友，可看文末方法，进群交流。“ 当前SOTA视频生成模型仍被限制在5-10秒短视频生成。Self-Forcing++通过创新训练框架，成功突破这一限制，
阅读全文
41倍实时交互：LongLive如何突破长视频生成的效率与质量困局
作者：觉察流发布日期：2025-10-18 08:10:00
点击👇🏻可关注，文章来自🙋‍♂️ 想加入社群的朋友，可看文末方法，进群交流。“ LongLive框架实现了交互式长视频生成的重大突破，其20.7 FPS的实时推理速度比SkyReels-V2快41倍，
阅读全文
KV Cache直连：LLM协作的"神经突触"式通信革命
作者：觉察流发布日期：2025-10-17 08:10:00
点击👇🏻可关注，文章来自🙋‍♂️ 想加入社群的朋友，可看文末方法，进群交流。“ 多LLM系统通常通过文本进行通信，导致语义损耗和效率低下。本文介绍Cache-to-Cache(C2C)技术，展示如何让
阅读全文
从18k到122：ACE框架如何破解LLM上下文坍缩的致命陷阱
作者：觉察流发布日期：2025-10-16 08:12:13
点击👇🏻可关注，文章来自🙋‍♂️ 想加入社群的朋友，可看文末方法，进群交流。“ 上下文坍缩是LLM应用中鲜为人知却影响深远的难题。本文将探索ACE框架如何通过增量Delta更新与模块化设计，让LLM上
阅读全文
20.3次工具调用的秘密：InfoAgent如何让信息检索真正"懂你"
作者：觉察流发布日期：2025-10-15 08:10:00
点击👇🏻可关注，文章来自🙋‍♂️ 想加入社群的朋友，可看文末方法，进群交流。“ InfoAgent突破性解决了深度研究智能体的两大瓶颈：高质量训练数据缺乏与搜索工具质量限制。通过实体树构建与自托管搜索
阅读全文
从失败中学习：Google 提出 ReasoningBank 让 LLM 智能体真正“吃一堑长一智”
作者：觉察流发布日期：2025-10-14 08:05:00
点击👇🏻可关注，文章来自🙋‍♂️ 想加入社群的朋友，可看文末方法，进群交流。“ LLM 智能体为何总在重复犯错？Google 与 UIUC 联合提出 ReasoningBank，通过结构化推理记忆，让
阅读全文
CompLLM：无需微调，4倍加速长上下文问答的软压缩新范式
作者：觉察流发布日期：2025-10-13 08:15:00
点击👇🏻可关注，文章来自🙋‍♂️ 想加入社群的朋友，可看文末方法，进群交流。“ 长上下文问答的 O(N²) 瓶颈如何破？Amazon 新作 CompLLM 提出分段软压缩，在不微调 LLM 的前提下，
阅读全文
LLM-as-a-Judge 的评估陷阱：TrustJudge 如何用熵保留机制提升一致性
作者：觉察流发布日期：2025-10-12 08:10:00
点击👇🏻可关注，文章来自🙋‍♂️ 想加入社群的朋友，可看文末方法，进群交流。“ 当前 LLM-as-a-Judge 范式存在严重评估不一致性问题。TrustJudge 首次系统分析其根源，并通过分布敏
阅读全文
Open Library 任务为何难倒 GPT-5？SWE-Bench Pro 揭示 AI 编程智能体的真实边界
作者：觉察流发布日期：2025-10-11 08:15:00
点击👇🏻可关注，文章来自🙋‍♂️ 想加入社群的朋友，可看文末方法，进群交流。“ SWE-Bench Pro 作为首个抗污染、企业级软件工程评估基准，以 1,865 个真实任务揭示了 AI 编程智能体的
阅读全文
让推荐系统听懂你：自然语言命令如何打破“猜你喜欢”的困局
作者：觉察流发布日期：2025-10-10 08:15:00
点击👇🏻可关注，文章来自🙋‍♂️ 想加入社群的朋友，可看文末方法，进群交流。“ 推荐系统长期困于“猜你喜欢”的被动模式。阿里联合高校提出 IRF 范式与 RecBot 框架，让用户用自然语言直接指挥推
阅读全文
锐化与发现：大型推理模型中强化学习的七大核心争议（2W 字）
作者：觉察流发布日期：2025-10-09 08:15:00
点击👇🏻可关注，文章来自🙋‍♂️ 想加入社群的朋友，可看文末方法，进群交流。“ 强化学习正深刻重塑大语言模型的推理能力，但其背后的基本原理与最佳实践仍迷雾重重。本文基于清华大学、上海 AI lab 等
阅读全文
不只是准确率：Meta 提出 Gaia2，评估智能体的效率、适应性与协作力
作者：觉察流发布日期：2025-10-08 08:10:00
点击👇🏻可关注，文章来自🙋‍♂️ 想加入社群的朋友，可看文末方法，进群交流。“ Meta Superintelligence Labs 推出 ARE 与 Gaia2，首次在异步、动态环境中系统评估智能
阅读全文
上交&斯坦福提出“长代码压缩神器”：5.6倍暴力瘦身不掉点
作者：觉察流发布日期：2025-10-08 08:10:00
点击👇🏻可关注，文章来自🙋‍♂️ 想加入社群的朋友，可看文末方法，进群交流。作者：Yerba“ 面对万行代码，大模型常被冗余信息“淹没”。上交&斯坦福团队提出LongCodeZip，以信息论为刀，实现
阅读全文
少即是多：失败步骤比例才是思维链质量的关键
作者：觉察流发布日期：2025-10-07 08:15:00
点击👇🏻可关注，文章来自🙋‍♂️ 想加入社群的朋友，可看文末方法，进群交流。“ Meta最新研究揭示：有效思维链的关键不是“想得多”，而是“错得少”。失败步骤比例（FSF）成为预测推理准确率的最强指标
阅读全文
AI 智能体写代码靠谱吗？GitHub 上 567 个 PR 的实证告诉你真相
作者：觉察流发布日期：2025-10-06 08:11:00
点击👇🏻可关注，文章来自🙋‍♂️ 想加入社群的朋友，可看文末方法，进群交流。“ AI 智能体已能自主提交 PR，但质量如何？本文基于奈良先端科大与皇后大学对 567 个 GitHub PR 的实证分析
阅读全文