静态知识≠动态交易:STOCKBENCH揭示LLM智能体在真实金融市场的表现真相
点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当LLM智能体走进真实股票市场,它们的表现如何?STOCKBENCH基准测试揭示:静态金融知识≠动态交易能力。文内将解析
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当LLM智能体走进真实股票市场,它们的表现如何?STOCKBENCH基准测试揭示:静态金融知识≠动态交易能力。文内将解析
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ Meta最新研究系统分析了Transformer与Mamba混合架构的设计原理,通过12组严谨实验揭示了其在长上下文处理
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 推理热潮之下,我们是否高估了它的普适价值?这项基于 1.6M 配对样本的受控研究揭示:推理并非万能,其有效性高度依赖任务
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 浙大与阿里联合提出 DATAMIND 框架,仅用 12K 高质量轨迹即训练出超越 GPT-5 的开源数据分析智能体,系统
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ MemGen突破性地将人类记忆的"动态性"、"重构性"和"与推理交织"三大特性引入AI系统。通过潜记忆机制,它让LLM智
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当LLM智能体具备自演化能力后,它们真的会变得更好吗?这篇研究首次揭示"误进化"现象:智能体在模型、记忆、工具、工作流四
阅读全文2024年初,Meta提出HSTU后,整个搜推广工业界掀起了一股“生成式推荐”落地热潮,之后陆续出现的一篇篇工业系统落地的文章,都无一例外地牵动了每个搜推广人的神经。为什么推荐系统会掀起“生成式热”呢
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ LISA框架首次实现OWASP Top 10全类别覆盖,并在真实攻击事件中验证可预防超720万美元损失。本文基于其技术报
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 可灵UniVideo突破性地将统一多模态模型扩展至视频领域,通过双流架构实现理解、生成与编辑的无缝融合。本文介绍其技术原
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当前SOTA视频生成模型仍被限制在5-10秒短视频生成。Self-Forcing++通过创新训练框架,成功突破这一限制,
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ LongLive框架实现了交互式长视频生成的重大突破,其20.7 FPS的实时推理速度比SkyReels-V2快41倍,
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 多LLM系统通常通过文本进行通信,导致语义损耗和效率低下。本文介绍Cache-to-Cache(C2C)技术,展示如何让
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 上下文坍缩是LLM应用中鲜为人知却影响深远的难题。本文将探索ACE框架如何通过增量Delta更新与模块化设计,让LLM上
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ InfoAgent突破性解决了深度研究智能体的两大瓶颈:高质量训练数据缺乏与搜索工具质量限制。通过实体树构建与自托管搜索
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ LLM 智能体为何总在重复犯错?Google 与 UIUC 联合提出 ReasoningBank,通过结构化推理记忆,让
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 长上下文问答的 O(N²) 瓶颈如何破?Amazon 新作 CompLLM 提出分段软压缩,在不微调 LLM 的前提下,
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当前 LLM-as-a-Judge 范式存在严重评估不一致性问题。TrustJudge 首次系统分析其根源,并通过分布敏
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ SWE-Bench Pro 作为首个抗污染、企业级软件工程评估基准,以 1,865 个真实任务揭示了 AI 编程智能体的
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 推荐系统长期困于“猜你喜欢”的被动模式。阿里联合高校提出 IRF 范式与 RecBot 框架,让用户用自然语言直接指挥推
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 强化学习正深刻重塑大语言模型的推理能力,但其背后的基本原理与最佳实践仍迷雾重重。本文基于清华大学、上海 AI lab 等
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ Meta Superintelligence Labs 推出 ARE 与 Gaia2,首次在异步、动态环境中系统评估智能
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。作者:Yerba“ 面对万行代码,大模型常被冗余信息“淹没”。上交&斯坦福团队提出LongCodeZip,以信息论为刀,实现
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ Meta最新研究揭示:有效思维链的关键不是“想得多”,而是“错得少”。失败步骤比例(FSF)成为预测推理准确率的最强指标
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ AI 智能体已能自主提交 PR,但质量如何?本文基于奈良先端科大与皇后大学对 567 个 GitHub PR 的实证分析
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当大模型训练遭遇高质量数据瓶颈,腾讯团队提出RLPT——一种无需人类标注、仅用预训练数据即可训练推理能力的强化学习新范式
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当工业排序系统陷入性能瓶颈,OnePiece给出了破局答案:结构化上下文工程 + 块状隐式推理。这不是简单的架构升级,而
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当行业追逐更大模型、更多数据时,LIMI逆流而上,证明高质量示范的战略性精炼才是通往真正智能体的关键。这不仅是效率的胜利
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 阿里巴巴AMAP与厦门大学联合提出Tree-GRPO,通过树式搜索将LLM智能体RL的预算效率与信号质量双双提升,为小模
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ Salesforce AI Research提出UserRL框架,挑战“大模型即强交互”的固有认知。通过系统化实验,揭示
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ DeepSeek AI推出V3.2-Exp,以稀疏注意力技术重构长上下文处理范式,在性能持平下实现推理成本骤降,为大模型
阅读全文