首帧的真正秘密被揭开了:视频生成模型竟然把它当成「记忆体」
在 Text-to-Video / Image-to-Video 技术突飞猛进的今天,我们已经习惯了这样一个常识:视频生成的第一帧(First Frame)只是时间轴的起点,是后续动画的起始画面。但你
阅读全文在 Text-to-Video / Image-to-Video 技术突飞猛进的今天,我们已经习惯了这样一个常识:视频生成的第一帧(First Frame)只是时间轴的起点,是后续动画的起始画面。但你
阅读全文机器之心报道编辑:泽南、陈陈最先进的 Agentic AI,现在是做什么工作的?在搞太空探索。上个月,蓝色起源「新格伦」重型运载火箭首次成功实现了一级回收,在与 SpaceX 的竞争中迈出了重要一步。
阅读全文机器之心报道编辑:杜伟、+0昨日,有位推特博主晒出了国内几大开源模型在轻量级软件工程 Agent 基准测试 mini-SWE-agent 上的成绩。该基准主要测试大模型在真实软件开发任务中的多步推理、
阅读全文ReCode 作者团队来自于 Foundation Agents 开源社区。第一作者为 DeepWisdom 研究员于兆洋,同时也是 OpenManus 的发起人之一。共同通讯作者为 DeepWisd
阅读全文机器之心原创作者:张倩在小红书上,一群热爱技术的年轻人,搞了一场为期五个多月的大型「团建」。「感谢大佬带飞!」「用上您的方法之后猛猛上分!」「大佬一己之力把整个排行榜洗了!」说实话,这些年看过不少大赛
阅读全文机器之心报道编辑:Youli记忆,或是 AI 从「即时回答工具」迈向「个性化超级助手」的关键突破记忆,正成为新一轮 AI 进化的关键所在近期,Google Research 的一篇名为《Nested
阅读全文这项工作由伊利诺伊大学香槟分校 (UIUC)、哈佛大学、哥伦比亚大学和麻省理工学院 (MIT) 的合作完成 。论文标题:Multi-Modal Manipulation via Policy Cons
阅读全文机器之心发布机器之心编辑部今年,文本生成领域迎来了从自回归(Auto-Regressive)向扩散语言模型(Diffusion LM)的重要范式转变。然而,长序列训练的不稳定性一直是制约扩散模型发展的
阅读全文机器之心报道编辑:+0、陈陈刚刚,Transformers v5 发布首个 RC(候选) 版本 v5.0.0rc0。GitHub:https://github.com/huggingface/tran
阅读全文机器之心发布机器之心编辑部在机器人和具身智能领域,transformer 模型正变大越来越通用,同时也越来越 「重」。我们在渴望 SOTA 精度,但现实世界的边缘设备 (如机器人端场景) 却无法承受其
阅读全文在科学与工程实践中,常会遇到计算成本高、评估耗时的函数优化问题,例如复杂机器学习模型的超参数调整或新型材料的设计。贝叶斯优化(Bayesian Optimization,BO)作为针对这类 “黑箱”
阅读全文机器之心报道编辑:+0、杨文随着 IE 被扫进历史的尘埃,Chrome 长期占据全球浏览器市场的主导地位。然而,在 AI 时代,浏览器作为互联网的超级入口,正在发生深刻变革。Market.us 的最新
阅读全文机器之心报道编辑:+0、陈陈最近,学术圈的大瓜莫过于 ICLR 评审大开盒事件了,只要在浏览器上输入某个网址,自行替换你要看的 paper ID 和审稿人编号,你就可以找到对应的审稿人身份。你甚至可以
阅读全文共同一作:洪翔宇,清华大学电子系大四本科生,曾获清华大学蒋南翔奖学金等,曾在NeurIPS,EMNLP,NAACL等顶级会议上发表论文。姜澈,清华大学电子系博士三年级在读,主要研究方向为LLM Int
阅读全文在 Vision-Language Model 领域,提升其复杂推理能力通常依赖于耗费巨大的人工标注数据或启发式奖励。这不仅成本高昂,且难以规模化。最新研究 VisPlay 首次提出了一个自进化强化学
阅读全文机器之心报道编辑:Panda太离谱了!你以为自己在和最先进的 AI 交互,屏幕对面坐着的却可能是两个满头大汗的人类。两周前,市值超过 10 亿美金的著名 AI 独角兽 Fireflies.ai 的联合
阅读全文机器之心报道编辑:张倩近日,一份来自 ChatGPT 安卓测试版的代码泄露显示,OpenAI 正在为 ChatGPT 筹备广告功能。这一消息来自软件工程师 Tibor Blaho。他在分析 ChatG
阅读全文在大语言模型(LLM)的研究浪潮中,绝大多数工作都聚焦于优化模型的输出分布 —— 扩大模型规模、强化分布学习、优化奖励信号…… 然而,如何将这些输出分布真正转化为高质量的生成结果 —— 即解码(dec
阅读全文机器之心报道编辑:泽南、杨文AI的股票,最终还是让AI炒了。AI 这一波,会上升到什么高度?最近,一张资本内循环的示意图在硅谷疯传,箭头从投资者指向 OpenAI,从 OpenAI 指向英伟达,再从英
阅读全文机器之心报道机器之心编辑部一个被彻底打开的潘多拉盒子。ICLR 开盒事件虽然在平台层面已经「补洞」,但后续冲击才刚刚开始。昨晚起,随着 ICLR 发出最新通知:所有论文的 AC(Area Chair)
阅读全文该工作的第一作者为香港大学计算机系博士生赵学亮。蚂蚁武威、关健为共同贡献者。在 R1 与 O1 引领「深度推理」浪潮之后,大模型推理领域正迎来新的分叉点!大模型推理的爆发,实际源于 scaling 范
阅读全文机器之心报道编辑:杜伟2025 年已接近尾声,这一年里,大模型加速从单点提效工具升级为支撑业务系统的底层基础设施。过程中,推理效率决定了大模型能否真正落地。对于超大规模 MoE 模型,复杂推理链路带来
阅读全文机器之心报道机器之心编辑部恭喜!近日,亚马逊研究奖(Amazon Research Awards,ARA)公布了最新一期获奖者名单,共 63 位(其中 26 位华人),来自 8 个国家 41 所大学。
阅读全文视觉是人类理解复杂物理世界的重要方式。让计算机具备视觉感知与认知的能力,是人工智能的主要研究问题之一,对多模态基础模型、具身智能、医疗 AI 等重要领域具有关键支撑作用。过去几十年间,计算机视觉取得了
阅读全文机器之心报道编辑:冷猫、Panda在 LLM 优化领域,有两个响亮的名字:Adam(及其变体 AdamW)和 Muon。它们一个是久经沙场的「守门员」,凭借动量和自适应学习率统治了深度学习的半壁江山,
阅读全文每天,推荐系统都在捕捉我们的兴趣与偏好。从刷过的视频到停留的直播间,算法总是聚焦在「内容」的理解上,推断用户喜欢哪类视频、哪种话题,擅长在「内容层」识别用户喜欢什么,却很少真正理解「你是谁」。快手消费
阅读全文从单张图像创建可编辑的 3D 模型是计算机图形学领域的一大挑战。传统的 3D 生成模型多产出整体式的「黑箱」资产,使得对个别部件进行精细调整几乎成为不可能。为了突破这一局限,来自北京大学、字节跳动和卡
阅读全文机器之心报道机器之心编辑部「Scaling 时代已经终结。」当这句话出自 Ilya Sutskever 之口时,整个 AI 社区都无法忽视。作为 Safe Superintelligence Inc.
阅读全文机器之心报道编辑:Panda5 天过去了,Nano Banana Pro 的热度依旧在屠榜,而人类终于发现了它可能最恐怖的能力:时空重现。只要提供一个坐标和一个(可选)时间,它就能像亲历者一样,凭空生
阅读全文机器之心报道机器之心编辑部当大模型参数量冲向万亿级,GPT-4o、Llama4 等模型不断刷新性能上限时,AI 行业也正面临前所未有的瓶颈。Transformer 架构效率低、算力消耗惊人、与物理世界
阅读全文