机智流

ICCV 25「字节」图片生成/视频生成相关论文(24 篇)｜极具商业化想象力的赛道
作者：机智流发布日期：2025-10-25 21:02:03
大家好，我是「PaperScope.ai | P站·站长」闻星！图片生成/视频生成作为商业化想象力非常高的 AI 赛道，让我们看看手握抖音短视频超级入口的字节在 ICCV 2025 上发表了哪些有意思
阅读全文
仅1%的“脏数据”就能教坏AI？上海AILab等研究揭示大模型如何学会隐瞒与欺骗
作者：机智流发布日期：2025-10-25 21:02:03
> 本文由社区投稿，作者单位：上海人工智能实验室引言当你向AI咨询健康问题或寻求建议时，是否想过——它可能正在“违背本心”地欺骗你？最近一项由上海人工智能实验，复旦大学，中科大和上海交通大学联合发布的
阅读全文
ICCV 25「腾讯 ARC Lab」相关论文｜ Mamba-3VL、VisionMath、Moto
作者：机智流发布日期：2025-10-24 22:46:35
ICCV 2025 中看到了 11 篇腾讯 ARC Lab 相关论文，分享给大家！腾讯ARC Lab致力于探索和挑战前沿技术，站在腾讯探索挑战多模态理解和生成相关前沿技术的第一线。ARC（Appli
阅读全文
当空间智能大模型“与相机共思”：从任意视角理解和创造世界的统一多模态架构
作者：机智流发布日期：2025-10-24 22:46:35
> 本文来自社区投稿，作者：廖康图一：展示我们模型多样化能力的示意图。模型统一了以相机为中心的多模态理解与生成，支持空间想象，并实现灵活的跨视角应用如世界探索等论文标题：Thinking with C
阅读全文
LangChain V1.0 深度解析：手把手带你跑通全新智能体架构
作者：机智流发布日期：2025-10-23 20:00:00
> 作者：李剑锋LangChain V1.0 简介终于，万众瞩目的 LangChain V1.0 版本正式发布了！其实在“剑锋小课堂”这个专栏中，我花费了大量的篇幅去介绍关于 LangChain 框架
阅读全文
ICCV 25 「腾讯微信」团队相关论文｜WalkVLM、Morph、MCID 等
作者：机智流发布日期：2025-10-23 20:00:00
(1) R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization论文简介：由
阅读全文
1023晚报：百度登顶、智谱推出最强Agent化编程平台、Deepseek和Qwen再次开源、鱼皮团队发布沉浸式AI模拟面试平台
作者：机智流发布日期：2025-10-23 20:00:00
> 作者：yanbo新闻资讯1. DeepSeek再开源：发布3B混合专家OCR模型“DeepSeek-OCR”DeepSeek正式推出视觉文本压缩模型 DeepSeek-OCR，参数量仅3B，却采
阅读全文
ICCV 25「腾讯混元」相关论文｜SVG-Head、RomanTex、MaterialMVP、SparseMM等
作者：机智流发布日期：2025-10-22 22:31:33
在 ICCV 2025 中看到了 6 篇“腾讯混元”团队相关的论文推荐给大家！(1) SVG-Head: Hybrid Surface-Volumetric Gaussians for High-Fi
阅读全文
HF今日推荐论文20篇｜浙大LightMem三阶段记忆模型效率暴增117倍！MIT世界模型闭环评测，复旦多模态基准革新
作者：机智流发布日期：2025-10-22 22:31:33
(1) LightMem: Lightweight and Efficient Memory-Augmented Generation论文 ID：2510.18866论文简介：由浙江大学、新加坡国立大
阅读全文
聊聊大模型推理系统之TokenFlow：用“抢占式调度+写通缓存”实现高并发下P99延迟暴降80%
作者：机智流发布日期：2025-10-21 21:43:35
在大模型（Large Language Model, LLM）深度融入日常交互的今天，用户对 AI 响应速度的要求越来越高：既要“秒回”（低Time-to-First-Token, TTFT），又要“
阅读全文
身份一致性提升18.9%！阿里开源Identity-GRPO，实现多人视频生成中角色的精准控制
作者：机智流发布日期：2025-10-21 21:43:35
> 本文来自社区投稿，作者：孟祥玉本篇分享论文《Identity-GRPO: Optimizing Multi-Human Identity-preserving Video Generation v
阅读全文
Andrej Karpathy 2小时访谈精华：通用人工智能仍需十年
作者：机智流发布日期：2025-10-20 20:18:04
近期 Andrej Karpathy 与播客主持人 Dwarkesh Patel 的两小时访谈[1]引发科技圈震动，播放量半天内突破 130 万次。Andrej Karpathy 是人工智能领域的知名
阅读全文
HF上周论文推荐 TOP30｜NVIDIA、MIT等：量化强化学习训练效率提升1.8倍，多模态生成质量刷新SOTA
作者：机智流发布日期：2025-10-20 20:18:04
(1) QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs论文 ID：2510.116
阅读全文
百度0.9B小模型碾压GPT-4o！PaddleOCR-VL 如何定义多模态文档理解新范式？
作者：机智流发布日期：2025-10-19 23:23:44
引言PaddleOCR-VL 来了！它是百度飞桨团队最新推出的超轻量视觉语言模型（VLM），以仅 0.9 亿参数的紧凑设计，在全球多模态文档解析评测榜 OmniDocBench v1.5 上以 92.
阅读全文
本周P站更新｜支持搜索、上线 ICCV 2025 专区，消耗12 亿Token生成2701篇中英文对照 PDF
作者：机智流发布日期：2025-10-19 23:23:44
上新 ICCV 2025 专区，收录 2702 篇 ICCV 论文，并使用科学能力超强的 Intern-S1 生成了 2702 篇「图文并茂」的解读博客以及「中英文」对照的 PDF 翻译。https
阅读全文
多模态模型的理解能力如何反哺生成能力？港大MMLAB提出SRUM，实现统一多模态模型自我进化
作者：机智流发布日期：2025-10-18 22:14:31
> 本文来自社区投稿，作者：港大MMLAB金伟阳今天带来的是来自香港大学MMLab实验室最新的统一多模态大模型框架 SRUM[1]，代码与模型已在 Github[2] 和 HF[3] 开源。背景在通往
阅读全文
欢迎报名｜亚马逊云科技 & SGLang Meetup 北京场（2025年10月25日）
作者：机智流发布日期：2025-10-18 22:14:31
探索前沿，共塑未来。SGLang 社区与亚马逊云科技强强联合，将于2025年10月25日在中国北京共同举办 SGLang Meetup。本次活动将汇聚核心贡献者与行业伙伴，深度剖析 SGLang 在大
阅读全文
大模型应用调试神器：LangSmith 入门与实战指南
作者：机智流发布日期：2025-10-17 22:15:47
> 作者：李剑锋前言在之前的课程中，我们一直聚焦在如何快速搭建一个大模型应用来辅助工作与生活。但很多人往往忽略了一个同样关键的环节——大模型的监控。众所周知，大语言模型（LLMs）本质上是一个黑盒神经
阅读全文
ContextGen：浙大提出多实例生成“布局锚定+身份一致”新方案，复杂场景表现超越 Gemini/GPT
作者：机智流发布日期：2025-10-17 22:15:47
> 本文来自社区投稿，作者：Ruihang Xu在图片生成领域，如何从基础的“能生”，发展到更高层次的“精准可控”，一直是行业关注的重点。特别是对于复杂场景下的多实例图像生成(Multi-Instan
阅读全文
不再靠“猜坐标”！新加坡工程院院士颜水成携华南理工 & A*STAR团队联合发布PaDT：实现真正的多模态表征输出
作者：机智流发布日期：2025-10-16 18:59:21
> 原创作者：机智流编辑部近年来，多模态大语言模型（Multimodal Large Language Models, MLLMs）在图文理解、视觉问答等任务上取得了令人瞩目的进展。然而，当面对需要精
阅读全文
87%越狱成功率！研究发现大模型会在“说好话”时会放松警惕
作者：机智流发布日期：2025-10-15 23:26:56
> 本文来自社区投稿，作者：邬雨航今天要分享给大家的这篇论文聚焦大型语言模型（LLMs）的安全漏洞，提出了全新的越狱攻击范式与防御策略，深入剖析了模型在生成过程中的注意力变化规律，为LLMs安全研究提
阅读全文
打破西方封锁，全球第二！一文读懂国产首款90GHz示波器对我国高端芯片产业发展意味着什么？
作者：机智流发布日期：2025-10-15 23:26:56
2025湾芯展现场，新凯来受关注。图源：科技日报> 本文由 Intern-S1 等 AI 生成，机智流编辑部校对在2025年10月15日开幕的湾区半导体产业生态博览会（湾芯展）上，深圳市万里眼技术有限
阅读全文
聊聊大模型推理系统之RServe如何实现66%延迟降低与109%吞吐提升？
作者：机智流发布日期：2025-10-14 22:39:25
> 本文由 Intern-S1 等 AI 生成，机智流编辑部校对在多模态大模型（Large Multimodal Models, LMMs）日益普及的今天，用户对响应速度的要求却愈发严苛。然而，现有推
阅读全文
全球科技玩家集结啦！首届 WTCC西岸国际科技消费嘉年华狂欢来袭，马上报名，一起嗨翻10.24-28！
作者：机智流发布日期：2025-10-14 22:39:25
> 本文转载自「上海模速空间大模型创新生态社区」-- 完 --机智流推荐阅读：1. LangChain 稳定版 v1.0 即将上线：旧链消失，新链让大模型开发更简单‍2. JanusVLN：阿里高德和
阅读全文
ICLR 26 惊现 SAM 3，从“分割一切”到让模型理解概念！一文解读架构与数据引擎创新
作者：机智流发布日期：2025-10-13 23:53:39
> 本文由 Intern-S1 等 AI 生成，机智流编辑部校对经常关注我们的朋友知道，昨天我们发布了一份 ICLR-2026 论文洞察报告。报告分析了当前机器学习领域的研究趋势、热点和未来方向，以及
阅读全文
AI 落地的深水区：100+ 实战案例，解码工程化真问题
作者：机智流发布日期：2025-10-13 23:53:39
策划｜QCon 全球软件开发大会编辑｜Kitty当 AI 技术的兴奋期渐退，工程化的深水区已然到来。真正的挑战不再是构建概念验证，而是如何将智能可靠、高效、安全地注入企业核心系统的运行底座。在这场深刻
阅读全文
GEMM的背景知识与维度切分细节
作者：机智流发布日期：2025-10-12 23:53:53
本文由 Intern-S1、Qwen3 等 AI 生成，由机智流编辑部校对前言本文章旨在矩阵乘法及其在许多深度学习操作中的应用。这些实现是全连接层、卷积层和循环层等优良性能的基础，其中包括其他可能的
阅读全文
为何是「对话式」智能体？因为人类本能丨对话式智能体专场，Convo AI&RTE2025
作者：机智流发布日期：2025-10-12 23:53:53
在文字诞生之前，人类通过对话交换情感和思想——充满温度与实时反馈。今天，AI 与实时互动技术正引领一场「对话式社会」复兴，让沟通回归本能。从智能终端、儿童 AI 导师到智能客服，语音交互技术正让「对话
阅读全文
700万参数击败DeepSeek R1？不用思维链，不靠测试时推理，三星TRM如何在ARC-AGI等硬核推理任务上超越主流大模型
作者：机智流发布日期：2025-10-11 23:59:43
> 本文由 Intern-S1 等 AI 生成，机智流编辑部校对在当今人工智能领域，“越大越好”似乎已成为默认共识：千亿参数、万亿token训练、超大规模推理……然而，一篇来自三星SAIL蒙特利尔实验
阅读全文
AI+硬件豪华嘉宾阵容！Plaud、Rokid、Folotoy、RockAI、小米、声网都来了丨Convo AI&RTE2025
作者：机智流发布日期：2025-10-11 23:59:43
今年 5 月，OpenAI 以 65 亿美元收购了由传奇苹果设计师 Jony Ive 与 OpenAI CEO Sam Altman 联合创立的初创公司 io，正式宣告 OpenAI 开拓硬件版图的野
阅读全文

上一页下一页