HF今日「智能体」方向论文:SimpleTIR、VERLTOOL、UI-TARS-2与Agentic RL综述
本文由 Intern-S1、Qwen3 等 AI 生成SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrat
阅读全文本文由 Intern-S1、Qwen3 等 AI 生成SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrat
阅读全文本文由 Intern-S1、Qwen3 等 AI 生成, 由机智流编辑部校对论文链接:https://arxiv.org/html/2504.02263v1你是否想过,一个千亿参数的MoE(Mixtu
阅读全文大家好,我是刘聪NLP。8月31号,美团开源一个大模型,LongCat,560B的MoE模型,是一个非推理模型。看完他们的技术报告,感觉真在infra和模型结构研究上做了很多,里面真有不少细节!PS:
阅读全文本文由 Intern-S1、Qwen3 等 AI 生成, 由机智流编辑部校对全文约 3600 字,预计阅读时间 10 分钟近年来,大语言模型(LLM)在自然语言处理领域掀起了技术革命。从简单的对话生成
阅读全文大家好,我是刘聪NLP。7月的最后一天,给大家盘点了7月国内的开源大模型!咱们8月也不例外,最后一天看看国内都开源了哪些大模型,看看哪些你知道,哪些你不知道,是时候在明天上班前查缺补漏了,别领导一问,
阅读全文本文由 Intern-S1、Qwen3 等 AI 生成, 由机智流编辑部校对近年来,大语言模型(LLMs)在推理任务中的表现令人叹为观止,特别是在数学竞赛和复杂逻辑推理等高难度场景中。然而,传统的推理
阅读全文本文转载自「AI 寒武纪」 美团也推出一款名为 LongCat-Flash 的非推理开源(MIT)大模型,总参数量为 5600亿, MoE架构,激活 186亿至313亿参数(平均约270亿),模型性能
阅读全文原文链接:https://developer.nvidia.com/blog/cutlass-principled-abstractions-for-handling-multidimensional
阅读全文转载自书生Intern通往通用人工智能(AGI)的探索,不仅是技术的突破,更关乎体验的革新。多模态大模型通过融合视觉与语言等多维信息,让AI能够像人一样理解世界、解决问题,为用户带来更流畅、更可信赖的
阅读全文作者:李剑锋基本语法变量与常量一、变量变量是用于存储数据的容器,在程序运行过程中,其值可以改变。在python中,变量与常量其实没有本质上的区别,我们都可以通过赋值的方式简单的创建变量和常量。x =
阅读全文摘要:GMI Cloud 推理引擎平台 Inference Engine 上新多款 LLM、Video 模型,速度快、质量高、性价比高,欢迎到 GMI Cloud 官网体验。限时开启线上体验活动,活动
阅读全文本文由 Intern-S1、Qwen3 等 AI 生成,下方精简版播客由 ListenHub AI 生成全文约 4000 字,预计阅读时间 12 分钟近年来,大语言模型(LLMs)在自然语言处理领域取
阅读全文全文约 6500 字,预计阅读时间 20 分钟。下方精简版播客由ListenHub AI 生成当家庭服务机器人接到 “从客厅出发,经过卧室的床进入浴室,打开浴缸水龙头” 的指令时,它需要跨越两道关键鸿
阅读全文本文来自社区投稿,作者:谢志军引言初看embedding,一组由简单的正数或负数组成的数组,它们是某个高维向量空间的坐标,映射了语义空间的方向,同时它们也是LLM矩阵运算的组成单元,是attentio
阅读全文全文约 1800 字,预计阅读时间 5 分钟在大模型(LLM)推理服务中,如何在输入/输出长度剧烈波动的现实场景下,依然保持高吞吐与低延迟?传统静态资源分配策略往往导致计算资源严重浪费。近期,来自中国
阅读全文文章翻译自:https://cursor.com/cn/blog/kernelsCursor致力于打造全球最佳的 AI 编程模型,但训练大型语言模型成本高昂。例如,我们最大的内部模型在数万个 GPU
阅读全文最近编程越来越火了,我也试了试用 Termux 配 Claude Code 在手机上写代码,发现体验还真不错。说起来也挺魔幻的,以前写代码必须坐在电脑前,现在躺床上都能敲代码。手机24小时不离身,编程
阅读全文本文作者明仔 matrix, 由机智流编辑部校对。说在前面的话有关具身智能,在今年前三季度的大部分工作和思考仍旧集中在数据的收集和数据的利用上——即如何高效的利用视频的示例数据去训练一个性能表现都不错
阅读全文本文由被奴役的机智流AI生成,机智流编辑部校对。播客由ListenHub AI生成近年来,视觉语言模型(VLMs)驱动的计算机使用代理(CUAs,Computer-Use Agents)正成为AI领域
阅读全文🌟 大赛亮点速览2025年被誉为Agent AI商业化元年,AI Agent技术正从实验室走向产业一线。中国人工智能学会主办的"场景驱动·数智强国"——2025第三届全国人工智能应用场景创新挑战赛AI
阅读全文全文约 7000 字,预计阅读时间 21 分钟。欢迎收听下方精简版播客在人工智能飞速发展的今天,基础模型的竞争已从通用领域逐步延伸至高价值的科学专业领域。无论是分子结构分析、时间序列信号处理,还是复杂
阅读全文作者:李剑锋前言在上一节课中(万字长文!从 0 到 1 搭建基于 LangGraph 的 AI Agent),我们已经完成了一个可正常运行的 LangGraph 智能体框架,能够根据需求调用外部工具,
阅读全文全文约 1800 字,预计阅读时间 5 分钟RAG(Retrieval - Augmented Generation,检索增强生成 )技术最早可追溯至2020年被正式提出。如今,伴随大模型技术的飞速迭
阅读全文最近,Intern-S1、MiniCPM-V-4、GLM-4.5V、Step3、OVIS 等多模态大模型纷纷开源,在大模型开源社区引发了热烈讨论。这些模型不仅在参数规模、训练范式和应用场景上各具特色,
阅读全文全文约 2000 字,预计阅读时间 6 分钟相信不少读者在 WAIC2025 大会上已经被华为云的 CloudMatrix384 超节点震撼到了。CloudMatrix 384对标英伟达GB200 N
阅读全文全文约 1600 字,预计阅读时间 5 分钟新闻资讯DeepSeek V3.1 发布官方通知上下文长度拓展至128K(虽然 Huggingface 上 DeepSeek V3 的模型卡上写着上下文长度
阅读全文全文约 3800 字,预计阅读时间 15 分钟。也可以点击下方音频,收听本文的简洁版播客(播客由 ListenHubAI 生成)自 2 月份 DeepSeek 火爆全网以来,大语言模型(LLMs)凭借
阅读全文🌟 大赛亮点速览2025年被誉为Agent AI商业化元年,AI Agent技术正从实验室走向产业一线。中国人工智能学会主办的"场景驱动·数智强国"——2025第三届全国人工智能应用场景创新挑战赛AI
阅读全文近年来,随着多模态大语言模型(MLLMs)在视觉问答、图像识别等领域的飞速发展,其在复杂数学推理任务中的表现却始终是一大挑战。如何让AI不仅能“看懂”数学题目中的图像,还能像人类一样进行逻辑严密的推理
阅读全文