Transformer 大模型架构深度解析(3)注意力机制的发展历程
前文列表Transformer 大模型架构深度解析(1)NLP 自然语言处理文本表示方法Transformer 大模型架构深度解析(2)RNN 循环神经网络模型在 NLP 中的应用注意力机制(Atte
阅读全文前文列表Transformer 大模型架构深度解析(1)NLP 自然语言处理文本表示方法Transformer 大模型架构深度解析(2)RNN 循环神经网络模型在 NLP 中的应用注意力机制(Atte
阅读全文专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!16 个 Claude 全自主协同
阅读全文专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!注意力“太昂贵了”,人的注意力如此
阅读全文多模态大语言模型在2025年的爆发式增长其根源在于核心技术架构与训练方法的系统性进化。研究者们不再满足于简单地将不同模态的模块进行拼接而是从更根本的层面思考如何构建一个高效、统一且可扩展的智能系统。本
阅读全文🙅♂️市监局:反对厂商「内卷」、亏本卖车💻OpenAI 发布新款实时编程模型📌马斯克评价 Seedance 2.0:发展太猛了📷松典相机加入 M43 阵营🔋多车企披露全固态电池产业规划方案🔮消息称魅
阅读全文从群聊助理到 App 原型:MiniMax 2.5 一轮实测记录。👦🏻 作者: 镜山🥷 编辑: Koji🧑🎨 排版: NCon2026 年的春节,可能会被记成中国互联网历史上最卷的一次春节。还有 3
阅读全文就在10小时前,智谱AI正式发布了其年度旗舰模型GLM-5。当大多数人还在测试它的单点逻辑推理能力时,敏锐的开发者已经发现了一个更具破坏力的玩法:将GLM-5的高密度思维模型注入到Anthropic最
阅读全文Seedance 2.0 火出天际。但,怎么用?豆包刚刚官宣接入 Seedance 2.0,App、电脑端、网页版都能用了。加上即梦和小云雀,字节系现在一共 5 个地方能用。有的免费,有的要订阅,额度
阅读全文刚刚,Google DeepMind 升级了 Gemini 3 的专用推理模式 Deep Think,跑分直接屠榜了。要知道,ARC-AGI-2 是目前公认测试 AI 推理能力的前沿基准,之前没有模型
阅读全文如果你用过任何AI编程工具,大概率经历过这样的场景:你写下一段需求,它咔咔咔生成几百行代码。你复制、粘贴、跑一下——报错。你复制错误信息回去,它说“抱歉,我修正一下”。又咔咔咔几百行。你复制、粘贴——
阅读全文GLM-5是智谱最新的MoE模型,总参数744B(活跃40B),从GLM-4.5的355B大幅升级,预训练数据增至28.5T tokens。专为复杂系统工程、长时序代理任务设计,在编码、Agentic
阅读全文亲手踩坑后仍然信任的东西,让你少走弯路我不是从一篇博客里学会 MCP servers 的。我是靠“管道胶带工程学”学会的:把 Python 脚本、cron jobs、半截文档的 APIs 东拼西凑,直
阅读全文_common.pynet = None # Newwork()_inited = Falsedef _init(log_level=None): global _inited if _
阅读全文👆👆👆重要提醒!微信推荐机制大幅调整,大家务必将我们公众号设为★星标,否则很可能看不到推送了......作者:三明治 | 监制:罗超在文章开始之前,我想先问大家一个简单的问题:你的微信朋友圈或者通讯录
阅读全文👆👆👆重要提醒!微信推荐机制大幅调整,大家务必将我们公众号设为★星标,否则很可能看不到推送了......作者:天星 | 监制:罗超2 月 4 日,数码闲聊站在微博爆料,称某厂的手机磁吸镜头已经启动量产
阅读全文👆戳视频看👁豆包、千问、元宝、文心的红包策略都公布了,当巨头们打明牌后,咱们来聊聊谁的胜算更大。#豆包 #千问 #文心 #元宝 #春节 #AI #红包大战 #腾讯 #阿里 #百度 观看更多深度视频欢迎
阅读全文👆👆👆重要提醒!微信推荐机制大幅调整,大家务必将我们公众号设为★星标,否则很可能看不到推送了......作者:kkknei | 监制:罗超2025年,苹果为iPhone 17系列、iPhone Air
阅读全文👆👆👆重要提醒!微信推荐机制大幅调整,大家务必将我们公众号设为★星标,否则很可能看不到推送了......大家好呀!最近整理手机APP的时候翻到了以前存的小说软件列表,一半都标着“已失效”,突然就想起前
阅读全文> 作者:李剑锋简介架构简介在多智能体的系统中,Router 算是比较特殊的一类,因为所谓的 Router 其实并不像 Subagents 一样能够去指挥着下面的子智能体完成各式各样的任务,而只是一个
阅读全文> 本文转载自面壁智能众所周知,Transformer 及其核心的全注意力机制(Full Attention)虽长期占据大模型架构的核心地位,但平方级计算复杂度、高额显存占用的瓶颈,早已成为实现超长上
阅读全文从“几何路径规划”到“空间智能”,具身智能正在经历史诗级范式跃迁。作者丨岑峰如果说大语言模型(LLM)的爆发赋予了 AI 思考的“灵魂”,那么具身智能(Embodied AI)的崛起则是要为 AI 打
阅读全文当AI重塑未来,一只中国独角兽正以技术之力,改写全球教育的发展轨迹。2025年的冬天,空气里透着冷峻,世界却在科技的躁动中热得发烫。当《时代》周刊(TIME)公布年度“最佳发明”榜单时,全球科技圈的目
阅读全文谁能想到,2026 年第一个爆火出圈的 AI 互动装置,居然出现在米兰冬奥村?事情是这样的,自从前几天米兰-科尔蒂纳冬奥会开幕之后,热搜就被冬奥新闻给包圆了:又是波切利开幕式献唱《今夜无人入睡》,又是
阅读全文金磊 发自 凹非寺量子位 | 公众号 QbitAI当看到GLM-5正式发布后的能力,才惊觉前几天神秘模型Pony Alpha的热度还是有点保守了。因为这一次,GLM-5直接把开源AI也拽进了长任务时代
阅读全文允中 发自 凹非寺量子位 | 公众号 QbitAI在大模型的多种应用形态中,执行专业功能的行业Agent,无疑是提升生产效率、实现价值创造的利器。然而,千行百业包含着大量的私域知识、专家经验和工具使用
阅读全文MeepleLM团队 投稿 量子位 | 公众号 QbitAI大模型桌游体验官来了!不仅能快速给出评价与建议,还能模拟不同类型玩家的体验差异。近期,来自盛大东京研究院、上海创智学院、南开大学、上海人工智
阅读全文作者|周一笑邮箱|zhouyixiao@pingwest.com一场持续一个月的直播,让AI研究AI自己。明天上午11点,一场持续约一个月的直播即将上线。屏幕里将没有主播,只有一个名为FARS的AI系
阅读全文作者|李楠邮箱|linan@pingwest.com1产品:一个懂审美的造物Agent“Leewow”原本想叫“Leewoo”,跟“礼物”谐音。但为了突出产品带来的惊喜感,最终定名为“Leewow”。
阅读全文文章转载于腾讯科技作者:博阳2025年,具身智能领域最火的词就是VLA(视觉-语言-动作模型)。它成了一种席卷全行业的共识,一个关于具身基础模型的标准答案。在过去的一年里,资本和算力疯狂涌入这条赛道,
阅读全文