Transformers v5 中的分词系统:更简洁、更清晰、更模块化
Transformers v5对分词器的工作方式进行了全新设计。分词器的重构将分词器的结构设计与训练好的词表分离 (就像 PyTorch 将神经网络结构与训练权重分离一样) 。结果就是:现在的分词器更
阅读全文Transformers v5对分词器的工作方式进行了全新设计。分词器的重构将分词器的结构设计与训练好的词表分离 (就像 PyTorch 将神经网络结构与训练权重分离一样) 。结果就是:现在的分词器更
阅读全文专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!2025年是中国开源模型大放异彩的
阅读全文专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!麻省理工学院 (MIT)、英伟达、
阅读全文专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!2026年将成为商业历史上的一个重
阅读全文图片来源:unsplash▎苹果与谷歌合作,引入Gemini升级Siri。文|飞向TAI空作者|胡珈萌编辑|李程程本文首发于钛媒体APP人类历史上第四家4万亿美元市值公司正式诞生。美国时间1月12日,
阅读全文作者|陆邮箱|xiaoyu@pingwest.com北京时间 1 月 13 日凌晨,苹果与谷歌联合发布声明,宣布达成一项多年期深度合作协议:下一代苹果基础模型(Apple Foundation Mod
阅读全文作者|王兆洋邮箱|wangzhaoyang@pingwest.com1月5日,陈立武(Lip-Bu Tan)在拉斯维加斯的CES期间,站在聚光灯下,发布了他执掌英特尔之后最重要的一次芯片产品更新。这也
阅读全文文章转载于极客公园作者:金光浩上周听一位朋友吐槽她上六年级的侄子。她侄子数学成绩一般,那天她辅导作业,他被一道题卡住了,她看了看题目,自己也拿不准,就随口说了句「要不你用百度查一下这个题的解」。结果他
阅读全文梦晨 发自 凹非寺量子位 | 公众号 QbitAIDeepSeek节前开始蓄力!最新论文直接给Transformer加上“条件记忆”(Conditional Memory),补上了原生缺乏的知识查找机
阅读全文闻乐 发自 凹非寺量子位 | 公众号 QbitAI256K文本预加载提速超50%,还解锁了1M上下文窗口。美团龙猫LongCat系列新年出招,发布全新稀疏注意力机制LoZA(LongCat ZigZa
阅读全文2025年,国内在AI产品领域出现了太多关键词——深度思考、Agentic AI、多智能体协作、多模态生成、端侧AI……每个关键词背后,都有一款或数款颠覆性的AI产品。DeepSeek凭借强推理能力和
阅读全文Claude Code 是好用,Skills非常的强,但是对于普通的用户而言,上手难度可谓登天。 估计有的人一辈子都没有打开过命令行,甚至都不知道命令行是什么东西。 Cowork的出现可谓扭转乾坤
阅读全文🍎苹果与 Google 官宣合作,Gemini 将支撑 Apple Intelligence🍬制糖工厂小电拼入选 2025「微博年度电子潮玩」榜单📖梁文锋署名新论文曝光:DeepSeek V4 或引入
阅读全文OpenCode,开源版 Claude Code。6.4 万 GitHub Stars(昨天还是 6.1 万),100 万月活开发者,75+ 模型。昨天写了 Anthropic 封杀第三方工具、Ope
阅读全文一觉醒来,你的 iPhone 即将用上最强 AI 了。就在刚刚,苹果和 Google 发布联合声明,双方达成达成多年深度合作协议。下一代「苹果基础模型」将直接基于 Google 的 Gemini 模型
阅读全文当代码终结之后,软件该怎么写?Dan Shipper(Every 的联合创始人)和 Claude 联手写了一份技术指南,试图给出答案。这是一份构建 Agent 原生软件的完整技术指南。它系统性地总结了
阅读全文就在刚刚,苹果正式确认和 Google 达成多年期 AI 合作每年 10 亿美元,拿到一个 1.2 万亿参数的定制版 Gemini,共 Siri 使用这个模型比苹果现有的云端模型大 8 倍苹果向 C
阅读全文使用 AI 输入法,提升打字速度提升第二篇!刚用完 AutoGLM,就马不停蹄的开始体验闪电说了。闪电说是很多人推荐的 AI 输入法。简单体验了一下。相比 AutoGLM 而言,至少有三个优点:端侧离
阅读全文👆👆👆重要提醒!微信推荐机制大幅调整,大家务必将我们公众号设为★星标,否则很可能看不到推送了......近年来,两大科技行业热度空前,其一是软件层面的 AI,其二是硬件层面的机器人;而打通两者的具身智
阅读全文👆👆👆重要提醒!微信推荐机制大幅调整,大家务必将我们公众号设为★星标,否则很可能看不到推送了......作者:定西 | 监制:罗超2026年1月6日-9日,一年一度的科技盛宴CES2026在美国拉斯维
阅读全文👆👆👆重要提醒!微信推荐机制大幅调整,大家务必将我们公众号设为★星标,否则很可能看不到推送了......2026年1月6日-9日,一年一度的科技盛宴CES2026在美国拉斯维加斯举行。作为世界三大科技
阅读全文👆👆👆重要提醒!微信推荐机制大幅调整,大家务必将我们公众号设为★星标,否则很可能看不到推送了......作者:kkknei | 监制:罗超1月12日,真我在深圳举行「真我Neo 8屏幕技术沟通会」,真
阅读全文👆戳视频看👁CES 2026 现场实测!阿里云无影发布的“AI云超算”,巴掌大小却有4块 RTX 5880 的性能,月费仅千元!从单机到云端,从硬件到 AgentBay,这会是个人计算的未来吗?#CE
阅读全文👆👆👆重要提醒!微信推荐机制大幅调整,大家务必将我们公众号设为★星标,否则很可能看不到推送了......扫地机器人诞生的初衷,其实非常朴素:把人从日复一日、却又不可避免的清洁中解放出来。过去十年,这个
阅读全文👆👆👆重要提醒!微信推荐机制大幅调整,大家务必将我们公众号设为★星标,否则很可能看不到推送了......今年的CES展厅里确实有不少值得关注的产品和技术,不过,真正的大新闻却往往不在展厅里。在展览正式
阅读全文👆👆👆重要提醒!微信推荐机制大幅调整,大家务必将我们公众号设为★星标,否则很可能看不到推送了......威尼斯人会展中心从来不缺野心。每年一月,拉斯维加斯这座纸醉金迷的赌城,都会短暂变身成一座科技实验
阅读全文DeepSpeed的ZeRO(Zero Redundancy Optimizer)技术通过分片(Sharding)策略消除分布式训练中的显存冗余,实现显存占用的线性降低。其核心是将模型状态(参数、梯
阅读全文单纯拉长上下文并不能自动涌现强化学习能力,引入显式贝叶斯推断才是破局关键。在 In-Context RL 的研究热潮中,往往存在一种惯性思维,认为只要把 Transformer 做大,把上下文窗口拉长
阅读全文