组会前夜必看:如何用1小时把论文「吃干抹净」?
对大多数研究生来说,组会无疑是科研路上的“修罗场”。比如,导师深夜发来一篇英文论文,语气轻松:“这个不错,明天你讲讲。”又比如,你整个假期都在摸鱼,直到最后一天晚上才想起明天要汇报,凌晨点灯熬油突击补
阅读全文对大多数研究生来说,组会无疑是科研路上的“修罗场”。比如,导师深夜发来一篇英文论文,语气轻松:“这个不错,明天你讲讲。”又比如,你整个假期都在摸鱼,直到最后一天晚上才想起明天要汇报,凌晨点灯熬油突击补
阅读全文©PaperWeekly 原创· 作者 | 王群中单位 | 香港中文大学本科生研究方向 | 数据挖掘导读近年来,随着图神经网络(Graph Neural Networks, GNN)在推荐系统、生物信
阅读全文论文地址:https://arxiv.org/pdf/2505.00703代码地址:https://github.com/CaraJ7/T2I-R1最近的大语言模型(LLMs)如 OpenAI o1
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!上海算法创新研究院上海算法创新研究院&上海交大人工智能学院,诚邀各类精英人才加
阅读全文时间序列分析是数据科学的一个重要分支,目前时间序列分析已经广泛应用于各行各业,从金融市场的预测、工业生产的优化,到医疗健康的监测和智能运维的支持。NeurIPS 2024会议不仅发布了时序的新数据集和
阅读全文近年来,大语言模型(LLMs)展现了在文档问答、长对话、复杂指令遵循等场景下的强大能力。然而,随着上下文长度的增长,一个关键的瓶颈日益凸显——KV Cache(键值缓存)带来的巨大 GPU 显存开销。
阅读全文当前,多模态大模型驱动的图形用户界面(GUI)智能体在自动化手机、电脑操作方面展现出巨大潜力。然而,一些现有智能体更类似于“反应式行动者”(Reactive Actors),主要依赖隐式推理,面对需要
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!北京大学北京大学于2002年创办了我国第一个智能科学系,2003年在国内率先设
阅读全文在人机交互日益普及的背景下,语音以其自然、便捷的优势正成为主流交互方式。虽然已有多款语音模型支持流式音频输出,有效降低了体感延迟,但在生成首个音频片段时仍存在较高的等待时间,成为制约实时部署的关键瓶颈
阅读全文论文标题:MICAS: Multi-grained In-Context Adaptive Sampling for 3D Point Cloud Processing论文链接:https://arx
阅读全文当前大模型研究正逐步从依赖扩展定律(Scaling Law)的预训练,转向聚焦推理能力的后训练。鉴于符号逻辑推理的有效性与普遍性,提升大模型的逻辑推理能力成为解决幻觉问题的关键途径。为推进大语言模型的
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!微软微软Data Knowledge Intelligence团队,前身为微软
阅读全文研究背景机器学习模型在诸多领域已经取得了显著的成功,例如图像识别、自然语言处理和自动驾驶等。然而,许多机器学习算法依赖于一个限制性极强的假设,即训练数据和测试数据的分布是相似的。这一假设在现实场景中往
阅读全文多模态奖励模型(MRMs)在提升多模态大语言模型(MLLMs)的表现中起着至关重要的作用,在训练阶段可以提供稳定的 reward,评估阶段可以选择更好的 sample 结果,甚至单独作为 evalua
阅读全文从一张照片重建出逼真的带纹理的人体 3D 模型一直是计算机视觉领域的难题。港科广团队提出的 MultiGO 创新方案,通过分层建模思路破解了这一挑战——将人体分解为不同精度层级,从基础体型到衣物褶皱逐
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!复旦大学探索以人为中心的智能——加入复旦大学计算机科学技术学院 - 智能人机交
阅读全文引言近年来,基于规则的强化学习(RFT)在多模态大语言模型(MLLMs)中的应用取得了显著进展,并且在一些模型上取得了优于监督微调(SFT)的成果。RFT 利用可验证的奖励进行训练,鼓励模型在回答之前
阅读全文任务背景以及 Motivation随着深度视觉-语言预训练的飞速发展,文本驱动的行人检索(Text-based Person Search)已成为公共安全与智能监控领域的热门方向。然而,现有方法为了解
阅读全文©作者 | 周培林单位 | 香港科技大学(广州)随着大语言模型(LLMs)日渐“拟人化”,能写报告、能画图、还能“冲浪查资料”,不少人以为它们已能应对各种任务。但这次,一项由港科大(广州)、北大、浙大
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!字节跳动Data-电商团队,负责电商创新项目的算法和大数据工作。依托于字节跳动
阅读全文临近毕业季,不管是硕士生还是博士生,毕业前最大的一关就是盲审。通过了,就基本可以宣告毕业在即;没过,则要面对可能“延毕”的深渊。实话, 论文盲审没过,一度陷入了自我怀疑中,觉得自己干啥都不行,能力不行
阅读全文当前,多模态大语言模型(MLLMs)在视觉-语言理解任务中取得了令人瞩目的进展,其中视觉分词(vision tokenization)作为视觉与语言语义对齐的关键环节,发挥着至关重要的作用。然而,现有
阅读全文现在的大模型(比如论文提到的 Deepseek-R1)虽然能解决复杂数学题,但有两个致命缺点:体型庞大:动辄几百亿参数,像“超级计算机”一样耗资源;思考过程长:解一道题要生成几千甚至上万字的思维链(C
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!阿里巴巴团队负责夸克教育多模态大模型的建设工作,有机会接触到前沿的多模态大模型
阅读全文随着 GPT-4o 生成能力的爆火,很多人都在研究怎么让模型既能看懂图片、视频(理解任务),又能根据文字生成图片、视频(生成任务)。自回归模型(就是那种一个接一个预测下一个“词”的模型)在这两方面都取
阅读全文大推理模型(LRM)在非常复杂或困难的任务中表现非凡,这依赖于其强大的系统 2 思维模式(深思熟虑的慢思考)。但在日常的使用中,大量用户提问的问题更多是系统 1 问题(这些问题可以直觉快速回答),他们
阅读全文长视频理解是多模态大模型的核心能力之一,也是迈向通用人工智能(AGI)的关键一步。然而,现有的多模态大模型难以大规模训练超长视频,并且在处理长视频时,仍然面临性能差和效率低的双重挑战。对此,上海交通大
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!西湖大学西湖大学人工智能与科学仿真发现实验室长期开展AI + Science学
阅读全文当前,大语言模型(LLMs)已在数学推理、代码等任务中展现出强大的能力。然而,现有提升推理性能的主流范式,往往依赖监督微调(SFT)与强化学习(RL)的结合,依赖于人工标注的推理路径、标准答案或额外的
阅读全文近年来,Transformer 架构在自然语言处理领域取得了巨大成功,从机器翻译到文本生成,其强大的建模能力为语言理解与生成带来了前所未有的突破。然而,随着模型规模的不断扩大和应用场景的日益复杂,传统
阅读全文