如何监控vLLM等大模型推理性能?
阿里妹导读本文将深入探讨 AI 推理应用的可观测方案,并基于 Prometheus 规范提供一套完整的指标观测方案,帮助开发者构建稳定、高效的推理应用。近两年来,随着大语言模型(LLM)的快速普及,A
阅读全文阿里妹导读本文将深入探讨 AI 推理应用的可观测方案,并基于 Prometheus 规范提供一套完整的指标观测方案,帮助开发者构建稳定、高效的推理应用。近两年来,随着大语言模型(LLM)的快速普及,A
阅读全文阿里妹导读当模型越来越懂人话,我们还需要学习提示语(Prompt)吗?本文总结了23招向AI提问的好方式。过去一个月,全球AI领域接连引爆"深水炸弹":推理成本直降80%的Deepseek-R1横空出
阅读全文阿里妹导读本文描述了关于智能体(Agents)和多智能体系统(Multi-Agent Systems, MAS)的详尽介绍,涵盖了从定义、分类到具体实现框架的多个方面。一、介绍1.1 什么是智能体关于
阅读全文阿里妹导读阿里云可观测解决方案从几个方面来尝试帮助使用 QwQ、Deepseek 的 LLM 应用开发者来满足领域化的可观测述求。一、背景近日,随着阿里通义千问推出的 QwQ 系列深度思考模型爆火全球
阅读全文阿里妹导读本文主要围绕DB-GPT应用开发框架如何在实际落地场景做RAG优化。背景在过去两年中,检索增强生成(RAG,Retrieval-Augmented Generation)技术逐渐成为提升智能
阅读全文前言本文重点介绍使用微调框架unsloth,围绕DeepSeek R1 Distill 7B模型进行高效微调,并介绍用于推理大模型高效微调的COT数据集的创建和使用方法,并在一个medical-o1-
阅读全文阿里妹导读本文希望围绕“Transformer到底是解决什么问题的”这个角度,阐述NLP发展以来遇到的关键问题和解法,通过这些问题引出Transformer实现原理,帮助初学者理解。近期小组内发起AI
阅读全文阿里妹导读大家都可以通过写 prompt 来和大模型对话,那大模型之前的算法是怎样的,算法世界经过了哪些比较关键的发展,最后为什么是大模型这条路线走向了 AGI,作者用两篇文章共5.7万字详细探索一下
阅读全文阿里妹导读大家都可以通过写 prompt 来和大模型对话,那大模型之前的算法是怎样的,算法世界经过了哪些比较关键的发展,最后为什么是大模型这条路线走向了 AGI,作者用两篇文章共5.7万字详细探索一下
阅读全文阿里妹导读这篇文章主要介绍了Java虚拟线程的发展及其在AJDK中的实现和优化。阅前声明:本文介绍的内容基于AJDK21.0.5[1]以及以上的版本,想要用更加稳定的Java虚拟线程还请升级哦:-)一
阅读全文阿里妹导读作者总结了在阿里的三年时间中所收获的宝贵经验和成长感悟。二零二一年的七月九号,我以校招生的身份入职了阿里,开启了一段十分有意思、有意义的阿里旅程。这三年,我从企业金融技术部,到ICBU技术部
阅读全文阿里妹导读通过本篇文章,你可以了解并实践通过【ComfyUI】构建自己的【文生图】和【文生动图】工作流。一、省流版简介通过本篇文章,你可以了解并实践通过【ComfyUI】构建自己的【文生图】和【文生动
阅读全文阿里妹导读本文以DeepSeek模型为核心,探讨了其技术先进性、训练过程及行业影响。首先介绍DeepSeek的快速崛起及其对AI行业的颠覆作用。DeepSeek通过强化学习(RL)实现Time Sca
阅读全文阿里妹导读本文描述DeepSeek的三个模型的学习过程,其中DeepSeek-R1-Zero模型所涉及的强化学习算法,是DeepSeek最核心的部分之一会重点展示。一、背景随着DeepSeek的火爆使
阅读全文阿里妹导读本文详细记录和分析了在应用升级到JDK 11后,由于堆外内存(Direct Memory)管理策略的变化导致的内存利用率告警问题。背景近期,我们应用开始出现sunfire内存利用率的告警,规
阅读全文阿里妹导读本文通过分析一段使用 ConcurrentHashMap 的代码发现,该段代码在 JDK 24 中比 JDK 23 快了 20% 以上,这一性能提升源于 JVM 对标量替换优化的改进。文章详
阅读全文阿里妹导读本文展示从零开始搭建一个本地聊天助手的过程,涵盖了模型部署、搜索逻辑设计、内容提取与整合等关键步骤,特别介绍了如何让模型具备联网搜索能力。0x0 序近段时间 DeepSeek 的服务火遍了全
阅读全文阿里妹导读本篇主要简单介绍了在AI时代由‘大参数、大数据、大算力’需求下,对GPU算力管理和分配带来的挑战。以及面对这些挑战,GPU算力需要从单卡算力管理、单机多卡算力管理、多机多卡算力管理等多个方面
阅读全文阿里妹导读阿里云数据可视化产品DataV团队一直在三维交互领域进行前沿探索,为了解决LLMs与3D结合的问题,近期在虚幻引擎内结合通义千问大模型家族打造了一套基于LLM的实时可交互3D世界方案,通过自
阅读全文阿里妹导读本文从Nvidia GPU架构的发展历程讲起,重点介绍了各代架构的关键特性和技术进步提高了GPU间的通信效率和并行处理能力。文章特别强调了这些技术在大模型时代的应用,如加速AI训练和推理。阿
阅读全文