DeepSeek-OCR论文解读
1.为什么要做DeepSeek-OCR? 作为使用图片压缩长上下文的一种可行性研究。本质是:文本转图片,图片需要更少的token代替文本,文本需要消耗更多的token.2.模型的效果如何? 当
阅读全文1.为什么要做DeepSeek-OCR? 作为使用图片压缩长上下文的一种可行性研究。本质是:文本转图片,图片需要更少的token代替文本,文本需要消耗更多的token.2.模型的效果如何? 当
阅读全文1. Manus为什么选择 Context Engineering 而不是模型微调 Manus 选择押注在上下文工程上。这使我们的产品改进周期从数周缩短至数小时,同时确保产品与底层模型保持
阅读全文1.什么是Triton **NVIDIA** 开发的一个**高性能 AI 模型推理平台,项目开源,是一个模型服务引擎。2.Triton 能做什么支持多框架,包括:TensorRT、PyTorch、Te
阅读全文1.什么是MCPmcp是模型上下文协议,提供给大模型可以安全、标准的使用工具,实现工具与模型的解耦。2.什么是FastMCPFastMCP是构建 MCP 服务器和客户端的快速、Python 包。Fas
阅读全文大模型灾难性遗忘是什么,为什么会出现,怎么解决1.什么是大模型的灾难性遗忘 大模型灾难性遗忘的具体表现如下:训练完任务B后,模型在任务A上的准确率大幅下降模型"忘记"了之前学到的特征表示
阅读全文DeepSeek-V3.1 发布升级新增三个新变化混合推理架构:一个模型同时支持思考模式与非思考模式;通过model字段参数进行切换更高的思考效率:相比 DeepSeek-R1-0528,DeepSe
阅读全文RAG代理在生产环境的实践:10个关键经验教训引言在最近的一次演讲中,RAG(检索增强生成)的创始人Douwe Kiela分享了在企业环境中部署AI系统的宝贵见解。本文总结了在生产环境中实施RAG代理
阅读全文搜索相关性进阶:BM25 与 TF-IDF 原理与实战深度对比在信息检索、智能问答和推荐系统中,文本相关性排序算法是核心技术之一。最经典的算法莫过于 TF-IDF,但在现代搜索引擎(如 Elastic
阅读全文贝叶斯优化:机器学习参数调优的智能利器在机器学习和深度学习项目中,模型的超参数调优一直是影响最终效果的关键因素。传统的网格搜索和随机搜索虽然简单易用,但在高维参数空间、目标函数评估代价高昂的场景下,效
阅读全文从零到一:用Python打造智能手势识别系统,附完整代码引言在当今人机交互领域,手势识别技术正变得越来越重要。从智能家居控制到虚拟现实应用,手势识别为用户提供了一种自然、直观的交互方式。本文将带您了解
阅读全文🤖 从0到1:用Python实现实时手部检测,开启人机交互新篇章本文由AI技术分享官原创,转载请注明出处🔍 前言:手部检测技术的重要性在计算机视觉领域,手部检测是一项基础而关键的技术。与手势识别不同,
阅读全文📊 准确率、精确率、召回率:为什么你的AI模型在"说谎"?🔍 开篇:一个令人震惊的案例想象一下,你是一家医疗AI公司的数据科学家。你的癌症检测模型在测试集上准确率高达95%!老板很高兴,准备推向市场。
阅读全文量化交易秘籍:年化11%+的尾盘大跌抄底策略1. 策略概述核心参数买入条件:当日跌幅在5%到10%之间卖出条件:持有1个交易日资金管理:每次买入10000元,按100股一手计算回测结果总交易次数:5次
阅读全文量化交易实战:尾盘大跌抄底+隔夜套利策略揭秘1. 策略概述核心参数买入条件:当日跌幅在5%到10%之间卖出条件:持有1个交易日资金管理:每次买入10000元,按100股一手计算回测结果总交易次数:5次
阅读全文深度解析:GBDT与XGBoost的异同引言在机器学习领域,GBDT(梯度提升树)和XGBoost是两个备受瞩目的算法。虽然它们都基于梯度提升的思想,但在实现细节上却有着显著的区别。本文将深入探讨这两
阅读全文从“工具调度员”到“智能体团队”——单Agent与多Agent架构的本质区别与演进在AI应用和智能体开发领域,单Agent(单智能体)和多Agent(多智能体)架构是两个绕不开的核心话题。很多开发者初
阅读全文让RAG更聪明:构建带相关性判断与问题重写的智能问答系统引言RAG(Retrieval-Augmented Generation,检索增强生成)已成为智能问答、企业知识库、智能助手等场景的主流方案。但
阅读全文调优均线策略,A股年化收益超10%!前言你是否还在为选什么均线周期而纠结?你是否想让自己的量化策略更智能?本期实战带你用Python自动调优均线参数,实时获取A股数据,亲测11日均线年化收益超10%!
阅读全文WorkFlow与 Agent的最佳实践指南随着大语言模型(LLM)能力的不断提升,如何高效构建基于 LLM 的应用系统成为开发者关注的焦点。本文将系统梳理工作流(workflow)与 agent 的
阅读全文「揭秘大模型黑科技」DeepSeek V3 & R1:架构创新与推理性能大跃迁近年来,大语言模型(LLM)在自然语言处理领域持续引领技术革命。DeepSeek 团队推出的 DeepSeek V3 和
阅读全文一篇讲清楚大模型推理显存与并发的实用科普引言大语言模型(如Llama、ChatGLM等)在实际部署时,推理显存和并发能力是大家最关心的问题之一。本文将用通俗易懂的方式,详细讲解一个请求推理需要多少显存
阅读全文从零开始,带你用CNN实现图片分类任务(附代码讲解)卷积神经网络(CNN, Convolutional Neural Network)是深度学习中最经典、最成功的图像处理模型之一。无论是手写数字识别、
阅读全文Go 语言内存分配深度揭秘:从微小对象到大对象的优化之旅一、内存分配的分类Go 将对象分为三类,每类都有其特定的优化策略:1. 微小对象(< 16B)使用 mallocgcTiny 分配不包含指针不需
阅读全文A2A协议深度解析:构建智能代理通信的基石一、什么是A2A?A2A (Agent to Agent) 是谷歌提出的一种智能代理间通信协议采用 JSON-RPC 2.0 作为交互规范通过 HTTP 实现
阅读全文深度优先搜索:递归 vs 非递归,谁更胜一筹?在数据结构和算法领域,深度优先搜索(DFS)是树和图遍历中最常用的方法之一。本文将深入探讨DFS的两种实现方式:递归和非递归,并分析它们各自的优缺点。一、
阅读全文一问一答:轻松掌握强化学习PPO一、PPO基础知识Q1: 大语言模型RLHF中的PPO主要分哪些步骤?大语言模型RLHF中的PPO分为三个主要步骤:采样:模型根据提示生成回答反馈:计算奖励值学习:更新
阅读全文🚀 掌握分布式训练利器:Ray与LLaMA-Factory强强联手完全指南基础知识Q: 什么是Ray,它在LLaMA-Factory中的作用是什么?A: Ray是一个用于分布式计算的开源框架,在LLa
阅读全文大模型(LLMs)微调问答集领域模型训练策略Q8: 领域数据训练后,通用能力往往会有所下降,如何缓解模型遗忘通用能力?问题动机:仅使用领域数据集进行模型训练,模型很容易出现灾难性遗忘现象解决方法:在领
阅读全文大模型面试(LLMs)微调问答集资源需求与硬件配置Q1: 如果想要在某个模型基础上做全参数微调,究竟需要多少显存?大模型全参数微调的显存需求规律:一般n B参数的模型,最低需要16-20n G的显存(
阅读全文🚀 HeyGem 快速部署指南:打造您的数字分身🌟 探索 HeyGem:您的个人数字化助手HeyGem 是一款完全离线的视频合成工具,专为 Windows 系统设计,能够精确克隆您的外观和声音,将您的
阅读全文