Perplexity 分享了他们的技术架构。 团队38个人,4个月干出了月活4亿。 博客在这,内容有点长,而且很多图: https://blog.bytebytego.com/p/how-perplexity-built-an-ai-google 但是核心就干了三件事:搜索 + AI生成 + 给来源。 听起来很简单,工程设计才是壁垒。 他们用Vespa.ai建了个巨大的索引,2000亿个URL,400PB的热存储,几万个CPU在跑,而且不是静态索引,每秒处理几万次更新,保证信息永远是最新的。 混合检索,向量+BM25+精排,同类方案P95延迟是400-800ms,Perplexity压到了200ms以内。Vespa把数据、索引、计算逻辑全放在同一个节点上,避免网络IO,分布式查询并行跑。 Perplexity用的不是自己的模型,而是混着用。简单问题用自研的便宜模型Sonar,复杂问题才调GPT-4或Claude。 常规操作,既快又省钱,核心是用最小的模型搞定最好的体验。 Sonar模型也不是从头训练的,拿开源模型微调,比如之前他们微调deepseek,说什么去掉xxx,在抱抱脸上一堆人喷。 训练数据都来自用户交互,微调的目的是提升3个能力: 精准摘要 + 正确标注引用 + 严格基于检索内容回答。 推理部分用了自研的ROSE引擎,跑在AWS的H100 GPU上。架构上部分用Rust重写,不是纯python。推理解码算法支持投机解码和MTP。 还有个黑科技,AI自改进的内容解析, 因为网页结构千奇百怪,所以他们尝试用模型动态去生成解析规则。 系统会评估当前规则的完整性和质量,然后自己提出改进方案、验证、部署。这套循环可以让系统持续进化,把非结构化网页最好的解析切分。 没啥抄的,因为perplexity的护城河不是某个模型,是端到端的系统工程能力。从检索、排序、生成到推理,每一层都有深度优化。
Perplexity 分享了他们的技术架构。 团队38个人,4个月干出了月活4亿。 博客在这,内容有点长,而且很多图: https://blog.bytebytego.com/p/how-perp
阅读全文