做大模型评测，刚刚估值冲破17亿美元，5000万用户，投资人疯抢这个AI入口！-AI Express News

估值冲破17亿美元，LMArena如何靠“全民公测”AI重塑模型评估赛道？

一家从学术项目成长起来的AI评测平台，正在以惊人速度改写行业游戏规则。

刚刚，LMArena正式宣布完成1.5亿美元A轮融资，投后估值突破17亿美元。

本轮由Felicis与加州大学旗下基金UC Investments联合领投，a16z、The House Fund、LDVP、Kleiner Perkins、Lightspeed、Laude Ventures等一线风投跟投。

从实验室到估值巅峰：一场“测评革命”的崛起

LMArena的故事始于2023年加州大学伯克利分校的一个开源研究项目——“聊天机器人竞技场”（Chatbot Arena），由研究人员Anastasios Angelopoulos与蒋伟林（Wei-Lin Chiang）共同发起。最初依靠资助与捐赠运营，如今已成为全球AI模型评估的事实标准平台。

其模式直接而有力：用户输入一个问题（prompt）→ 系统返回两个匿名模型的回答 → 用户投票选出更优答案并给出反馈。通过汇集数百万真实用户的判断，LMArena生成实时排行榜与深度性能洞察，成为模型实验室在文本、代码、图像、视频、搜索等领域衡量进展的关键标尺。

“真正的AI评估必须是透明的、严谨的，并且由客观数据和人类判断共同塑造。”LMArena的CEO Anastasios Angelopoulos强调。

数据背后的增长飞轮：3500万用户、4个月ARR突破3000万美元

目前，平台月活用户已超500万，覆盖150个国家，每月产生超过400万次模型对比。用户不仅来自普通消费者，更包括依赖其进行关键决策的企业与实验室。

不只是排行榜：构建“人在回路”的真实世界评估基础设施

LMArena的影响力远不止于公开排行榜。其核心价值在于提供直接、可操作的评估信号，揭示模型在何处表现优异、在何处失败，以及真实用户的实际期待。

与传统离线基准测试不同，LMArena的评估来自真实使用场景——人们提出真实问题、对比真实输出、揭示能力真实差异。这种“人在回路”（human-in-the-loop）的评估机制，尤其在模型日益通用化的今天，成为衡量其跨语言、跨领域、多目标复杂表现的关键。

“当AI日益成为商业运营与日常生活的基础设施，这种独立、可靠、来自真实世界的评估信号变得不可或缺。”领投方Felicis的合伙人表示。

从免费测评到企业服务：商业模式的双引擎

LMArena的独特之处在于其“消费者平台即基础设施”的双边模式：

伴随影响力扩大，LMArena也曾面临质疑。今年4月，一批竞争对手发布论文，指控其与OpenAI、Google、Anthropic等模型公司的合作可能导致基准测试被“操纵”。LMArena对此予以坚决否认，并持续强调其数据处理与排名的透明性。

尽管如此，平台仍在模型开发者中建立起近乎“迷恋”的声望。无论是GPT、Gemini、Claude、Grok等通用模型，还是专注图像生成、文本生图、逻辑推理的垂直模型，都在这场持续进行的“公测”中被反复衡量。

未来：成为AI进步的“全球标尺”

随着新一轮融资注入，LMArena计划加速产品迭代、扩大团队，并深化在企业评估与数据服务方面的布局。在AI逐步深入千行百业的今天，一个独立、真实、基于人类反馈的评估体系，正成为推动技术透明进化的重要力量。

从伯克利的开源项目，到全球AI模型评估的基准坐标，LMArena的崛起不仅是一个商业奇迹，更映射出AI行业从封闭测试走向开放竞争、从静态评分迈向动态进化的时代转折。

“世界需要一把尺，来量准AI的进步。”而这把尺，正握在千万真实用户的手中。

参考：https://www.felicis.com/insight/lmarena-announcement

—— End ——

<原文链接：https://mp.weixin.qq.com/s/ckgkHliztgUOl-1SoqsY-w

文章版权归作者所有，未经允许请勿转载。

THE END

做大模型评测，刚刚估值冲破17亿美元，5000万用户，投资人疯抢这个AI入口！