Patronus AI
Patronus AI 是一家专注于评估、监控和模拟 AI 系统的研究实验室和产品公司,旨在帮助团队更有信心地部署大语言模型(LLM)应用和代理。其核心平台涵盖实验、日志记录、比较和追踪功能,而诸如 Digital World Models 之类的研究项目则旨在模拟逼真的数字工作流程,用于长远的代理训练。
该公司发表了广泛引用的评估工作,包括用于幻觉检测的 Lynx、作为小型语言模型评判的 Glider,以及如 FinanceBench 这样的基准测试。Percival 作为其评估助手,可以分析代理的追踪记录,揭示故障模式并针对推理和规划中的错误提供优化建议。
Patronus AI 是为机器学习工程师、平台团队和研究人员设计的,特别是在生产前后需要结构化测试的场景。其应用包括 RAG 质量检查、代理监管、对抗性数据集测试以及对实时 LLM 产品的持续监控。
Lynx在已发布的幻觉检测基准测试中击败GPT-4
Percival助手在代理追踪中标记了20多种失败模式
Glider 3B评审使用带跨度高亮的自定义评分标准
在一个平台上运行实验、日志、追踪及并排比较
现成的对抗数据集如FinanceBench和EnterprisePII
通过自动生成的追踪摘要检测15种代理错误模式
数字世界模型模拟真实软件工作流程以用于训练
开发者级别免费开始,附赠10美元的API额度,无需信用卡。
发布自己的评估模型和基准测试,包括Lynx、Glider和FinanceBench。
覆盖从离线实验到生产日志和追踪的完整评估生命周期。
开发者层级将实验、日志和追踪限制为最近两周。
企业定价和高级安全选项需要预约销售电话。
产品范围涵盖多个服务,可能需要时间来与您的工作流程匹配。
Patronus AI有免费计划吗?
有。Patronus AI提供Developer层级,您可以从app.patronus.ai开始使用,无需信用卡。该层级包含10美元的免费evaluator API积分,支持两个项目,并可访问最近两周的实验、日志和跟踪记录。
Patronus AI的Percival是什么?
Percival是Patronus AI为代理系统提供的评估协助工具。它分析代理跟踪,检测超过20种失败模式,并针对推理和规划错误提出优化建议。平台内还提供聊天助手,方便与Percival互动。
Patronus AI的Lynx是什么?
Lynx是Patronus AI用于RAG系统的幻觉检测模型。官方称Lynx(70B)在已发布的幻觉任务中准确率最高,优于包括GPT-4在内的模型。Lynx提供8B和70B两个版本。
Patronus AI提供哪些数据集?
Patronus AI维护了针对特定用例的现成对抗测试集,包括FinanceBench(1万条金融问答对)、SimpleSafetyTests(针对大型语言模型的安全风险)和EnterprisePII(用于检测企业文本中的敏感业务信息)。
Patronus AI的API定价如何?
Patronus AI对Developer层级实行基于使用量的API收费:每1000次小型evaluator调用收费10美元,每1000次大型evaluator调用收费20美元,每1000次评估解释收费10美元。新Developer账户将获得10美元的免费积分。
Patronus AI有企业部署方案吗?
有。Patronus AI企业方案包括无限制的平台访问、本地或专用VPC部署、定制数据保留、单点登录(SSO)、更高的API调用限额、批量折扣以及定制评估模型微调。具体价格需预约销售洽谈。

