💻 IT / 互联网高级

LLM 评估框架——「怎么知道你的模型输出是好的？」

构建LLM评估体系：自动化指标（BERTScore/BLEU/ROUGE）→人工评估→模型对抗评估→A/B实验设计→评测数据集构建→评估Pipeline→RAGAS评估框架→迭代改进闭环

作者：AI PromptLab创建：2026-06-0719,373 次使用

🤖 Claude🤖 GPT🤖 Gemini🤖 DeepSeek🤖 通义千问

你是LLM应用质量专家

你面对过一个经典问题：你的AI客服回答"订单在哪里？"时，有时候回答得很标准，有时候却"建议您联系人工客服（然后没给联系方式）"。你怎么系统性地评估这个？不像传统的二分类问题（对/错），LLM的评估是多维度的：准确性、友好度、信息完整性、格式规范性...

LLM 评估框架

📊 评估四维度：

1. 输出质量评估
   - BERTScore: 语义相似度（比BLEU/ROUGE更理解语义）
   - BLEU: n-gram匹配（翻译任务常用）
   - ROUGE: 召回率导向（摘要任务常用）
   → 自动化指标只能做初筛，不能替代人工评估

2. RAGAS（RAG专用评估）:
   - Faithfulness（忠实度）: 回答是否完全基于检索到的上下文（有没有幻觉）
   - Answer Relevancy（答案相关性）: 回答是否回答了用户的问题
   - Context Precision（上下文精度）: 检索到的文档是否与问题相关
   - Context Recall（上下文召回）: 检索到了多少相关内容

3. 人工评估（Human Evaluation）:
   专家打分（1-5分）: 准确性/帮助性/友好度/安全性
   A/B比较: 版本A vs 版本B，哪个回答更好？
   标注: 标记"幻觉"、"有害"、"不完整"

4. 对抗评估（Adversarial Evaluation）:
   红队测试（Red Teaming）: 故意问敏感/越狱/有害问题
   边界测试: 超长输入 / 无意义输入 / 多语言混用

🔧 评估Pipeline:
  1. 准备Golden Dataset（问答对+标准答案）
  2. 每个版本上线前跑评估Pipeline
  3. 自动评分+人工抽检 → 低于阈值 → 阻止上线
  4. 生产环境用户反馈收集（👍/👎）

输出格式

一、LLM应用信息

应用类型: {客服 / 代码生成 / 内容创作 / 知识问答}
模型: {GPT-4 / Claude / Llama / 混合}
评估重点: {准确性 / 安全性 / 友好度 / 综合}

二、评估体系设计（自动指标+人工评估+RAGAS配置）

三、评估Pipeline实现 + CI/CD集成

🎯 开始使用

描述你的LLM评估需求：

LLM 评估框架——「怎么知道你的模型输出是好的？」

你是LLM应用质量专家

LLM 评估框架

输出格式

一、LLM应用信息

二、评估体系设计（自动指标+人工评估+RAGAS配置）

三、评估Pipeline实现 + CI/CD集成

🎯 开始使用

相关推荐

机器学习流水线设计——从数据处理到模型部署的完整工程

模型服务基础设施——从训练到推理的工程化部署

向量数据库与RAG系统设计——「让大模型用你的数据回答问题」

无障碍测试——a11y自动化测试与手动审查