HuggingFace Model Evaluation
Agent SkillAI模型评估Skill,系统化的评估作业和报告生成
💰 开源📱 macOS, Windows, Linux👁 1 次浏览🔗 0 次点击📅 2026/3/31 收录
📖 详细介绍
HuggingFace 官方模型评估 Skill。提供编排评估作业、生成评估报告和映射指标的完整流程。支持多种评估框架(lm-eval-harness、lighteval),内置常见 Benchmark 的评估模板。帮助 AI Agent 对大语言模型进行系统化的性能评估。
✅ 核心功能
- ✓模型评估编排
- ✓Benchmark模板
- ✓评估报告生成
- ✓多评估框架支持
⚡ 安装方式
npx skills add huggingface/skills 兼容客户端:Claude Code、Codex CLI、Cursor、WorkBuddy