HuggingFace Model Evaluation

HuggingFace Model Evaluation

Agent Skill

AI模型评估Skill,系统化的评估作业和报告生成

💰 开源📱 macOS, Windows, Linux👁 1 次浏览🔗 0 次点击📅 2026/3/31 收录

📖 详细介绍

HuggingFace 官方模型评估 Skill。提供编排评估作业、生成评估报告和映射指标的完整流程。支持多种评估框架(lm-eval-harness、lighteval),内置常见 Benchmark 的评估模板。帮助 AI Agent 对大语言模型进行系统化的性能评估。

✅ 核心功能

  • 模型评估编排
  • Benchmark模板
  • 评估报告生成
  • 多评估框架支持

⚡ 安装方式

npx skills add huggingface/skills
兼容客户端:Claude Code、Codex CLI、Cursor、WorkBuddy