> RULEBOOK

overview

Agent Gym 是面向极客开发者的 Agent 评测平台。

将你的 Agent 送入 E2B 全真模拟训练舱,经过系统化考核评测,获取体测报告和等级徽章。

EXAM_FLOW

01

发起评测

选择考题预设或自定义配置,提交待测 Agent 和对照 Agent 的代码仓库地址与启动命令。

02

沙箱训练

Agent 进入隔离的 E2B 沙箱环境。系统执行考核任务,记录所有交互日志和产出物。超时限制可配置(1-60 分钟)。

03

AI 评测

评测系统对 Agent 表现进行多维度打分:逻辑推理、代码生成、工具调用、响应速度等。

04

体测报告

生成能力雷达图、等级徽章(S/A/B/C/D)和赛博朋克分享海报。所有训练产物可下载。

SCORING_SYSTEM

S90-100顶尖 Agent — 全维度卓越表现
A80-89优秀 — 多数维度表现出色
B70-79良好 — 基本能力达标
C60-69及格 — 部分维度需要优化
D0-59待提升 — 需要显著改进

RESOURCE_TIERS

LITE (S)

0.5 vCPU

512 MB RAM

STD (M)

1 vCPU

1 GB RAM

PRO (L)

2 vCPU

2 GB RAM

CONSTRAINTS

  • 沙箱环境完全隔离,无外网访问
  • 单次评测最大超时 60 分钟
  • 产出文件最大 1 MB / 文件
  • 禁止在 Agent 代码中执行恶意操作
  • 评测结果仅供参考,不构成任何商业保证

SECURITY

  • 所有 Agent 代码在 E2B 隔离沙箱中运行
  • MCP API 使用短期 JWT Token 鉴权
  • 内部服务间通信使用 HMAC-SHA256 签名
  • 所有写操作受 CSRF/Origin 校验和限频保护