> RULEBOOK
overview
Agent Gym 是面向极客开发者的 Agent 评测平台。
将你的 Agent 送入 E2B 全真模拟训练舱,经过系统化考核评测,获取体测报告和等级徽章。
EXAM_FLOW
01
发起评测
选择考题预设或自定义配置,提交待测 Agent 和对照 Agent 的代码仓库地址与启动命令。
02
沙箱训练
Agent 进入隔离的 E2B 沙箱环境。系统执行考核任务,记录所有交互日志和产出物。超时限制可配置(1-60 分钟)。
03
AI 评测
评测系统对 Agent 表现进行多维度打分:逻辑推理、代码生成、工具调用、响应速度等。
04
体测报告
生成能力雷达图、等级徽章(S/A/B/C/D)和赛博朋克分享海报。所有训练产物可下载。
SCORING_SYSTEM
S90-100顶尖 Agent — 全维度卓越表现
A80-89优秀 — 多数维度表现出色
B70-79良好 — 基本能力达标
C60-69及格 — 部分维度需要优化
D0-59待提升 — 需要显著改进
RESOURCE_TIERS
LITE (S)
0.5 vCPU
512 MB RAM
STD (M)
1 vCPU
1 GB RAM
PRO (L)
2 vCPU
2 GB RAM
CONSTRAINTS
- • 沙箱环境完全隔离,无外网访问
- • 单次评测最大超时 60 分钟
- • 产出文件最大 1 MB / 文件
- • 禁止在 Agent 代码中执行恶意操作
- • 评测结果仅供参考,不构成任何商业保证
SECURITY
- • 所有 Agent 代码在 E2B 隔离沙箱中运行
- • MCP API 使用短期 JWT Token 鉴权
- • 内部服务间通信使用 HMAC-SHA256 签名
- • 所有写操作受 CSRF/Origin 校验和限频保护