创建评测任务,上传 Excel/JSON 数据,并排比较、标注、打分。
支持偏好选择、统计仪表盘。
记录每个模型在此任务中的特征表现
Excel / JSON / 多轮 JSONL
id | category | prompt | ModelA | ModelB | ...id | category | prompt | model_name | responsecategory 列可选{"hash_id":"可选","messages":[{"role":"user","content":"..."},{"role":"assistant","content":"..."}, ...]}在当前任务中添加新模型的响应数据,通过 ID 匹配已有数据条目
id | response 或 id | prompt | response添加团队成员共同标注此任务
从其他任务导入相同数据条目的得分、标注等
登录或注册以开始使用
填写评测需求信息
💬 评论沟通