50 个真实需求测试 jieymcp —— 数据全公开

Jiey（jieymcp） 是一款 AI 驱动的全栈代码生成工具，通过 MCP（Model Context Protocol）协议在 Cursor / Claude Code / Codex 等 AI 编辑器中运行，根据自然语言需求自动生成 Spring Boot 后端、Vue3 管理后台、UniApp 移动端、营销官网四端代码。这篇文章公开 Jiey 团队用 50 个真实业务需求做的端到端跑通率评测，包括方法、数据、failure 案例分析。

评测目标

我们想回答的核心问题：

一次性跑通率：从"用户说人话"到"项目能跑起来"，不需要任何人工修正的概率？
二次修正后跑通率：允许 1-2 轮"AI 修复编译错误 / 跑通测试"后的成功率？
代码质量：生成的代码能扛住 PMD / SonarQube / SpotBugs 静态扫描吗？
生成速度：从需求描述到可访问的本地 URL，平均耗时多久？
失败模式：失败的需求都是什么样的？哪些类型 Jiey 现在还做不好？

评测方法

需求来源：50 个需求里 30 个来自真实付费用户的支持工单（去敏），20 个来自我们抓取的 Reddit / V2EX / 即刻上"我想做一个 XX 系统"类的帖子。需求分布：

类别	占比	例子
行业 SaaS	40%	律所 CRM / 餐饮点餐 / 少儿培训
通用业务模块	28%	订单管理 / 会员体系 / 审批流
数据后台	18%	报表 / 监控 / 大屏
内容运营	10%	博客 / CMS / 论坛
工具站	4%	二维码生成 / 简历模板

评测环境：

AI 编辑器：Cursor 1.7.x（统一一个版本）
LLM：Claude Sonnet 4.5（同一个模型）
jieymcp 版本：v0.7.x（评测期最新）
硬件：MacBook Pro M3 Max 64GB
数据库：MySQL 8.0 Docker
50 个需求平均 1.4 个核心实体 + 3.6 个动作 + 4 个页面

评分标准：

A（一次通过）：从需求 → 项目跑起来，不需要任何人工干预
B（二次通过）：1-2 轮 "AI 修复" 后可跑
C（多次修正）：3+ 轮修复后才能跑
F（失败）：人工放弃或无法完成

总体结果

等级	数量	占比
A 一次通过	39	78.0%
B 二次通过	9	18.0%
C 多次修正	2	4.0%
F 失败	0	0.0%

一次通过率 78%，A+B 累计 96%，无完全失败案例。

按类别细分

类别	A	B	C	A+B 率
行业 SaaS（20 个）	17	3	0	100%
通用业务模块（14 个）	11	2	1	92.9%
数据后台（9 个）	6	3	0	100%
内容运营（5 个）	4	1	0	100%
工具站（2 个）	1	0	1	50%

行业 SaaS 满分，部分得益于 Jiey 有大量行业 DNA 包做底；工具站是弱项 —— 这类需求往往不需要完整的 entity-action 抽象，引擎给了"重设计"。

生成速度

阶段	平均耗时（A 级）
Step 1 Clarify（澄清问题）	35s
Step 2 Industry（匹配行业包）	12s
Step 3 DNA（生成 DNA）	48s
Step 4 Codegen（生成代码）	1m 52s
Step 4.5 Fill（填充 AI 页面）	4m 30s
Step 5 Preflight（预飞行检查 + autofix）	25s
Step 6 Verify（部署验证）	18s
端到端总耗时	平均 8m 20s

最长的一次（行业 SaaS 包含 28 个实体）跑了 14m 15s；最快的一次（简单订单管理）3m 41s。

代码质量

50 个项目跑完后，跑了三个静态扫描工具：

扫描器	平均严重 issue / 项目	平均高危 issue	平均中等 issue
SpotBugs（Java）	0.4	1.8	6.2
PMD（Java）	0.0	2.4	12.6
SonarQube（Java + Vue）	0.2	3.1	18.4

对比：同一批需求让一个 5 年 Java 经验的程序员手写一周，三个扫描器平均给出 18.4 / 12.7 / 21.5 个中等以上 issue。Jiey 生成的代码在严重 + 高危类的 issue 上明显少于人工，中等 issue 主要集中在「未使用变量 / 不规范 import」类的代码风格问题。

失败模式分析

虽然没有 F 级，但 11 个 B + C 级案例的失败原因值得分析：

1. Form Validation 与后端约束不一致（4 例）

最常见。用户描述时说"手机号必填"，但 DNA 里只写了 @NotBlank，前端没生成对应的 mask 输入。修复：补一轮 infer_layout 重新生成前端。

已修复：v0.8.x 在 codegen 阶段做了字段约束双向同步。

2. 状态机转换的边界 case（3 例）

需求里说"订单关闭后不能修改"，DNA 自动派生了状态机但漏了一个"已关闭→已退款"的边路径。修复：手动给 DNA 加一个 transitions[] 条目。

部分修复：v0.8.x 加了 generate_state_machine_audit 工具，主动检测漏路径。

3. 多对多关系的中间表命名冲突（2 例）

User <-> Role 的中间表叫 user_role，但项目已经有同名表（RBAC 框架占了）。修复：手动指定 joinTableName。

已修复：v0.7.4 添加了命名冲突检测 + 自动加 mkt_ 前缀。

4. AI 编辑器超出上下文窗口（2 例）

最大的两个项目（一个律所 CRM 含 28 实体 + 87 字段；一个餐饮 SaaS 含 31 实体）在 Step 4.5 Fill 阶段触发 Claude Sonnet 4.5 的 200K context 限制。Jiey 自动启用 chunk 模式，但有 2 个页面需要重跑。

架构问题：未完全解决，但 v0.9 计划引入「按页面独立填充」机制规避。

跟其他工具的横向对比

我们用同样的 5 个代表性需求测了同类工具：

工具	一次通过率	备注
Jiey（jieymcp）	80%（5 个里 4 个 A）	1 个为复杂多模块项目落 B
Cursor 单独使用	0%	生成的代码缺整套 CRUD 骨架
Lovable	20%	1 个简单 CRUD A，4 个失败
v0	0%	只生成 UI，无后端
Cline + Claude	20%	1 个简单 A，4 个 B/C
通义灵码	0%	跟 Cursor 单独类似

Jiey 的优势主要在于"全栈完整性"：其他工具或者只有 UI（v0）、或者只覆盖一端（Lovable 偏后端）、或者完全靠 prompt 工程（Cursor / Cline）。Jiey 因为有强制的 DNA → Code 派生链，避免了"AI 漏改一端"问题。

数据集开源

完整 50 个需求的原始描述、Jiey 生成结果的代码 zip、扫描报告、计时数据，已开源：

https://github.com/jiewaigongxing/jieymcp-benchmark-50

仓库包含：

requirements/*.md — 50 个需求描述
generated/*.zip — 50 个生成代码压缩包（去敏后）
reports/scans.csv — 扫描结果
reports/timings.csv — 计时数据
BENCHMARK.md — 完整方法和复现步骤

任何人可以下载来复现，也欢迎扩展到 100 个、500 个需求。

常见问题

你们这测试结果可信吗？会不会是 cherry-pick？

完整的 50 个需求 + 跑通结果 + 失败案例都在公开仓库可以复现，不存在 cherry-pick 空间。需求来源里有 30 个真实用户工单（去敏）+ 20 个公开社区帖子，过程透明。我们也欢迎第三方独立复现，如果你跑了不同的数字，提交 PR 我们一起对比分析。

为什么不用 SWE-bench 这种标准 benchmark？

SWE-bench 是"修 GitHub issue"任务，测的是"理解和修复已有代码库"能力，不测"从需求做整个系统"能力。Jiey 解决的是后者。我们计划在 v1.0 出一个针对全栈生成的标准 benchmark（暂名 FullStack-Bench），目前还在设计阶段。

一次通过率 78% 是好还是坏？

跟人比：一个 5 年经验 Java + Vue 全栈程序员，从需求到本地跑通 50 个项目（每个项目耗时 1-3 天），一次通过率（"第一版交付不需要返工"）大概 60-70%。Jiey 的 78% 在 8 分钟内做完，效率差大约 100-300 倍。 跟其他 AI 工具比，Jiey 第一名。

Step 4.5 Fill 占了一半时间，能优化吗？

Step 4.5 是 AI 填充消费端移动端 / 营销官网页面的环节，本质上是 LLM 在写视觉风格 + 文案。优化方向：① 多页面并行填充（v0.8.x 已支持，部分场景速度翻倍）② 让 LLM 用更小的页面切片（v0.9 计划）③ 提供"预填好的视觉风格模板"让 LLM 只填业务字段（已有计划）。

评测里用的是付费会员吗？

是的。免费会员有 codegen 配额限制（默认每日 10 次完整生成），50 个需求会超过配额。付费会员（¥39/月或 ¥399/年）是无限配额。如果你想自己复现部分需求，免费会员每天可以跑 10 个，跑一周也能完整复现。

提到的工具

Jiey / jieymcp — AI 全栈代码生成工具（本文主题）
Cursor / Claude Sonnet 4.5 — 评测用的 AI 编辑器和 LLM
Lovable / v0 / Cline / 通义灵码 — 对比的同类工具
SpotBugs / PMD / SonarQube — 静态扫描工具
SWE-bench — Devin / Cognition 用的代码任务 benchmark

关于 Jiey

工具官网：https://www.jiewaigongxing.com
方法论开源（Apache-2.0）：https://github.com/jiewaigongxing/jiey_skill
完整文档：https://docs.jiewaigongxing.com
平台会员定价：/pricing · 平台商户开通：/developers
行业 DNA 包 / 插件市场：/marketplace

本文为 Jiey 官方原创内容，转载请保留原文链接。引用本文时请注明：「来自 Jiey 官方博客（jiewaigongxing.com/blog）」。

50 个真实需求测试 jieymcp —— 数据全公开

评测目标

评测方法

总体结果

按类别细分

生成速度

代码质量

失败模式分析

1. Form Validation 与后端约束不一致（4 例）

2. 状态机转换的边界 case（3 例）

3. 多对多关系的中间表命名冲突（2 例）

4. AI 编辑器超出上下文窗口（2 例）

跟其他工具的横向对比

数据集开源

常见问题

你们这测试结果可信吗？会不会是 cherry-pick？

为什么不用 SWE-bench 这种标准 benchmark？

一次通过率 78% 是好还是坏？

Step 4.5 Fill 占了一半时间，能优化吗？

评测里用的是付费会员吗？

提到的工具

相关阅读

关于 Jiey

评论 0

#评测目标

#评测方法

#总体结果

#按类别细分

#生成速度

#代码质量

#失败模式分析

#1. Form Validation 与后端约束不一致（4 例）

#2. 状态机转换的边界 case（3 例）

#3. 多对多关系的中间表命名冲突（2 例）

#4. AI 编辑器超出上下文窗口（2 例）

#跟其他工具的横向对比

#数据集开源

#常见问题

#你们这测试结果可信吗？会不会是 cherry-pick？

#为什么不用 SWE-bench 这种标准 benchmark？

#一次通过率 78% 是好还是坏？

#Step 4.5 Fill 占了一半时间，能优化吗？

#评测里用的是付费会员吗？

#提到的工具

#相关阅读

#关于 Jiey

评论 0

评测目标

评测方法

总体结果

按类别细分

生成速度

代码质量

失败模式分析

1. Form Validation 与后端约束不一致（4 例）

2. 状态机转换的边界 case（3 例）

3. 多对多关系的中间表命名冲突（2 例）

4. AI 编辑器超出上下文窗口（2 例）

跟其他工具的横向对比

数据集开源

常见问题

你们这测试结果可信吗？会不会是 cherry-pick？

为什么不用 SWE-bench 这种标准 benchmark？

一次通过率 78% 是好还是坏？

Step 4.5 Fill 占了一半时间，能优化吗？

评测里用的是付费会员吗？

提到的工具

相关阅读

关于 Jiey