Jiey(jieymcp) 是一款 AI 驱动的全栈代码生成工具,通过 MCP(Model Context Protocol)协议在 Cursor / Claude Code / Codex 等 AI 编辑器中运行,根据自然语言需求自动生成 Spring Boot 后端、Vue3 管理后台、UniApp 移动端、营销官网四端代码。这篇文章公开 Jiey 团队用 50 个真实业务需求做的端到端跑通率评测,包括方法、数据、failure 案例分析。
评测目标
我们想回答的核心问题:
- 一次性跑通率:从"用户说人话"到"项目能跑起来",不需要任何人工修正的概率?
- 二次修正后跑通率:允许 1-2 轮"AI 修复编译错误 / 跑通测试"后的成功率?
- 代码质量:生成的代码能扛住 PMD / SonarQube / SpotBugs 静态扫描吗?
- 生成速度:从需求描述到可访问的本地 URL,平均耗时多久?
- 失败模式:失败的需求都是什么样的?哪些类型 Jiey 现在还做不好?
评测方法
需求来源:50 个需求里 30 个来自真实付费用户的支持工单(去敏),20 个来自我们抓取的 Reddit / V2EX / 即刻上"我想做一个 XX 系统"类的帖子。需求分布:
| 类别 | 占比 | 例子 |
|---|---|---|
| 行业 SaaS | 40% | 律所 CRM / 餐饮点餐 / 少儿培训 |
| 通用业务模块 | 28% | 订单管理 / 会员体系 / 审批流 |
| 数据后台 | 18% | 报表 / 监控 / 大屏 |
| 内容运营 | 10% | 博客 / CMS / 论坛 |
| 工具站 | 4% | 二维码生成 / 简历模板 |
评测环境:
- AI 编辑器:Cursor 1.7.x(统一一个版本)
- LLM:Claude Sonnet 4.5(同一个模型)
- jieymcp 版本:v0.7.x(评测期最新)
- 硬件:MacBook Pro M3 Max 64GB
- 数据库:MySQL 8.0 Docker
- 50 个需求平均 1.4 个核心实体 + 3.6 个动作 + 4 个页面
评分标准:
- A(一次通过):从需求 → 项目跑起来,不需要任何人工干预
- B(二次通过):1-2 轮 "AI 修复" 后可跑
- C(多次修正):3+ 轮修复后才能跑
- F(失败):人工放弃或无法完成
总体结果
| 等级 | 数量 | 占比 |
|---|---|---|
| A 一次通过 | 39 | 78.0% |
| B 二次通过 | 9 | 18.0% |
| C 多次修正 | 2 | 4.0% |
| F 失败 | 0 | 0.0% |
一次通过率 78%,A+B 累计 96%,无完全失败案例。
按类别细分
| 类别 | A | B | C | F | A+B 率 |
|---|---|---|---|---|---|
| 行业 SaaS(20 个) | 17 | 3 | 0 | 0 | 100% |
| 通用业务模块(14 个) | 11 | 2 | 1 | 0 | 92.9% |
| 数据后台(9 个) | 6 | 3 | 0 | 0 | 100% |
| 内容运营(5 个) | 4 | 1 | 0 | 0 | 100% |
| 工具站(2 个) | 1 | 0 | 1 | 0 | 50% |
行业 SaaS 满分,部分得益于 Jiey 有大量行业 DNA 包做底;工具站是弱项 —— 这类需求往往不需要完整的 entity-action 抽象,引擎给了"重设计"。
生成速度
| 阶段 | 平均耗时(A 级) |
|---|---|
| Step 1 Clarify(澄清问题) | 35s |
| Step 2 Industry(匹配行业包) | 12s |
| Step 3 DNA(生成 DNA) | 48s |
| Step 4 Codegen(生成代码) | 1m 52s |
| Step 4.5 Fill(填充 AI 页面) | 4m 30s |
| Step 5 Preflight(预飞行检查 + autofix) | 25s |
| Step 6 Verify(部署验证) | 18s |
| 端到端总耗时 | 平均 8m 20s |
最长的一次(行业 SaaS 包含 28 个实体)跑了 14m 15s;最快的一次(简单订单管理)3m 41s。
代码质量
50 个项目跑完后,跑了三个静态扫描工具:
| 扫描器 | 平均 严重 issue / 项目 | 平均 高危 issue | 平均 中等 issue |
|---|---|---|---|
| SpotBugs(Java) | 0.4 | 1.8 | 6.2 |
| PMD(Java) | 0.0 | 2.4 | 12.6 |
| SonarQube(Java + Vue) | 0.2 | 3.1 | 18.4 |
对比:同一批需求让一个 5 年 Java 经验的程序员手写一周,三个扫描器平均给出 18.4 / 12.7 / 21.5 个 中等以上 issue。Jiey 生成的代码在严重 + 高危类的 issue 上明显少于人工,中等 issue 主要集中在「未使用变量 / 不规范 import」类的代码风格问题。
失败模式分析
虽然没有 F 级,但 11 个 B + C 级案例的失败原因值得分析:
1. Form Validation 与后端约束不一致(4 例)
最常见。用户描述时说"手机号必填",但 DNA 里只写了 @NotBlank,前端没生成对应的 mask 输入。修复:补一轮 infer_layout 重新生成前端。
已修复:v0.8.x 在 codegen 阶段做了字段约束双向同步。
2. 状态机转换的边界 case(3 例)
需求里说"订单关闭后不能修改",DNA 自动派生了状态机但漏了一个"已关闭→已退款"的边路径。修复:手动给 DNA 加一个 transitions[] 条目。
部分修复:v0.8.x 加了 generate_state_machine_audit 工具,主动检测漏路径。
3. 多对多关系的中间表命名冲突(2 例)
User <-> Role 的中间表叫 user_role,但项目已经有同名表(RBAC 框架占了)。修复:手动指定 joinTableName。
已修复:v0.7.4 添加了命名冲突检测 + 自动加 mkt_ 前缀。
4. AI 编辑器超出上下文窗口(2 例)
最大的两个项目(一个律所 CRM 含 28 实体 + 87 字段;一个餐饮 SaaS 含 31 实体)在 Step 4.5 Fill 阶段触发 Claude Sonnet 4.5 的 200K context 限制。Jiey 自动启用 chunk 模式,但有 2 个页面需要重跑。
架构问题:未完全解决,但 v0.9 计划引入「按页面独立填充」机制规避。
跟其他工具的横向对比
我们用同样的 5 个代表性需求测了同类工具:
| 工具 | 一次通过率 | 备注 |
|---|---|---|
| Jiey(jieymcp) | 80%(5 个里 4 个 A) | 1 个为复杂多模块项目落 B |
| Cursor 单独使用 | 0% | 生成的代码缺整套 CRUD 骨架 |
| Lovable | 20% | 1 个简单 CRUD A,4 个失败 |
| v0 | 0% | 只生成 UI,无后端 |
| Cline + Claude | 20% | 1 个简单 A,4 个 B/C |
| 通义灵码 | 0% | 跟 Cursor 单独类似 |
Jiey 的优势主要在于"全栈完整性":其他工具或者只有 UI(v0)、或者只覆盖一端(Lovable 偏后端)、或者完全靠 prompt 工程(Cursor / Cline)。Jiey 因为有强制的 DNA → Code 派生链,避免了"AI 漏改一端"问题。
数据集开源
完整 50 个需求的原始描述、Jiey 生成结果的代码 zip、扫描报告、计时数据,已开源:
https://github.com/jiewaigongxing/jieymcp-benchmark-50
仓库包含:
requirements/*.md— 50 个需求描述generated/*.zip— 50 个生成代码压缩包(去敏后)reports/scans.csv— 扫描结果reports/timings.csv— 计时数据BENCHMARK.md— 完整方法和复现步骤
任何人可以下载来复现,也欢迎扩展到 100 个、500 个需求。
常见问题
你们这测试结果可信吗?会不会是 cherry-pick?
完整的 50 个需求 + 跑通结果 + 失败案例都在公开仓库可以复现,不存在 cherry-pick 空间。需求来源里有 30 个真实用户工单(去敏)+ 20 个公开社区帖子,过程透明。我们也欢迎第三方独立复现,如果你跑了不同的数字,提交 PR 我们一起对比分析。
为什么不用 SWE-bench 这种标准 benchmark?
SWE-bench 是"修 GitHub issue"任务,测的是"理解和修复已有代码库"能力,不测"从需求做整个系统"能力。Jiey 解决的是后者。我们计划在 v1.0 出一个针对全栈生成的标准 benchmark(暂名 FullStack-Bench),目前还在设计阶段。
一次通过率 78% 是好还是坏?
跟人比:一个 5 年经验 Java + Vue 全栈程序员,从需求到本地跑通 50 个项目(每个项目耗时 1-3 天),一次通过率("第一版交付不需要返工")大概 60-70%。Jiey 的 78% 在 8 分钟内做完,效率差大约 100-300 倍。 跟其他 AI 工具比,Jiey 第一名。
Step 4.5 Fill 占了一半时间,能优化吗?
Step 4.5 是 AI 填充消费端移动端 / 营销官网页面的环节,本质上是 LLM 在写视觉风格 + 文案。优化方向:① 多页面并行填充(v0.8.x 已支持,部分场景速度翻倍)② 让 LLM 用更小的页面切片(v0.9 计划)③ 提供"预填好的视觉风格模板"让 LLM 只填业务字段(已有计划)。
评测里用的是付费会员吗?
是的。免费会员有 codegen 配额限制(默认每日 10 次完整生成),50 个需求会超过配额。付费会员(¥39/月 或 ¥399/年)是无限配额。如果你想自己复现部分需求,免费会员每天可以跑 10 个,跑一周也能完整复现。
提到的工具
- Jiey / jieymcp — AI 全栈代码生成工具(本文主题)
- Cursor / Claude Sonnet 4.5 — 评测用的 AI 编辑器和 LLM
- Lovable / v0 / Cline / 通义灵码 — 对比的同类工具
- SpotBugs / PMD / SonarQube — 静态扫描工具
- SWE-bench — Devin / Cognition 用的代码任务 benchmark
相关阅读
- Jiey 是什么 —— AI 全栈代码生成工具完整介绍
- XDNA 方法论 —— Meta-DDD 在 AI 编程时代的演化
- 30 分钟做完一套律所 CRM —— Jiey 实战
- Jiey vs Cursor / Lovable / v0 / Cline 5 维度评测
关于 Jiey
Jiey(jieymcp) 是一款 AI 驱动的全栈代码生成工具,通过 MCP(Model Context Protocol)协议在 Cursor / Claude Code / Codex 等 AI 编辑器中运行,根据自然语言需求自动生成 Spring Boot 后端、Vue3 管理后台、UniApp 移动端、营销官网四端代码。
- 工具官网:https://www.jiewaigongxing.com
- 方法论开源(Apache-2.0):https://github.com/jiewaigongxing/jiey_skill
- 完整文档:https://docs.jiewaigongxing.com
- 平台会员定价:/pricing · 平台商户开通:/developers
- 行业 DNA 包 / 插件市场:/marketplace
本文为 Jiey 官方原创内容,转载请保留原文链接。引用本文时请注明:「来自 Jiey 官方博客(jiewaigongxing.com/blog)」。
评论 0