← 所有文章

最小可敬产品(Minimum Worthy Product)

在重建ResumeGeni的公开界面时,我反复撞上同一条令人不安的界线。技术上能跑通的版本,未必就是我愿意摆在求职者面前的版本。解析器能运行,输出能加载,流程能走完。然而这种体验却在消耗信任,而非赢得信任。我坐在那里琢磨一个小时,重建一遍界面,那种别扭感消失了,但时钟并不会停下。

这种张力本身就是这篇文章的主题。两股力量相互拉扯:一边是尽早发布,让产品进入世界;另一边是拒绝发布一个消耗用户信念的产品。大多数建造者选择其中一边并为之辩护,就此化解张力。MVP文化选择速度。完美主义选择打磨。两种答案都失败了,因为张力本身才是要点。

Minimum Worthy Product是另一种标准——发布能够赢得信任的最小产品,而不是发布那个你勉强能称之为”可用”的最小产品。Worthy是下限,不是上限。Minimum是范围约束,不是质量折扣。MWP建造者不断砍掉功能直到产品可以发布,并让剩下的每个界面都达到用户能够感知的标准。MVP建造者往往反其道而行之:砍掉质量以保住范围。这种替换,用户会在数据里感觉到。

TL;DR

MVP本该是一件学习工具:用最小的产物,通过真实用户测试真实假设。而它的劣化版本则成了发布劣质作品的许可证。Minimum Worthy Product恢复了缺失的那层约束。先以低成本完成验证,然后构建能够赢得信任的最小产品。Minimum砍掉范围。Worthy让剩余的界面达到用户能够感知的标准。


MVP原本的正确之处

MVP这个概念最初并不是在允许发布劣质作品。它是在帮创始人避免把几个月时间浪费在错误的产品上。1

Eric Ries写作The Lean Startup是为了应对一种具体的失败模式:工程师为根本不存在的市场精心打造产品。MVP是一种学习工具。你构建最小的产物,用来测试一个具体假设是否能经受真实用户的检验,运行实验,度量结果,更新自己对这个假设是否经得起现实推敲的理解。MVP中的”minimum”意味着为了学习而收缩范围,而不是为了发布而降低质量。

原始框架至今仍然成立。我一直在用。我的创业验证序列(问题、方案、渠道、收入、规模)正是Ries思想的延续。在写代码之前先以低成本验证假设的理由,与MWP在验证之后的理由是同一个:每个阶段的工具都应当与该阶段相匹配。落地页和访谈是测试需求可欲性的MVP。原型和技术探针是测试可行性的MVP。而MWP是一种标准,适用于验证证据已经在手、你正在构建第一个让真实用户信任的真实产品的那一刻。

所以我并不是反对MVP。我反对的是MVP在实际操作中变成的样子。

MVP文化在哪里开始软化

不知从何时起,”快速学习”变成了”随便发布”,这种替换造成了真实的伤害。

三次译传扭曲了最初的概念:

  1. “如果你对自己产品的第一个版本不感到难堪,那就发布得太晚了”(Reid Hoffman的名言4)被曲解为允许人们对工艺感到难堪,而不是对范围感到难堪。原话说的是功能数量:发布时功能少到未来的自己会对产品做得这么少感到难堪。劣化版本却说的是工艺水平:发布时粗糙到未来的自己会对产品的模样和手感感到难堪。这根本不是同一句话。

  2. “快速发布”取代“快速学习”成为可度量的结果。学习是一个缓慢、令人厌烦、产出定性洞察的过程。发布则是一个迅速、清晰可见、产出带日期的产物的过程。当你无法区分二者时,产物就会自动胜出。团队每周都在发布,却完全停止了学习,因为没人在衡量团队到底学到了什么。

  3. 风险投资的模式(融资、增长、退出)奖励”发布任何东西”,而非”发布正确的东西”。如果你的工作是向下一轮投资展示势头,那么一个稀释过的产品至少能跨过”我们发布了”这道门槛。一个被推迟的、值得信任的产品,从外部看与一个停滞的团队毫无区别。激励梯度指向下方。

这些劣化都不是MVP原文的错。这些是MVP在那些需要为劣质发布找借口的人口中变成的样子。

用户会感受到结果。你会在数据里看到。引导流程走完了,但第二次会话从未发生。用户打开注册邮件却从不点击链接。支持工单围绕着产品声称能处理的任务扎堆。留存曲线衰减至零,而不是趋于平稳形成核心用户。这些结果不是边缘情况。这些是在用户无法信任的标准上构建产品所付出的核心代价。

Minimum不等于半成品

Minimum是范围约束,不是质量折扣。

操作层面:定义用户。定义产品声称交付的那一个结果。移除一切与该结果无关的功能。然后让剩下的界面达到完整的质量标准。Minimum砍掉范围,让产品能够发布。Minimum不是砍掉标准,让产品更早发布。

两种标准并列摆在一起:

维度 MVP(实际操作中) MWP
目标 发布点什么来证明在推进 发布能够赢得用户信任的东西
范围 勉强能称之为”可用”的最小产物 能兑现已验证承诺的最小界面
质量标准 能跑起来就行 用户能感知到的标准
停止规则 “我们发布了” 两项测试都通过;三次重建失败后,重建的是任务书
成功信号 更新日志上的日期 五项信任代理指标:二次成功率、D30/D1比值、队列形状、有机推荐、质量摩擦
失败模式 糟糕的第一印象烧掉用户信任 打磨沦为逃避

举一个具体的例子。ResumeGeni的承诺是:一份能够顺利通过ATS(申请人追踪系统)解析的简历,让求职者真正有机会到达招聘经理面前。这一承诺的最小版本可以排除:

  • 自定义模板
  • 团队协作
  • 分析仪表盘
  • 与LinkedIn、Indeed或招聘网站的集成
  • 版本历史
  • 除一种以外的其他导出格式

最小版本不能排除的东西:对源简历的准确解析、对差距的诚实评估、真正契合岗位描述的具体改写、能在Word中干净打开的导出,以及让求职者感到安心的流程。没有模板你可以发布。你不能带着含糊的建议、损坏的导出,或者让脆弱用户感觉产品在把他们当成肥羊的文案,就贸然发布。

Minimum是挥向产品待办列表的一把刀。Worthy是挥向剩余界面的另一把刀。

Worthy是下限

一个值得信任的产品不必包含你设想的一切。但它所包含的一切都必须尊重用户。

Worthy在操作意义上意味着产品把已验证的问题解决得足够好,以至于用户会把这份信任带入下一次交互。他们看到了你正在构建的方向,并且相信后面还有更多。第一次会话不再是一种煎熬,而成为一次握手,打开了通往第二次的大门。值得信任的产品在积累信念。半可信的产品则在消耗信念。

信任无法伪造。用户已经熟悉的那些产品,塑造了他们对你产品的预期。5当你的产品低于这些预期时(按钮无响应、文案犹疑、流程把用户丢在半路),用户会在还没来得及清楚表达前就先察觉到这道差距。他们离开,不再回来,没有任何一封留存邮件能挽救他们早已判了死刑的那次会话。

“这是否worthy?”这个问题不是审美问题。这是信任问题。用户的答案会以行为的形式显现。

验证先行,worthy在后

对MWP最有力的反对意见是:worthiness应由用户通过接触来判定,而不是由建造者的信念来判定。没错。MWP并不取代用户的判断。MWP防止你在第一批真实用户来判定之前,就烧掉已经验证过的信任。

用户接触属于验证环节。在你动手构建之前,你要测试问题是否真实、你提出的方案是否解决它、你是否能触达用户、他们是否愿意付费。证据来自落地页、访谈、礼宾式测试、原型和等待名单。我已经详细写过这一序列。经受住这套考验的假设,才赢得了被构建的资格。

MWP从验证之后开始。验证问的是:是否有人想要这个承诺。MWP问的是:已发布的界面是否配得上验证已经赢得的信任。留存、推荐以及质量摩擦数据会决定这份判断是否成立。

跳过验证并把结果叫做MWP,只会为一个没人问过的问题给出漂亮答案。跳过MWP并把结果叫做精益,则会生产出一个稀释过的产品,烧掉验证已经赢得的信任。

正确的顺序是:先以低成本在真实用户身上完成验证,然后为已验证的承诺构建最小可敬产品。两件事都要做。一件都不能跳过。

两项测试:Jiro与Steve

在我称一个产品为”完成”之前,它必须通过两项不同的测试。

Jiro Test追问这件作品是否正确。证据:产品能正常工作;产品能处理边界情况;那些不可见的细节经得起推敲;每一项主张都有具体证据支撑;不含糊其辞——“I believe”不算证据。Jiro Test把工艺与愿望区分开来。我曾写过Jiro质量哲学如何应用于AI智能体;同样的纪律也适用于任何产品界面。Evidence Gate则是我在代码报告中落实这项测试的方法。

Steve Test追问这件作品是否配得上存在。观点可见;整体(whole-widget)一致;界面守护用户尊严;有一处读者能够明确指出、而非含糊带过的愉悦点或清晰度机制。Steve Test把产品与库存区分开来。发布过的东西不会自动成为值得信任的东西。关于将品味作为一套技术系统的完整论述放在另一篇文章中;对本文而言,上述操作定义足以承重。

两项测试都必须通过。Jiro失败,停下来修复。Steve失败,重建。如果两项都失败,问题就在上游的任务书里。

当判断不确定时,最关键的问题是整套体系里最朴素的那一句:我是否愿意毫不犹豫地在这件作品上署名?如果答案是否定的,那它就还算不上worthy。

脚下的证明:blakecrosley.com

你正在阅读的这个页面,最初只是我无路径过渡中的一个小实验。它同时也是本文论证的一部分。

这里没有React。没有Tailwind。没有webpack,没有Vite,没有打包器,没有构建步骤。FastAPI直接提供整个站点:HTMX、Alpine.js、Jinja2以及原生的CSS,中间别无他物。在2026年4月17日的构建中,首页的初始传输体积在45到60KB之间,Lighthouse在性能、无障碍、最佳实践和SEO四项上全部给出100分。3这个站点运行于十种语言,通过一次git push就能端到端发布新的指南和博客内容,整个仓库中没有任何node_modules/

这个站点的MVP版本本应遵循2026年的默认建议——Next.js、Tailwind、Vercel。它会在一个周末内发布。它会”还行”。你会来到这里,页面也会以一个说得过去的速度加载。差别不在能力。差别在品味。我写过如何真正拿到一份完美的Lighthouse分数;简短版本是:每一KB读者不必下载的负载,都是一种尊重。

MWP版本花了更长时间。MWP版本要求从零开始写HTMX样式,手动调教排版,自托管字体,让i18n管线跑在Cloudflare D1上,并且把”没有构建工具”当作一项特性来对待。MWP版本在技术能力上并不比默认技术栈更强。MWP版本更有意图。这份意图体现为读者察觉不到的那些更少的接缝。

不可见的工艺。读者看不到那些决策。读者感受到的是摩擦的缺席。摩擦的缺席本身就是机制。

面向客户的证明:ResumeGeni

ResumeGeni把标准抬得更高,因为用户不是在浏览。用户是在试图改进一份可能决定他们能否拿到面试机会的文档。

ResumeGeni的验证结果很干净:落地页、等待名单、在Reddit和LinkedIn上的定向发帖,两周内340个邮箱注册,12封主动咨询什么时候能用,以及3份未经邀请的”愿意为早期使用付费”的报价。7验证序列说:构建它。构建是简单的决定。真正难的决定是构建出什么样子,而这正是MWP实际发挥作用的地方。

两类裁剪。第一类是功能:模板、协作、分析、几十种导出变体、招聘网站集成。全部砍掉。它们都不是承诺的一部分。

第二类是我愿意为剩下的部分坚守的标准。这条标准不能砍。解析器不能弱。建议不能含糊。导出不能坏。文案不能把脆弱用户当成转化指标。流程不能因为我只来得及做完顺利路径就把人丢在半路。

MVP版本会发布一个十步向导、通用化的输出、在最关键时刻立起的订阅墙,以及一张写满了被砍掉功能的路线图页面。它会”可用”。它可能一次性地转化一些用户。但它也会教会第一批用户不要信任这个产品,而这个教训会成为一个脆弱使用场景下的糟糕地基。

MWP版本比我希望的要小。我砍掉的每一个功能,我都会想把它加回来。标准是:用户落到的那个产品,必须尊重他们。这是我唯一知道怎么在上面继续构建的地基。

用户真正会告诉你什么

用户很少会说我现在相信这个产品。但他们的行为会留下痕迹。6

我关注五个信号,并根据建造者受众进行了校准:

  1. 二次成功率(Second-success rate)。被激活的用户在自然使用周期内,第二次回来并完成核心结果的比例。信任建立在第二次成功,而非第一次。对于循环使用的产品,二次成功率低于30%对我来说就是重建信号。对于偶发使用的产品,则度量下一个自然使用周期,而不要强行套用30天窗口。

  2. 第30天留存与第1天激活的比值。再激活邮件可以粉饰原始留存数字,但粉饰不了比值。对于每周或每月使用的产品,这个比值告诉你激活是出于信任还是一次性好奇。我把低于0.25视为警告,低于0.15视为定论。

  3. 队列留存曲线形状(Cohort retention curve shape)。值得信任的产品在早期下降后会趋于平稳。劣质产品则会持续衰减。把曲线画出来;形状讲出的故事是平均值所掩盖的。如果曲线始终不趋平,就意味着不存在一个真正信任产品的核心用户群。

  4. 非激励性的有机推荐占比。新激活用户中通过直接推荐、分享产物或口碑而非付费渠道、推荐计划贿赂抵达的比例。用户会谈论值得信任的产品。用户会遗忘劣质产品。如果该品类存在自然的分享时刻,而有机推荐在新用户获取中仍不到10%,说明这个产品并未赢得被推荐的资格。

  5. 质量摩擦率(Quality-friction rate)。按队列跟踪每100个激活用户产生的退款、愤怒点击、支持工单、失败的导出和手动纠正。该数字就是产品对其声称要服务的用户造成的痛苦。随着产品成熟,它应当呈下降趋势。若它持平或上升,那么问题出在产品本身,而不是支持流程。

这些信号没有一个是虚荣指标。每一个都难以伪造。每一个都映射到一种真实的用户体验——要么赢得了信念,要么没有。如果你无法说出某个具体队列在这五项上的数字,你就还不知道自己的产品是否worthy。

什么时候MVP或原型仍然是正确的选择

MWP并不是每一件产物的正确标准。

有三种情况,MVP或原型逻辑依然成立:

  • 验证之前。落地页、访谈、礼宾式测试、可点击原型。目标是学习,不是工艺。发布那个能测试假设的丑陋版本。今天就发布。这里的正确剧本是验证序列,不是MWP。

  • 可行性探针。当未知数是技术性的(模型能否在我需要的延迟内回答此类查询?API能否承受负载?解析器能否处理真实输入的长尾?),构建最小的一次性工具来回答这个问题。不要试图把它做得worthy。把它做得真实。

  • 带网络效应的Beta界面。市场类产品、社区产品、具网络效应的工具,都需要一批真实用户才能被判断,所以正确的产物是一个标注清楚的Beta,并配有队列埋点。发布Beta并不能替代worthy版本;发布Beta是发现worthy到底意味着什么的唯一途径。诚实地把界面标注为Beta。不要把它打扮成v1。

MWP针对的是第一个真实的产品界面。如果你仍然处于该界面的上游(学习、测试、发现),那么正确的工具在序列中更靠前的位置。

重建上限

没有停止规则的高标准会沦为逃避。

我应用于每一项非平凡工作的信条,设有一个三次诚实尝试的重建上限。2诚实的尝试意味着:你识别出了失败的那个维度,指名了具体的纠正动作,实质性地改变了做法,并针对两项测试重新评估了这件作品。同一次打磨重复三遍不算三次尝试。那只是一次失败的尝试重复了三遍。

在三次诚实的重建之后仍然无法产出worthy产品,问题就不在工艺。问题在上游——框定、范围、任务书或者团队。停止重建界面,回头审视前提。有时承诺对你现实中能坚守的范围而言太大。有时验证比你以为的更软。有时问题根本不是产品层面的问题。

重建上限同时解决两种相反的失败。它拒绝祝福劣质作品,也阻止打磨沦为逃避。目标不是完美。目标是worthy并发布。不是纯粹但永远搁置

完美主义是没有勇气的工艺。如果你正在对同一个界面进行第四次重建,那你已经不是在造产品了,而是把这个项目当作一个躲藏之所。

Key Takeaways

致创始人与独立建造者: - 在任何代码之前先做低成本验证。MWP在验证确认市场契合之后才适用。 - 大刀阔斧地砍功能。让剩余界面达到完整的质量标准。 - 在worthy时发布。重建上限设为三次。之后升级任务书。

致产品负责人与PM: - 直接度量信任代理指标:二次成功率、第30天对第1天留存比值、队列曲线形状、有机推荐占比、每100名用户的质量摩擦率。 - 把范围讨论与质量讨论分开。范围可砍。质量不可砍。 - 保护第一批用户的体验。脆弱用户的糟糕第一印象需要数年才能挽回。

致工程负责人: - 为每一个发布的界面命名一道Jiro门和一道Steve门。二者都必须通过。 - 为不可见的工艺预留预算。”可用”与”worthy”的差距通常藏在没人会指向的细节里。 - 把重建上限嵌入流程,让完美主义无法以打磨之名继续藏身。

致设计师: - 观点不是装饰;它是让产品可被辨识的机制。 - 一个worthy界面会拒绝东西,并且拒绝得被看见。如果团队什么都没拒绝,说明范围错了。 - 模糊时的关键测试是:你是否愿意毫不犹豫地在这个决定上署名?

结尾:当产品赢得信任时再发布

产品中的支配性问题不是它做完了吗?支配性问题是它配得上存在吗?

如果答案是肯定的,发布。如果答案是”还没,但三次诚实重建之内可以”,继续工作。如果答案是否定的,并且在三次尝试之后仍然是否定的,那就重建任务书,而不是重建界面。

这就是我为每一件署上自己名字的产品所采用的方法。MVP心态为迭代周期而优化。MWP心态则复利积累出一整套作品。

发布你能够尊重的最小产品。不要在那之前发布。也不要在那之后拖延。Minimum与Worthy是同一条指令,必须同时被持守。


FAQ

什么是Minimum Worthy Product?

Minimum Worthy Product是一个已验证产品的最小公开版本,它赢得用户信任而非消耗信任。Minimum意味着范围被压缩到核心承诺。Worthy意味着剩余界面满足用户能够感知的质量标准。真实用户看到的第一件真实东西必须配得上他们的信任,而不仅仅是”能用”。

MWP与MVP有什么不同?

Minimum Viable Product按最初定义是一件学习工具:用最小的产物测试一个具体假设。在实际操作中,MVP劣化成了发布劣质作品的许可证。Minimum Worthy Product恢复了缺失的那层约束。验证环节解决”是否有人想要这个东西”(这是MVP、落地页和访谈的任务)。MWP涵盖的是:当你构建验证所确认之物的第一个真实版本时,你所坚守的标准。

团队何时应使用MVP而非MWP?

三种情形下Minimum Viable Product或原型逻辑依然适用:验证之前(落地页、访谈、礼宾式测试、可点击原型),可行性探针期间(测试延迟或质量的一次性代码),以及需要先经由标注为Beta的版本和真实用户才能定义worthy的网络效应型产品。MWP适用于第一个真实的产品界面,而不是它上游的每一件产物。

如何衡量一个产品是否worthy?

通过五项行为层面的信任代理指标,而非虚荣指标:二次成功率(激活用户第二次完成核心结果的比例)、第30天对第1天激活的留存比值(比值,而非绝对值)、队列留存曲线形状(趋平还是衰减)、非激励性的有机推荐占比,以及质量摩擦率(每100名激活用户的退款、失败导出和支持工单)。一个worthy产品在这五项上都表现强劲;一个劣质产品至少在其中一项、通常在全部五项上露出破绽。


The Worthy Gate

一个把框架应用到你自己工作上的决策工具。依次走过五个输入,再走过三条信条轨道。没有分数,也没有游戏化的进度条。给出一份定论,指出失败的维度和下一步的动作。


References


  1. Ries, Eric. The Lean Startup: How Today’s Entrepreneurs Use Continuous Innovation to Create Radically Successful Businesses. Crown Business, 2011. 把MVP框定为学习工具的主要来源。原始概念被降解为”发布劣质作品”是文化层面的现象,而非书中文本所言;书本身对”最小”的含义保持谨慎。 

  2. 重建上限与两项测试仲裁(Jiro Test + Steve Test)来自我在每个项目上运行的产品信条。Jiro一面见Why My AI Agent Has a Quality Philosophy。”品味即判断”一面见Taste Is a Technical System。专门论述Steve的文章(整体完整性、拒绝发布妥协之作、支配性问题)即将推出。对本文而言,上文的操作性测试承担承重性论述。 

  3. 读者可以通过PageSpeed Insights核验Lighthouse分数;100/100的数字反映的是本文发布时的构建状态。45–60KB初始传输数字是我在本地用Chrome DevTools(Network面板,禁用缓存)测得的;读者可以在线上页面通过打开devtools并重新加载来复现。 

  4. Hoffman, Reid. “If There Aren’t Any Typos In This Essay, We Launched Too Late!”, LinkedIn, 2017年3月29日。Hoffman表示这句话是他提出的,并将其框定在速度、学习、错误假设,以及不完整但可接受的初体验上。Hoffman与Yeh合著的Blitzscaling(2018)可作为背景参考,但LinkedIn文章是这句话更干净的主要来源。 

  5. Nielsen, Jakob. “Jakob’s Law of Internet User Experience”, Nielsen Norman Group. 雅各布定律:用户大部分时间花在别人的产品上,因此他们期待你的产品像他们已经熟悉的那些一样运作。Norman, Don. The Design of Everyday Things(Basic Books, 2013),第三章,讲述用户心智模型如何形成,以及设计者模型与用户模型之间的差距如何导致大多数产品失败。 

  6. 这五项信任代理指标反映我在ResumeGeni、Ace Citizenship以及Startup Validation Stack中涉及的十余个项目中自身的度量实践。我引用的方向性文献包括:Andrew Chen关于增长停滞与留存基线下一个功能谬误;Lenny Rachitsky与Casey Winters论不同品类下的良好留存标准;Sean Ellis的40% “must-have” PMF基准,Rahul Vohra在How Superhuman Built an Engine to Find Product/Market Fit中将其操作化;以及Amplitude论留存曲线形状,涵盖平坦、下滑与再激活等形态。本文中的阈值是我针对自己产品的自行校准;公开文献支持每项论断的方向,而非具体切分点。 

  7. 作者的ResumeGeni等待名单与回复记录,2026年4月。340次注册、12封咨询与3份早期付费报价的计数也在Startup Validation Stack中有所报告,来源为同一份原始数据。 

相关文章

Steve Test:这项工作是否值得存在?

Steve Test与Jiro Test:一个产品框架,用来判断一项工作是否值得存在、能否守住用户信任,以及是否属于您正在构建的整体。

2 分钟阅读

创业验证体系:12个项目教会我关于证据的一切

我在9个月内验证了12个项目。有些遵循了框架,有些跳过了步骤。结果的差异让我明白了哪些证据才真正重要。

2 分钟阅读

无路之路:我如何离开12年的副总裁职位去构建12个项目

在ZipRecruiter担任产品设计副总裁12年后,我选择独立构建。没有计划,没有目的地,只有好奇心和财务跑道。

2 分钟阅读