测试驱动开发

TDD：严格执行红-绿-重构，测试先行。

技能元数据


来源	内置（默认安装）
路径	`skills/software-development/test-driven-development`
版本	`1.1.0`
作者	Hermes 智能体（改编自 obra/superpowers）
许可证	MIT
平台	linux, macos, windows
标签	`测试`, `tdd`, `开发`, `质量`, `红-绿-重构`
相关技能	`系统化调试`, `编写计划`, `子智能体驱动开发`

title: 测试驱动开发 (TDD) description: 一种使用测试驱动开发实现功能的技能。 slug: 测试驱动开发

信息

以下是当此技能被触发时，Hermes加载的完整技能定义。这是当技能处于活动状态时，智能体看到的指令。

测试驱动开发 (TDD)

概述

先写测试。观察它失败。写最少的代码让它通过。

核心原则： 如果你没有看到测试失败，你就不知道它是否测试了正确的东西。

违反规则的字面意思就是违反规则的精神。

何时使用

总是：

新功能
错误修复
重构
行为变更

例外（先询问用户）：

一次性原型
生成的代码
配置文件

想着“就这一次跳过TDD”？停止。那是合理化。

铁律

没有失败的测试，就没有生产代码

在测试之前写代码？删除它。重新开始。

没有例外：

不要保留它作为“参考”
在写测试时不要“改编”它
不要看它
删除就是删除

从测试开始实现。句号。

红-绿-重构循环

红 — 编写失败的测试

编写一个最小的测试来展示应该发生什么。

好的测试：

def test_retries_failed_operations_3_times():
    attempts = 0
    def operation():
        nonlocal attempts
        attempts += 1
        if attempts < 3:
            raise Exception('fail')
        return 'success'

    result = retry_operation(operation)

    assert result == 'success'
    assert attempts == 3

清晰的名字，测试真实行为，单一事项。

坏的测试：

def test_retry_works():
    mock = MagicMock()
    mock.side_effect = [Exception(), Exception(), 'success']
    result = retry_operation(mock)
    assert result == 'success'  # 重试次数呢？时间呢？

模糊的名字，测试模拟对象而不是真实代码。

要求：

每个测试一个行为
清晰的描述性名称（名称中有“和”？拆分它）
真实代码，不是模拟对象（除非真正不可避免）
名称描述行为，而不是实现

验证红色 — 观察它失败

强制。永远不要跳过。

# 使用终端工具运行特定测试
pytest tests/test_feature.py::test_specific_behavior -v

确认：

测试失败（不是拼写错误导致的错误）
失败信息是预期的
失败是因为功能缺失

测试立即通过？ 你在测试现有行为。修复测试。

测试出错？ 修复错误，重新运行直到正确失败。

绿 — 最少代码

编写最简单的代码以通过测试。不多不少。

好的：

def add(a, b):
    return a + b  # 没有多余的部分

坏的：

def add(a, b):
    result = a + b
    logging.info(f"Adding {a} + {b} = {result}")  # 多余！
    return result

不要添加功能，重构其他代码，或“改进”超出测试范围。

在绿色中作弊是可以的：

硬编码返回值
复制粘贴
重复代码
跳过边界情况

我们将在重构中修复。

验证绿色 — 观察它通过

强制。

# 运行特定测试
pytest tests/test_feature.py::test_specific_behavior -v

# 然后运行所有测试以检查回归
pytest tests/ -q

确认：

测试通过
其他测试仍然通过
输出纯净（没有错误，警告）

测试失败？ 修复代码，而不是测试。

其他测试失败？ 立即修复回归。

重构 — 清理

仅在绿色之后：

移除重复
改进名称
提取辅助函数
简化表达式

在整个过程中保持测试绿色。不要添加行为。

如果在重构期间测试失败： 立即撤销。采取更小的步骤。

重复

下一个失败的测试对应下一个行为。一次一个循环。

为什么顺序重要

“我会在之后写测试来验证它是否工作”

在代码之后编写的测试会立即通过。立即通过证明不了任何事情：

可能测试了错误的东西
可能测试了实现，而不是行为
可能错过了你忘记的边界情况
你从未看到它捕获错误

测试优先迫使你看到测试失败，证明它确实测试了某些东西。

“我已经手动测试了所有边界情况”

手动测试是临时性的。你认为你测试了一切，但是：

没有测试记录
代码更改时无法重新运行
在压力下容易忘记情况
“我试的时候有效” ≠ 全面

自动化测试是系统性的。它们每次都以相同的方式运行。

“删除X小时的工作是浪费”

沉没成本谬误。时间已经过去了。你现在的选择是：

删除并使用TDD重写（高信心）
保留它并在之后添加测试（低信心，可能有错误）

“浪费”是保留你不信任的代码。

“TDD是教条主义，务实意味着适应”

TDD就是务实的：

在提交前发现错误（比之后调试更快）
防止回归（测试立即捕获破坏）
记录行为（测试展示如何使用代码）
启用重构（自由更改，测试捕获破坏）

“务实”的捷径 = 在生产环境中调试 = 更慢。

“之后的测试达到相同的目标 —— 是精神而不是仪式”

不。之后的测试回答“这是做什么的？”测试优先回答“这应该做什么？”

之后的测试受到你的实现的影响。你测试了你构建的东西，而不是所需的东西。测试优先在实现之前强制发现边界情况。

常见合理化

借口	现实
“太简单不需要测试”	简单代码也会出错。测试只需30秒。
“我会在之后测试”	测试立即通过证明不了任何事情。
“之后的测试达到相同的目标”	之后的测试 = “这是做什么的？”测试优先 = “这应该做什么？”
“已经手动测试过”	临时性 ≠ 系统性。没有记录，无法重新运行。
“删除X小时是浪费”	沉没成本谬误。保留未验证的代码是技术债务。
“保留作为参考，先写测试”	你会改编它。那就是之后测试。删除就是删除。
“需要先探索”	好。扔掉探索，从TDD开始。
“测试难 = 设计不清楚”	听测试的。难测试 = 难使用。
“TDD会让我变慢”	TDD比调试更快。务实 = 测试优先。
“手动测试更快”	手动测试不能证明边界情况。每次更改你都要重新测试。
“现有代码没有测试”	你在改进它。为你接触的代码添加测试。

危险信号 — 停止并重新开始

如果你发现自己做了以下任何事情，删除代码并重新开始TDD：

在测试之前写代码
在实现之后写测试
第一次运行测试就通过
无法解释测试为什么失败
测试“之后”添加
合理化“就这一次”
“我已经手动测试过它”
“之后的测试达到相同的目的”
“保留作为参考”或“改编现有代码”
“已经花了X小时，删除是浪费”
“TDD是教条主义，我是务实的”
“这个不同因为...”

所有这些都意味着：删除代码。用TDD重新开始。

验证清单

在标记工作完成之前：

每个新函数/方法都有测试
在实现之前观察每个测试失败
每个测试因预期原因失败（功能缺失，不是拼写错误）
写了最少的代码以通过每个测试
所有测试通过
输出纯净（没有错误，警告）
测试使用真实代码（仅在不可避免时使用模拟对象）
覆盖了边界情况和错误

无法勾选所有框？你跳过了TDD。重新开始。

当遇到困难时

问题	解决方案
不知道如何测试	编写期望的API。先编写断言。询问用户。
测试太复杂	设计太复杂。简化接口。
必须模拟一切	代码耦合度太高。使用依赖注入。
测试设置庞大	提取辅助函数。仍然复杂？简化设计。

Hermes 智能体集成

运行测试

使用 terminal 工具在每个步骤运行测试：

# 红 — 验证失败
terminal("pytest tests/test_feature.py::test_name -v")

# 绿 — 验证通过
terminal("pytest tests/test_feature.py::test_name -v")

# 完整套件 — 验证没有回归
terminal("pytest tests/ -q")

使用 delegate_task

当派遣子智能体进行实现时，在目标中强制执行TDD：

delegate_task(
    goal="使用严格的TDD实现[功能]",
    context="""
    遵循测试驱动开发技能：
    1. 先编写失败的测试
    2. 运行测试以验证它失败
    3. 编写最少的代码以通过
    4. 运行测试以验证它通过
    5. 如果需要，重构
    6. 提交

    项目测试命令：pytest tests/ -q
    项目结构：[描述相关文件]
    """,
    toolsets=['terminal', 'file']
)

使用 systematic-debugging

发现错误？编写失败的测试来复现它。遵循TDD循环。测试证明修复并防止回归。

永远不要在没有测试的情况下修复错误。

测试反模式

测试模拟行为而不是真实行为 — 模拟对象应该验证交互，而不是替代被测系统
测试实现细节 — 测试行为/结果，而不是内部方法调用
只测试快乐路径 — 始终测试边界情况、错误和边界
脆弱的测试 — 测试应该验证行为，而不是结构；重构不应该破坏它们

最终规则

生产代码 → 测试存在且首先失败
否则 → 不是TDD

没有用户的明确许可，没有例外。

技能元数据​

title: 测试驱动开发 (TDD) description: 一种使用测试驱动开发实现功能的技能。 slug: 测试驱动开发​

测试驱动开发 (TDD)

概述​

何时使用​

铁律​

红-绿-重构循环​

红 — 编写失败的测试​

验证红色 — 观察它失败​

绿 — 最少代码​

验证绿色 — 观察它通过​

重构 — 清理​

重复​

为什么顺序重要​

常见合理化​

危险信号 — 停止并重新开始​

验证清单​

当遇到困难时​

Hermes 智能体集成​

运行测试​

使用 delegate_task​

使用 systematic-debugging​

测试反模式​

最终规则​