测试驱动开发
TDD:强制执行 红-绿-重构,测试先行。
技能元数据
| 来源 | 内置 (默认安装) |
| 路径 | skills/software-development/test-driven-development |
| 版本 | 1.1.0 |
| 作者 | Hermes 智能体 (改编自 obra/superpowers) |
| 许可证 | MIT |
| 平台 | linux, macos, windows |
| 标签 | 测试, tdd, 开发, 质量, 红-绿-重构 |
| 相关技能 | 系统性调试, 撰写计划, 子智能体驱动开发 |
以下是 Hermes 在触发此技能时加载的完整技能定义。这是智能体在技能激活时看到的说明。
测试驱动开发
概述
先写测试。看它失败。编写最少代码使其通过。
核心原则: 如果你没看过测试失败,你就不知道它是否在测试正确的东西。
违反规则的字面意思就是违反规则的精神。
何时使用
始终:
- 新功能
- 错误修复
- 重构
- 行为变更
例外情况(先询问用户):
- 一次性原型
- 生成的代码
- 配置文件
想着“这次就跳过测试驱动开发”?停下。那是合理化借口。
铁律
没有失败的测试,就没有生产代码
在测试之前写了代码?删掉它。重新开始。
无一例外:
- 不要把它当作“参考”保留
- 不要在写测试时“适配”它
- 不要看它
- 删除就是删除
根据测试重新实现。就这样。
红-绿-重构循环
红 — 编写失败的测试
编写一个最小测试,展示应该发生什么。
好的测试:
def test_retries_failed_operations_3_times():
attempts = 0
def operation():
nonlocal attempts
attempts += 1
if attempts < 3:
raise Exception('fail')
return 'success'
result = retry_operation(operation)
assert result == 'success'
assert attempts == 3
清晰的名称,测试真实行为,单一事项。
糟糕的测试:
def test_retry_works():
mock = MagicMock()
mock.side_effect = [Exception(), Exception(), 'success']
result = retry_operation(mock)
assert result == 'success' # 重试次数呢?时间呢?
名称模糊,测试的是 mock 而非真实代码。
要求:
- 每个测试一个行为
- 清晰描述性名称(名称里有“和”?拆分它)
- 真实代码,非 mock(除非确实不可避免)
- 名称描述行为,而非实现
验证红色 — 看它失败
强制要求。绝不跳过。
# 使用终端工具运行特定测试
pytest tests/test_feature.py::test_specific_behavior -v
确认:
- 测试失败(不是拼写错误导致的错误)
- 失败信息符合预期
- 失败是因为功能缺失
测试立即通过? 你在测试现有行为。修复测试。
测试报错? 修复错误,重新运行直到它正确地失败。
绿色 — 最少代码
编写最简单的代码以通过测试。仅此而已。
好的:
def add(a, b):
return a + b # 没有多余的东西
糟糕的:
def add(a, b):
result = a + b
logging.info(f"Adding {a} + {b} = {result}") # 多余!
return result
不要添加功能、重构其他代码,或“改进”超出测试范围。
在绿色阶段作弊是可以的:
- 硬编码返回值
- 复制粘贴
- 重复代码
- 跳过边界情况
我们会在重构阶段修复。
验证绿色 — 看它通过
强制要求。
# 运行特定测试
pytest tests/test_feature.py::test_specific_behavior -v
# 然后运行所有测试以检查是否引入回归
pytest tests/ -q
确认:
- 测试通过
- 其他测试仍然通过
- 输出干净(无错误、警告)
测试失败? 修复代码,而不是测试。
其他测试失败? 立即修复回归问题。
重构 — 清理
仅在绿色之后:
- 消除重复
- 改进名称
- 提取辅助函数
- 简化表达式
保持测试始终绿色。不要添加行为。
如果在重构期间测试失败: 立即撤销。采取更小的步骤。
重复
为下一个行为进行下一个失败的测试。一次一个周期。
为什么顺序重要
“我会在之后写测试来验证它能工作”
之后写的代码会立即通过。立即通过证明不了什么:
- 可能测试了错误的东西
- 可能测试了实现,而非行为
- 可能遗漏了你忘记的边界情况
- 你从未见过它捕捉到 bug
测试优先迫使你看到测试失败,证明它确实测试了某些东西。
“我已经手动测试了所有边界情况”
手动测试是临时性的。你以为你测试了所有情况,但是:
- 没有记录你测试了什么
- 代码变更时无法重新运行
- 压力下容易忘记情况
- “我试的时候能用” ≠ 全面
自动化测试是系统性的。它们每次运行都一样。
“删除 X 小时的工作是浪费”
沉没成本谬误。时间已经过去了。你现在的选择:
- 删除并用测试驱动开发重写(高置信度)
- 保留它并在之后添加测试(低置信度,可能有 bug)
“浪费”是保留你无法信任的代码。
“测试驱动开发是教条,务实意味着适应”
测试驱动开发是务实的:
- 在提交前发现 bug(比之后调试更快)
- 防止回归(测试立即捕捉中断)
- 记录行为(测试展示如何使用代码)
- 启用重构(自由更改,测试捕捉中断)
“务实”的捷径 = 在生产环境调试 = 更慢。
“之后测试能达到相同目标——是精神而非仪式”
不。之后测试回答“这能做什么?”。优先测试回答“这应该做什么?”
之后测试受你的实现影响。你测试的是你构建的,而不是要求的。优先测试强制在实现前发现边界情况。
常见的合理化借口
| 借口 | 现实 |
|---|---|
| “太简单无需测试” | 简单的代码也会出错。测试只需 30 秒。 |
| “我会之后测试” | 测试立即通过证明不了什么。 |
| “之后测试达到相同目标” | 之后测试 = “这能做什么?” 优先测试 = “这应该做什么?” |
| “已经手动测试过” | 临时 ≠ 系统。无记录,无法重新运行。 |
| “删除 X 小时是浪费” | 沉没成本谬误。保留未验证的代码是技术债务。 |
| “保留作为参考,先写测试” | 你会适配它。那就是之后测试。删除就是删除。 |
| “需要先探索” | 可以。丢弃探索,用测试驱动开发开始。 |
| “测试难 = 设计不清晰” | 听测试的。难测试 = 难使用。 |
| “测试驱动开发会拖慢我” | 测试驱动开发比调试快。务实 = 测试优先。 |
| “手动测试更快” | 手动测试不能证明边界情况。每次更改都要重新测试。 |
| “现有代码没有测试” | 你在改进它。为你接触的代码添加测试。 |
危险信号 — 停下并重新开始
如果你发现自己在做以下任何事情,删除代码并用测试驱动开发重新开始:
- 测试之前写代码
- 实现之后写测试
- 测试首次运行就立即通过
- 无法解释为什么测试失败
- 测试“稍后”添加
- 合理化“就这一次”
- “我已经手动测试过了”
- “之后测试能达到相同目的”
- “保留作为参考”或“适配现有代码”
- “已经花了 X 小时,删除是浪费”
- “测试驱动开发是教条,我很务实”
- “这次不同是因为...”
所有这些都意味着:删除代码。用测试驱动开发重新开始。
验证清单
在标记工作完成前:
- 每个新函数/方法都有测试
- 在实现前看过每个测试失败
- 每个测试都因为预期原因失败(功能缺失,而非拼写错误)
- 编写了最少代码以通过每个测试
- 所有测试都通过
- 输出干净(无错误、警告)
- 测试使用真实代码(仅在不可避免时使用 mock)
- 覆盖了边界情况和错误
无法勾选所有框?你跳过了测试驱动开发。重新开始。
当卡住时
| 问题 | 解决方案 |
|---|---|
| 不知道如何测试 | 编写期望的 API。先写断言。询问用户。 |
| 测试太复杂 | 设计太复杂。简化接口。 |
| 必须 mock 所有东西 | 代码耦合太紧。使用依赖注入。 |
| 测试设置庞大 | 提取辅助函数。仍然复杂?简化设计。 |
Hermes 智能体集成
运行测试
在每个步骤使用 terminal 工具运行测试:
# 红 — 验证失败
terminal("pytest tests/test_feature.py::test_name -v")
# 绿 — 验证通过
terminal("pytest tests/test_feature.py::test_name -v")
# 完整套件 — 验证无回归
terminal("pytest tests/ -q")
使用 delegate_task
当为实现派遣子智能体时,在目标中强制执行测试驱动开发:
delegate_task(
goal="使用严格的测试驱动开发实现 [功能]",
context="""
遵循测试驱动开发技能:
1. 首先编写失败的测试
2. 运行测试以验证它失败
3. 编写最少代码以通过
4. 运行测试以验证它通过
5. 如有需要则重构
6. 提交
项目测试命令: pytest tests/ -q
项目结构: [描述相关文件]
""",
toolsets=['terminal', 'file']
)
与 systematic-debugging 一起
发现 bug?编写失败的测试来复现它。遵循测试驱动开发周期。测试证明了修复并防止了回归。
永远不要在没有测试的情况下修复 bug。
测试反模式
- 测试 mock 行为而非真实行为 — mock 应该验证交互,而不是取代被测系统
- 测试实现细节 — 测试行为/结果,而不是内部方法调用
- 只测试快乐路径 — 始终测试边界情况、错误和边界
- 脆弱的测试 — 测试应该验证行为,而不是结构;重构不应破坏它们
最终规则
生产代码 → 测试存在且首先失败
否则 → 不是测试驱动开发
没有用户的明确许可,没有例外。