dalle3 image 如何通过包含输入/输出数据集的功能测试，以系统化方法评估提示，使复杂人工智能任务的提示工程更加可靠。

为大语言模型（LLM）创建高效的提示最初看似是一个简单的任务……但事实并非总是如此。一开始，遵循一些基本的最佳实践似乎就足够了：采用专家角色、编写清晰的指令、要求特定的响应格式，并包含几个相关的示例。然而，随着需求的增加，矛盾开始浮现，即使是微小的修改也可能引发意想不到的失败。某个版本的提示可能运作良好，但在另一个版本中却突然失效。

如果你曾经陷入无休止的试错循环，调整一条规则却发现另一条规则失效，你并不孤单！现实是，传统的提示优化显然缺乏一种结构化的、更科学的方法，这种方法能够帮助确保可靠性。

这就是提示工程的功能测试发挥作用的地方！这种方法受到实验科学方法论的启发，利用自动化的输入-输出测试，通过多次迭代和算法评分，将提示工程转化为一个可测量的、数据驱动的过程。

不再依赖猜测，也不再需要繁琐的手动验证。只有精确且可重复的结果，让你能够高效且自信地微调提示。

在本文中，我们将探讨一种掌握提示工程的系统化方法，这种方法可以确保即使是面对最复杂的人工智能任务，你的LLM输出依然高效且可靠。

在提示优化中平衡精确性和一致性

向提示中添加大量规则可能会引入部分规则之间的矛盾，从而导致意外行为。这种情况尤其常见于从一般规则开始，然后跟随多个例外或特定的矛盾用例时。添加特定规则和例外可能会与主要指令发生冲突，甚至可能彼此冲突。

看似微小的修改可能意外影响提示的其他方面。这不仅适用于添加新规则的情况，也适用于对现有规则进行更多细节补充、更改指令顺序，甚至只是重新措辞时。这些微小的修改可能会无意中改变模型解释和优先处理指令集合的方式。

你在提示中添加的细节越多，出现意外副作用的风险就越大。试图为任务的每个方面提供过多细节，反而可能增加获得意外或变形结果的风险。因此，在清晰度和高规格之间找到适当的平衡至关重要，以最大限度地提高响应的相关性和一致性。在某些情况下，修复一个要求可能会破坏另外两个要求，从而让人感到优化过程仿佛"前进一步，后退两步"。

手动测试每个变更很快就会变得不堪重负。当需要优化必须遵循众多竞争性规范的复杂人工智能任务提示时，这种问题尤为突出。这一过程不能仅仅是逐一修改提示以满足每个要求，同时期望之前的指令不受影响。也不能仅靠选择示例并手动检查它们。更好的流程应采用更科学的方法，专注于确保提示优化中的可重复性和可靠性。

从实验室到人工智能：为什么测试LLM响应需要多次迭代

科学教会我们使用重复实验来确保结果的可重复性，并增强对实验结果的信心。我曾在化学和生物学领域的学术研究工作超过十年。在这些领域，实验结果可能受到多种因素的影响，从而导致显著的变异性。为了确保实验结果的可靠性和可重复性，科学家通常采用一种称为"三重复"的方法。这种方法涉及在相同条件下进行三次相同的实验，从而使实验变化对结果的影响降至最低。统计分析（如标准均值和偏差）在生物学实验中尤为常见，它使实验者能够确定结果的一致性，并增强对发现的信心。

正如在生物学和化学中一样，这种方法也可以用于LLM，以实现可靠的响应。对于LLM而言，响应的生成是非确定性的，这意味着相同的输入可能导致不同的输出，因为模型具有概率性。这种变异性在评估LLM输出的可靠性和一致性时颇具挑战性。

就像生物/化学实验需要三重复来确保可重复性一样，测试LLM也需要多次迭代来衡量其可重复性。单一测试不足以代表LLM响应的固有变异性。每种用例至少需要五次迭代，以便更好地评估。通过分析这些迭代中响应的一致性，我们可以更好地评估模型的可靠性，并识别任何潜在的问题或变化。这确保了模型的输出得到了良好的控制。

如果将这种方法扩展到10到15个不同的提示要求，不难理解，如果没有结构化的测试方法，我们会陷入耗时的试错测试中，却没有有效的方式来评估质量。

系统化方法：提示优化的功能测试

为了解决这些挑战，可以采用一种结构化的评估方法来简化和加速测试过程，并增强LLM输出的可靠性。这种方法包括以下几个关键组成部分：

1. 数据集

该方法的核心是数据集，它由专门为提示测试设计的预定义输入-输出对组成。这些数据集充当受控场景，代表LLM必须处理的各种要求和边缘情况。通过使用多样化的数据集，可以在不同条件下高效评估提示的性能。

2. 自动化测试验证

这种方法通过比较数据集中定义的预期输出与LLM的实际响应，自动化验证一组数据集上的要求。这种自动化的比较确保了一致性，并减少了评估过程中可能出现的人为错误或偏见。它允许快速识别差异，从而进行精细且高效的提示调整。

3. 多次迭代

为了评估LLM响应的固有变异性，此方法针对每个测试用例运行多次迭代。这种迭代方法模仿了生物/化学实验中使用的三重复方法，为分析提供了更稳健的数据集。通过观察迭代中响应的一致性，我们可以更好地评估提示的稳定性和可靠性。

4. 算法评分

每个测试用例的结果都会通过算法进行评分，从而减少长时间且繁琐的人工评估需求。这种评分系统旨在客观且量化，为评估提示性能提供明确的指标。通过关注可测量的结果，我们可以做出数据驱动的决策，以有效地优化提示。

第一步：定义测试数据集

选择或创建兼容的测试数据集是我们系统化方法中最具有挑战性的步骤，因为它需要深思熟虑。数据集不仅仅是任何输入-输出对；它必须精心设计，以尽可能准确地评估LLM在特定要求下的性能。这个过程需要：

对任务和模型行为的深刻理解，以确保所选示例能够有效测试预期输出，同时尽量减少模糊性或偏见。
前瞻性地考虑如何在测试期间通过算法进行评估。

因此，数据集的质量不仅取决于示例的良好代表性，还取决于其能否被高效地通过算法测试。

一个数据集由以下部分组成：

输入示例：这是将提供给LLM处理的数据。它应代表LLM需要处理的典型场景或边缘情况。输入应设计为涵盖LLM在实际生产中可能遇到的各种变化。
预期输出：这是LLM在接收输入示例后应产生的预期结果。它用于在验证过程中与LLM的实际响应进行比较。

第二步：运行自动化测试

一旦定义了测试数据集，下一步就是执行自动化测试，以系统化地评估LLM在选定用例中的性能表现。如前所述，这一过程确保提示在各种场景下得到全面测试，从而提供对其效率的可靠评估。

执行流程

多次迭代：对于每个测试用例，相同的输入会多次提供给LLM。例如，通过简单的for循环设置nb_iter = 5，即可实现五次迭代！
响应比较：每次迭代后，LLM的响应会与数据集中定义的预期输出进行比较。此比较检查LLM是否根据指定要求正确处理了输入。
评分机制：每次比较都会产生一个评分：
- 通过（1）：响应与预期输出匹配，表明LLM已正确处理输入。
- 失败（0）：响应与预期输出不匹配，表明存在需要修复的差异。
最终评分计算：所有迭代的评分会被汇总以计算总体最终得分。该得分表示在总迭代次数中成功响应的比例。高分当然意味着提示的高性能和可靠性。

示例：从文章中删除作者签名

让我们考虑一个简单的场景：AI任务是从文章中删除作者签名。为了有效测试此功能，我们需要一组数据集，代表各种签名风格。

此示例的数据集可以是：

示例输入	预期输出
一篇长文 Jean Leblanc	一篇长文
一篇长文 P. W. Hartig	一篇长文
一篇长文 MCZ	一篇长文

验证流程

签名删除检查：验证函数检查重写后的文本中是否缺少签名。这可以通过编程轻松实现，即在输出文本中搜索签名"针"是否存在。
测试失败标准：如果签名仍然存在于输出中，则测试失败。这表明LLM未能正确删除签名，需要进一步调整提示。如果签名不存在，则测试通过。

测试评估提供了最终得分，允许对提示效率进行数据驱动的评估。如果得分完美，则无需进一步优化。然而，在大多数情况下，你不会获得完美得分，因为：

LLM对某个用例的响应一致性较低（例如，5次迭代中有3次成功）。
存在模型难以处理的边缘情况（5次迭代中0次成功）。

反馈清楚地表明仍有改进空间，并指导你重新审视提示中是否存在模糊措辞、矛盾规则或未覆盖的边缘情况。通过持续监控评分与提示修改，你可以逐步减少副作用，提高效率和一致性，最终接近最佳且可靠的输出。

然而，完美的得分并不总是可以通过选定的模型实现。更换模型可能会解决问题。如果问题依旧存在，你需要认识到系统的局限性，并在工作流中考虑这一事实。幸运的是，这种情况可能在未来通过简单的模型更新得以解决。

这种方法的优势

结果的可靠性：运行五到十次迭代可提供关于提示性能的可靠统计数据。单次测试可能会偶然成功一次，但连续多次成功的稳定性表明提示经过了良好优化且稳健。
流程的效率：与传统科学实验可能需要数周或数月才能复制不同，LLM的自动化测试可以快速完成。通过设置高迭代次数并等待几分钟，我们就可以获得高质量且可重复的提示效率评估。
数据驱动的优化：这些测试得出的分数提供了对提示满足需求能力的数据驱动评估，从而实现有针对性的改进。
并排评估：结构化测试允许轻松评估提示版本。通过比较测试结果，可以确定指令（措辞、指令顺序等）的最佳参数组合，以实现所需结果。
快速迭代改进：快速测试和迭代提示的能力是一个显著优势，可以帮助仔细构建提示，确保随着提示复杂性和长度的增加，先前验证过的要求仍然有效。

通过采用这种自动化测试方法，我们可以系统化地评估和增强提示性能，确保输出始终符合预期要求的一致性和可靠性。这种方法节省了时间，并为持续的提示优化提供了强大的分析工具。

系统化提示测试：超越提示优化

实施系统化的提示测试方法不仅仅是为了初始的提示优化。这种方法在人工智能任务的其他方面也具有重要价值：

1. 模型比较

供应商评估：这种方法可以高效地比较不同LLM供应商（如ChatGPT、Claude、Gemini、Mistral等）在同一任务上的表现。通过这种方式，可以轻松评估哪个模型最能满足特定需求。
模型版本：当提示经过良好优化时，即使是复杂的AI任务也不一定需要最先进的模型版本。轻量级、响应更快的版本可能提供相同的结果，同时响应速度更快。这种方法允许对模型的不同版本进行并排比较，例如Gemini 1.5 flash vs. 1.5 pro vs. 2.0 flash 或 ChatGPT 3.5 vs. 4o mini vs. 4o，并基于数据驱动选择最佳模型版本。

2. 版本升级

兼容性验证：当发布新模型版本时，系统化的提示测试有助于验证升级是否保持或提升了提示性能。这对于确保更新不会无意中破坏功能至关重要。
无缝过渡：通过识别关键需求并对其进行测试，这种方法可以帮助更好地过渡到新模型版本，在必要时快速调整以维持高质量输出。

3. 成本优化

性能与成本比：系统化的提示测试有助于根据性能与成本比选择最具成本效益的模型。我们可以通过评估性能和运营成本之间的效率，找到最佳的投资回报率，从而降低LLM使用成本。

克服挑战

这种方法的最大挑战在于测试数据集的准备，但随着时间推移，这一过程中的投入将带来显著回报。精心准备的数据集可以节省大量调试时间，并通过为评估LLM响应提供坚实基础，提高模型的效率和可靠性。初期投资会因LLM开发和部署中效率和效果的提升而迅速回本。

优缺点总结

关键优势

持续改进：随着时间推移，能够不断添加新需求，同时确保现有功能保持不变，这是一个显著的优势。这使得AI任务能够随着新需求的出现而演变，确保系统始终保持最新且高效。
更好的维护：这种方法使提示性能的验证变得更加容易，尤其是在LLM更新后。这对于维持高质量和高可靠性的标准至关重要，因为更新有时可能会引入意外的行为变化。
更高的灵活性：拥有一套质量控制测试，切换LLM供应商变得更加简单。这种灵活性使我们能够适应市场变化或技术进步，始终选用最适合任务的工具。
成本优化：数据驱动的评估能够帮助做出更明智的性能与成本比决策。通过了解不同模型的性能提升，我们可以选择满足需求的最具成本效益的解决方案。
节省时间：系统化的评估提供快速反馈，减少了手动测试的需求。这种效率使我们能够快速迭代提示改进和优化，加速开发过程。

挑战

初始时间投入：创建测试数据集和评估函数可能需要大量的时间投入。
定义可衡量的验证标准：并非所有AI任务都有明确的通过/失败条件。为验证定义可衡量的标准有时具有挑战性，尤其是涉及主观或细微差别的输出任务时。这需要仔细考虑，并可能涉及困难的评估指标选择。
多次测试的成本：每个测试用例伴随5到10次迭代，可能会生成大量LLM请求用于单个自动化测试。然而，如果单次LLM调用的成本可以忽略不计（在大多数文本输入/输出调用的情况下确实如此），整个测试的成本仍然微乎其微。

结论：何时应实施这种方法？

当然，实施这种系统化测试方法并不总是必要的，特别是对于简单任务而言。然而，对于复杂的人工智能工作流程，精度和可靠性至关重要的情况下，这种方法通过提供一种系统化的方式来评估和优化提示性能，避免了无休止的试错循环，变得非常有价值。

通过将功能测试原则融入提示工程，我们将传统的主观且脆弱的过程转化为一个可测量、可扩展且稳健的过程。这不仅增强了LLM输出的可靠性，还帮助实现了持续改进和资源的高效分配。

是否实施系统化提示测试的决定应基于项目的复杂性。对于需要高精度和一致性的场景，投入时间建立这种方法可以显著改善结果并加快开发过程。然而，对于简单的任务，采用更经典、更轻量级的方法可能就足够了。关键在于平衡严谨性与实际考虑，确保测试策略与目标和限制相一致。

感谢阅读！

from: https://towardsdatascience.com/mastering-prompt-engineering-with-functional-testing-a-systematic-guide-to-reliable-llm-outputs/

掌握提示工程与功能测试：确保可靠的LLM输出