第 3 章 · Top-p（三）-随机性与参数设置

第3章第11节 Top-p（三）-随机性与参数设置

阅读指南

前两节我们分别学习了Temperature和Top-p的原理。本节将探讨一个深刻的问题：为什么AI需要随机性？以及不同任务的最佳参数设置建议。

11.1 为什么AI需要随机性？

回顾第2节，我们简单提到了随机性的好处。现在让我们深入理解：为什么不总是选最可能的词（T=0）？，理解这一点很重要。

1. 避免重复和机械

总是选最高概率的词会导致每次回答完全一样，毫无新意。即使是同一个任务，我们也希望AI能有一些变化，这样的AI才具有"智能性"。

2. 探索多样的解决方案

很多任务没有唯一的"正确答案"。有随机性时，用户可以看到更丰富、更多样的建议和方案。

3. "最可能"不等于"最好"

模型的概率判断可能不完美。一个40%概率的平庸答案，不一定优于10%概率的优秀答案。随机性让优秀答案也有机会被选中。

4. 创造力需要"意外"

真正的创造力，常常来自于"意想不到"的组合。在创意任务中，随机性不是bug，而是feature。例子：

常见："美丽的月光"
创新："月光像一把银色的镰刀"

5. 模拟人类的思维

人类思维也有随机性——我们不会每次都用完全相同的词来表达同一个意思。这种变化性，让对话更自然。

11.2 不同任务的最佳参数设置

给你一些实用的建议。

对于事实性问答

目标：准确、一致

推荐设置：

Temperature：0 - 0.3
Top-p：0.1 - 0.5

示例：

"巴黎是哪个国家的首都？"
"Python中如何打开文件？"

这类任务需要稳定、准确的答案，不需要创造力。

代码生成

目标：正确、可运行

推荐设置：

Temperature：0 - 0.2
Top-p：0.1

示例：

"用Python写一个排序函数"
"修复这段代码的bug"

代码需要精确，一个小错误就无法运行。低温保证生成最可能正确的代码。

创意写作

目标：新颖、有趣

推荐设置：

Temperature：0.7 - 1.2
Top-p：0.9 - 0.95

示例：

"写一首关于秋天的诗"
"续写这个科幻故事"
"给我一个独特的商业创意"

需要创造力和意外性，高温允许不常见的词汇和想法。

头脑风暴

目标：多样性

推荐设置：

Temperature：0.8 - 1.5
Top-p：0.95

示例：

"给我10个营销活动的创意"
"这个问题有哪些可能的解决方案？"

希望看到多种不同的想法，较高的温度增加多样性。

11.3 哪里可以调整这些参数？

了解了Temperature和Top-p的作用后，一个实际的问题是：能在哪里调整这些参数？

网页版大模型：参数通常固定

如果你使用的是网页版或移动端App，大多数情况下无法直接调整这些参数。

ChatGPT/DeepSeek（网页版/App）：

参数设置：固定，用户不可调整
默认策略：OpenAI内部设定（未公开具体数值）
推测值：T ≈ 0.7-1.0

影响方式：只能通过提示词间接影响
例如："请用更有创意的方式回答" 或 "请给出准确的标准答案"

API版本：完全可控

如果你是AI应用开发者，通过API调用大模型，就可以完全控制这些参数。

使用Python调用DeepSeek API：

import requests

response = requests.post(
    "https://api.deepseek.com/v1/chat/completions",
    json={
        "model": "deepseek-v4-flash",
        "messages": [{"role": "user", "content": "讲个故事"}],
        "temperature": 0.7,  # 可调整
        "top_p": 0.9        # 可调整
    }
)

大多数API都遵循OpenAI的建议：只调整Temperature或Top-p之一，不建议同时调整，避免效果难以预测。

11.4 下节预告

下一节，我们会看一个每个人都关心的问题：为什么ChatGPT会"胡说八道"？

为什么它有时会编造事实、一本正经地胡说？这背后的原因是什么？我们能避免吗？

这涉及到AI的一个根本性问题："幻觉"（Hallucination）。让我们一起探索这个现象。

11.5 趣闻：为什么Top-p叫"核采样"？

"核采样"（Nucleus Sampling）这个名字听起来很高深，实际上来自一个有趣的类比。

2019年，华盛顿大学的研究者Ari Holtzman等人提出Top-p采样时，借用了核物理学的概念。他们将高概率词的集合比喻为"原子核"，低概率词则像外围电子——只在核心区域采样，就像只考虑原子核而忽略外围电子一样。

这个命名非常巧妙：原子核代表紧密聚集的高概率词，电子云代表分散的低概率词，采样策略只从"核心"选择，过滤"边缘"。

这篇论文《The Curious Case of Neural Text Degeneration》不仅提出了Nucleus Sampling，还揭示了一个重要问题：为什么传统的采样方法会让AI生成"退化"的文本（重复、无聊）。Top-p的出现，从根本上改善了这个问题。

这个物理学灵感的命名后来被广泛接受，现在几乎所有主流大模型API都支持这个参数，名字就叫"nucleus_sampling"或"top_p"。

冷知识：Top-p=1.0时仍可能过滤词

理论上，top_p=1.0意味着"考虑所有词"，累积概率达到100%。但在实际工程实现中，即使你设置p=1，也不会真的看到所有50000+个词都参与采样。

为什么？

1. 过滤极低概率词

大多数实现会预先过滤掉概率极低的词：

# 实际代码逻辑（简化版）
if top_p == 1.0:
    # 仍然过滤概率 < 阈值的词
    valid_tokens = probs[probs > 1e-6]  # 过滤掉概率<0.0001%的词
else:
    # 正常的Top-p逻辑
    ...

原因：概率低于0.0001%的词，累积起来也只占总概率的极小部分，但会大幅增加计算量。过滤它们几乎不影响结果，却能大幅提速。

2. 词表截断

在Softmax之前，很多系统会只保留top-k个分数最高的词（如top-1000）：

# 只对分数最高的1000个词做Softmax
top_k_indices = topk(logits, k=1000)
probs = softmax(logits[top_k_indices])

这意味着即使p=1.0，实际候选集可能只有1000个词，而非完整词表的50000个。

3. 浮点数精度限制

由于浮点数精度限制，概率极低的词在归一化后可能变成0：

e−50e−50+e−49+⋯+e3≈0.0000…00001\frac{e^{-50}}{e^{-50} + e^{-49} + \cdots + e^3} \approx 0.0000\ldots00001

这个值太小，会被截断为0。

如果概率为0，自然不会被选中。

所以，Top-p=1.0是"逻辑上的全部"，而非"物理上的全部"。

11.6 推荐阅读

The Curious Case of Neural Text Degeneration (Holtzman 等，2019)

这篇论文首次提出Top-p（核采样）方法，揭示了传统采样策略会导致文本生成"退化"（重复、无聊）的问题，并证明了核采样能显著改善生成质量。这是理解本节Temperature与Top-p内容的核心论文，强烈推荐阅读。

11.7 ■ 学点英语

中文	English	音标	说明
随机性	Randomness	/ˈrændəmnəs/	采样过程中不可预测的成分，是创造力与多样性的源头
可复现性	Reproducibility	/ˌriːprəˌdjuːsəˈbɪləti/	相同输入与参数下能得到相同输出的性质
退化	Degeneration	/dɪˌdʒenəˈreɪʃn/	文本出现重复、平淡或混乱的生成问题
随机种子	Random Seed	/ˈrændəm siːd/	控制采样跟均分布来源的整数，保证调试时的一致输出
参数调优	Hyperparameter Tuning	/ˌhaipəpəˈræmɪtə(r) ˈtjuːnɪŋ/	对 Temperature、Top-p 等运行时参数的系统性试验与选择
频率惩罚	Frequency Penalty	/ˈfriːkwənsi ˈpenəlti/	降低已出现词再次被采样的概率，用以减少重复
应用编程接口	API	/ˌeɪ piː ˈaɪ/	Application Programming Interface，访问模型服务的接口协定
渐进式暴露	Progressive Disclosure	/prəˈɡresɪv dɪˈskləʊʒə(r)/	UX 原则，根据用户水平逐层开放参数控制

11.8 ■ 思考帧

◀ Top-p（二）-核采样的动态控制

返回目录

▶ 幻觉

第3章 第11节 Top-p（三）-随机性与参数设置