阅读指南
在上一节中,我们讲到了AI应用开发的两种方式:调用API和自建模型。现在开始动手,完成第一次API调用。本节先从准备工作入手——了解主流服务商、选择模型、注册账号、安装开发环境。
免费使用 vs API调用
需要注意的是,大多数大模型在网站上使用是免费的(如DeepSeek网页版、豆包网页版、APP),但通过API调用来开发自己的应用是收费的。这是一种常见的商业模式:
- 免费版:吸引用户,体验产品,增加影响力
- API收费:但如果你想接入API开发自己的产品,则需要按使用量付费
市面上提供API的大模型服务商很多。每家发布新模型的时候都使劲儿搁那儿吹牛。我们介绍模型的时候废话就不多说了,只标记出他们自身的特点(相对于其他模型,他有什么独特的地方)。
国外三巨头
OpenAI(ChatGPT):行业标杆,最新GPT-5系列。提供多种规格:GPT-5(标准版)、GPT-5-mini(轻量版)、GPT-5-nano(极简版)。OpenAI的API是"半标准",几乎其他所有的大模型提供商都会兼容ChatGPT的API。
Google Gemini:谷歌的旗舰模型,最新Gemini 3.1 Pro。优势是原生支持视频理解和百万级上下文,与Google生态(Docs、Drive等)深度集成。个人认为Gemini同GPT、Opus相比没有优势(其实差距有点大,至少落后6个月),但是他在前端开发的审美上是绝对的王者。你不需要过度细化提示词,Gemini自己默认的UI都能惊艳到你。
Anthropic Claude:Anthropic公司开发,最新Claude Opus 4.6(旗舰)和Claude Sonnet 4.6(常规)。编程开发是他最擅长的——2026年4月年费超100万美元的企业客户突破1000家,财富10强中8家使用Claude。在代码生成赛道占据42%-54%的全球市场份额(OpenAI仅21%)。他家的Claude Code是程序员界综合评价最高的Coding Agent,9个月创下25亿美元ARR(年化收入),工程团队70%-90%的代码由其生成。
国内主流服务商
智谱AI(GLM):国产自主通用大模型,最新GLM-5.1。我感觉长程任务能力挺强,适合跑Agent。国产自主可控,适合对数据安全有要求的场景。
DeepSeek:最新V4系列。依然是价格屠夫,学生党、实验开发的首先。提供V4-Pro(1.6T参数)和V4-Flash(284B参数)两个版本,全线标配100万token上下文。完全开源。
阿里通义千问(Qwen):阿里旗下,最新Qwen3.6-Plus。优势是模型家族丰富,覆盖从轻量到旗舰的多个版本,除了文本大模型,还有图像、视频、语音等多模态大模型(太多了)。
字节跳动豆包(Doubao):最新Doubao seed 2.0(2026年2月发布)。优势是多模态能力强,特别是视频理解和语音合成。但说实话,豆包更适合消费级应用(短视频、直播、客服),在编程开发这块儿相对弱势一些。如果你是做多媒体内容生成、语音交互的项目,豆包值得考虑;如果是纯代码开发,可能Qwen或Claude更合适。
以上模型评价基于我自己的感受和程序员的综合评价。
月之暗面(Kimi):最新Kimi K2.6。在前端UI开发上审美也不错。
MiniMax:最新M2.7。没用过,不评价。
Important
关于价格和模型版本的说明
大模型的价格几乎每天都在变化,不同模型版本的价格差异也很大。比如DeepSeek在V3.2时是一个价格,发布V4时就又调整了。因此,这里不提供具体价格数字,避免误导。
建议:在选择API时,请直接访问各服务商的官方网站,查看最新的价格和模型信息。
大致趋势是:国外模型(OpenAI、Google、Anthropic)价格较高,但能力强;国内模型(DeepSeek、Qwen等)价格更具竞争力,性价比更高。初学者可以从赠送免费Tokens的平台开始体验。
很多人在接触AI开发之前,习惯了互联网上丰富的免费资源——免费的教程、免费的工具、免费的开源库。但在AI时代,这个逻辑不太适用了。
调用API开发AI应用,基本上没有免费的路可走。
部分平台会在新用户注册时赠送一些免费Tokens,但这些用量非常有限,可能只够你跑几个测试案例,连完整学习一遍都不够。比如赠送100万Tokens,听起来不少,但实际开发中,几次复杂对话、几轮调试,可能就消耗掉大半。
这不是服务商小气,而是大模型的运行成本确实很高。每次调用都需要消耗大量的GPU算力,这些都是真金白银的支出。
学习AI开发,基本上只有两条路:
第一条路:付费使用API。这是绝大多数人的选择,也是最现实的路径。好在国内模型的价格已经很低了,对于学习和个人项目来说,每月几十到几百元的支出完全可以接受。就当是买了一本交互式的技术书,边学边用。
第二条路:自己搭建。买显卡、搭服务器、部署开源模型,自己跑自己的。这种方式没有API调用费用,但前期硬件投入更大,而且需要一定的技术门槛。适合有深度学习背景或者公司有现成GPU资源的情况。
对于本书的读者来说,建议直接选择第一条路。充值一点钱,开始动手实践,这是最快的学习方式。
虽然我们主要是使用Qwen,但OpenAI的ChatGPT是无论如何也回避不了的一个模型。因为ChatGPT的API是一个"半标准",几乎其他所有的大模型提供商都会兼容ChatGPT的API风格。
Tip
其实学习哪家的API并不重要,基本所有的服务商提供的API风格都和ChatGPT类似。所以我们后续是选择ChatGPT、Qwen还是DeepSeek,实际上都是以ChatGPT的标准在讲解。
这些LLM最大的差别还是在收费和模型性能上。
本书为什么选择DeepSeek和Qwen?
我们选择这两个,主要基于性价比和学习成本考虑:
Qwen(通义千问):注册时会赠送100万Tokens(以官网活动公开为准),对于学习和实验来说够用。模型家族丰富,从轻量到旗舰版本都有,适合不同场景。国产模型里生态比较完善的。
DeepSeek:没有赠送Tokens,但价格很低,充个十块钱、二十块钱就够把本书的内容学完。完全开源,性价比是它最大的优势。
Note
关于费用的说明
上面说的几十块钱,是指常规API调用的学习费用(如对话、翻译、文本生成等)。但不包括智能体。
智能体(Agent)的运行成本会高很多。因为智能体在执行任务时,会自动进行多轮推理、工具调用、循环迭代。有时你只发一句"你好",就可能消耗十几万Tokens。
这两个是国产模型里比较推荐的,价格低、文档清晰、调用稳定。如果你有其他偏好的模型,也完全可以替换使用。
开源情况
Tip
在后续的实战开发中,将涉及不少库安装、环境与参数配置。建议先阅读关于"vibe-coding"的相关章节,并使用 Qoder 进行自动安装与配置,从而免去繁琐的手工步骤。
书中仍会给出相应的手工配置流程,供参考,但强烈建议优先使用 Qoder 自动化完成。毕竟我们不是学习各种库的安装和环境配置,能让AI代劳的就省点时间。
获取Qwen API密钥
密钥类似于应用的身份和密码,是调用API必备的凭证。DeepSeek 的获取流程与 Qwen 类似。
注册账号
创建API密钥
sk-xxxxxxxxxxxxx)Tip
配置与额度
DeepSeek 的流程与 Qwen 类似,但当前不赠送免费 Tokens。
注册账号
创建API密钥
sk-xxxxxxxxxxxxx这是两种不同的模式,Coding/Token Plan类似于订阅服务,仅用于使用AI工具开发产品。 如果要在自己的产品中接入AI功能,不能使用Coding/Token Plan,有被封号的风险。只能使用API按量付费。
用AI开发产品和在产品中接入AI能力是完全两码事儿。
Qwen官方支持多种编程语言,本书使用Python。
检查Python版本
打开终端(Mac/Linux)或命令提示符(Windows),输入:
python3 --version
如果显示Python 3.10或更高版本,说明已安装,尽量安装最新版本的Python。
如果没有安装,访问:
https://www.python.org/downloads/
下载并安装最新版本。
是的,你没看错,安装的是OpenAI的库!因为Qwen的API兼容OpenAI接口。
pip install openai
等待安装完成。
验证安装
python3 -c "import openai; print(openai.__version__)"
如果显示版本号(如1.12.0),说明安装成功。
其实现在没必要这么传统、机械的安装各种库了。与其自己动手,不如直接让AI给你干活。
用自然语言告诉AI你想做什么
现在用 Qoder 这类 AI 编程助手,不需要记忆复杂的安装命令。只需要把需求用自然语言告诉它,比如:
它会自动把这些自然语言转换成对应的命令行指令,调用相应的工具来完成安装。你不需要知道具体的命令是什么,也不需要关心不同操作系统的差异。
遇到任何问题直接问它
如果已经安装了Python环境,但是遇到各种问题,比如:
这些都不需要自己去搜索引擎找答案。直接把错误信息复制给AI,或者描述你遇到的问题,它会告诉你怎么解决。
场景示例
假设你安装了Python,但在终端输入 python3 --version 时提示"命令未找到"。这时候不需要自己去查文档,直接在 Qoder 里说:
我安装了Python,但是输入Python3 --version提示命令未找到,怎么解决?
AI会帮你排查:
你告诉他遇到了什么问题,他直接帮你解决。这才是AI时代应有的开发方式。
这里还建议安装NodeJS的最新版本,本书后续不少代码也需要用到NodeJS环境。
NodeJS下载地址:
https://nodejs.org/zh-cn/download
前面的内容主要是在讲解概念和安装环境。从这里开始,我们要真正动手写代码、运行代码了。
在开始之前,先解决一个基础问题:代码写在哪里?怎么运行?
传统方式
如果你习惯使用传统的开发工具,可以用VS Code或者Pycharm来编写和运行Python代码。以VS Code为例,运行步骤:
.py文件(如test.py)python3 test.py这种方式适合已经熟悉开发环境的读者。
AI Agent方式
如果你使用的是Qoder这类AI编程助手,事情会变得更简单。
Qoder不仅能帮你写代码,还能直接运行代码。你只需要:
Tip
下一节就会用这种AI运行的方式来实际操作,看看怎么在AI coding工具里快速运行代码。
整个过程不需要你打开额外的编辑器或终端,所有操作都在Qoder中完成。
老实说,我自己已经快1年多没打开过PyCharm、VSCode或者IntelliJ了。因为我现在也基本上不会手写代码了,最多AI生成了,我快速review的时候看到错误顺手改一改;或者AI实在蠢的不可就要的时候,下场阅读代码后明确告诉他哪里有问题。
Tip
为什么这些AI coding工具都长得很像?
Qoder、TRAE、Cursor、CodeBuddy等AI编程工具的界面都和VS Code非常相似。这是因为它们大多是基于VS Code开源版本(code-oss)二次开发的。
这些工具在VS Code的基础上,深度集成了AI能力:智能代码补全、AI对话编程、自动运行代码等。它们保留了VS Code的插件生态和快捷键,同时加入了AI原生的交互方式。
所以,如果你之前用过VS Code,切换到这些AI coding工具会非常容易,几乎不需要重新学习。
准备工作已经就绪——API密钥已获取、Python环境已安装、openai库已就位。现在,终于可以开始第一次真正的API调用了。
下一节《第一次API调用与核心参数》,让我们从"Hello AI"开始,理解model、messages、role等核心参数的含义。
| 中文 | English | 音标 | 说明 |
|---|---|---|---|
| API密钥 | API Key | /ˈeɪpiːaɪ kiː/ | 调用API的身份凭证,类似密码,绝对不能公开共享 |
| 环境变量 | Environment Variable | /ɪnˈvaɪrənmənt ˈveriəbl/ | 存储API密钥的安全方式,避免硬编码在代码中 |
| 兼容接口 | Compatible Interface | /kəmˈpætəbl ˈɪntərfeɪs/ | 其他模型厂商模仿OpenAI API风格的接口兼容策略 |
| Tokens | Tokens | /ˈtoʊkənz/ | 大模型处理文本的基本单位,中文约1字=1Token |