- Published on
《AI Prompt Engineering Handbook》读书笔记
- Authors
- Name
- 青雲
概述
系统阐述了提示工程的底层逻辑与实践技巧,全书以 “释放大语言模型(LLMs)潜力” 为核心,通过 10 章的结构化内容,串联起从基础概念到前沿技术、从工具平台到行业应用的完整知识体系。
提示工程简介
提示工程的本质是 “用 AI 能理解的语言传达人类意图”。
- 为什么重要?:LLMs 已渗透代码生成、数据分析、客户服务等场景,提示质量直接决定输出价值,成为数字时代的 “新生产力工具”。
- 如何入门?:通过 “定义目标→清晰指令→结构化输出→示例引导→迭代优化” 五步法,可显著提升 AI 响应的准确性。例如,对比 “讲一下社交媒体” 与 “列出 5 大营销向社交媒体平台及其受众特点”,后者因明确目标、结构和清晰度,能获得更具行动价值的回答。
- 避坑指南:
- 太模糊:
- “跟我说说营销吧”
- “用真实示例解释五种行之有效的数字营销策略”
- 信息过载
- 太多的细节会让 AI 不堪重负。保持说明简洁但信息丰富。
- 忽略模型限制:如幻觉问题
- 缺乏迭代:根据回复优化提示会带来更好的结果。
- 忘记上下文:提供足够的上下文可确保 AI 准确理解任务。
- 太模糊:
理解 LLM
- 工作原理:通过分词(Tokenization)、预训练(Pattern Learning)、推理(Inference)三步实现文本生成,本质是基于海量数据的概率预测,而非人类意义上的 “理解”。
- 能力图谱:
- 内容生成:
- 编程,撰写博客文章、广告文案和报告。示例:“为我们的季度报告生成执行摘要。
- 数据分析
- 总结和分析大型数据集。示例:“从此财务报告中提取关键发现。
- 客户支持
- 为聊天机器人提供支持以处理客户查询。
- 医疗保健应用
- 协助临床记录和文献综述
- 内容生成:
- 不足:
- 幻觉(编造事实)
- 偏见(数据偏差继承)
- 长上下文断裂
- 未来趋势:
- 多模态融合(文本 + 图像 + 语音)、轻量化模型、伦理可解释性(更加关注公平性和可解释性。)
LLM 是变革性的工具,如果使用得当,可以提供巨大的价值。但是,用户必须了解他们的局限性并应用批判性思维。
Prompt 技巧
- 思维链(CoT):将复杂问题拆解为 “步骤化推理链”,引导模型逐步思考。
- “一个书架有 3 层,每层放 20 本书,又买了 10 本书放上去,现在书架上有多少本书?” ,
- 先计算书架原本的书量(3 层 ×20 本 / 层 = 60 本),再加上新买的书(60 本 + 10 本 = 70 本),最终得出答案。
- 自一致性(Self-Consistency):通过生成多个答案取交集的方式,提升模型输出的可靠性。
- 在回答开放性问题如 “列举提高企业办公效率的方法” 时,模型多次生成答案,然后筛选出高频出现的方法,如 “引入自动化办公软件”“优化工作流程” 等,作为最终的可靠回答,有效避免单一答案的片面性。
- 检索增强生成(RAG):结合实时数据检索,解决模型知识滞后问题。
- 当用户询问 “2025 年 AI 医疗领域的最新突破” 时,模型通过检索学术数据库、行业新闻等实时资源,获取最新信息后进行整合生成回答,如提及最新的 AI 辅助疾病诊断算法、智能医疗影像分析技术等,使答案紧跟时代前沿。
- 角色扮演(Expert Prompting):为 AI 赋予特定身份,结合行业术语引导输出更专业的回答。
- 如设定 “你是资深金融顾问”,当用户咨询 “如何配置投资组合” 时,模型运用专业术语,如 “根据现代投资组合理论(MPT),我们需考虑资产的相关性、预期收益和风险水平,建议将一定比例资金配置于股票以追求高收益,同时搭配债券来平衡风险……”,提供专业且针对性强的建议。
- 对比提示(Contrastive Prompting):引导 AI 进行系统化对比分析。
- 以 “比较云计算与本地存储的优缺点” 为例,模型从成本、安全性、可扩展性等多个维度进行对比,如 “云计算成本较低,按需付费,但数据安全性可能面临网络威胁;本地存储安全性较高,数据完全自主掌控,但扩展性受限,需不断投入硬件成本……”,帮助用户全面了解不同方案,辅助决策。
- 少样本提示(Few-Shot Prompting):在提示中提供少量示例,让模型学习并依此生成回答。
- 例如在教模型识别水果时,给出 “红的、圆的、有果柄的是苹果”“黄的、月牙形的是香蕉” 等示例后,再问 “橙的、球形的是什么水果”,模型依据示例模式,回答 “可能是橙子”,助力模型快速理解任务要求。
- 零样本提示(Zero-Shot Prompting):无需示例,直接让模型基于已有知识进行回答。
- 当询问 “宇宙中除地球外可能存在生命的星球应具备什么条件” 时,模型凭借预训练知识,回答 “适宜的温度、液态水、稳定的大气层等条件可能是必要的”,展现模型的知识迁移能力
- 生成式知识提示(Generated Knowledge Prompting):在提示中引入额外生成的事实或知识,丰富回答内容。
- 如用户问 “如何制作意大利面”,模型先生成关于意大利面常见种类、特色酱料等知识,再结合这些知识详细描述制作步骤,使回答更全面、丰富。
- 从最少到最多提示(Least-to-Most Prompting):将大问题分解为多个子问题,按顺序引导模型逐步解决。
- 例如在解决 “如何组织一场大型户外音乐节” 的问题时,先问 “举办音乐节第一步要做什么”,模型回答 “确定举办地点和时间”;接着问 “之后要做什么”,模型依次回答筹备演出人员、宣传推广等后续步骤,降低复杂问题的解决难度。
- 自我完善提示(Self-Refinement Prompting):让模型对自身输出进行修正和完善。
- 当模型生成一段关于产品介绍的文案后,用户要求 “检查这段文案的语法错误,并优化表述使其更吸引人”,模型重新审视并修改文案,如将 “这个产品很好用” 改为 “这款产品具备卓越的实用性,能为您带来前所未有的便捷体验”,提升输出质量。
- 多维度提示(Multi-Dimensional Prompting):要求模型从多个角度解释答案,确保回答准确且全面。
- 例如在回答 “为什么地球有四季更替” 时,模型不仅从地球公转的角度解释,还阐述了黄赤交角、太阳直射点移动等相关因素,以及这些因素如何相互作用导致四季变化,让用户获得更深入、立体的知识。
- 上下文提示(Context Prompting):提供相关背景信息,引导模型生成更贴合实际情境的回答。
- 在询问 “为一家位于海边的咖啡馆制定营销策略” 时,补充咖啡馆周边环境、目标客户群体等上下文信息,模型据此生成如 “举办海边主题派对”“推出海景特色饮品套餐” 等针对性营销策略,使方案更具可行性。
- 输出限制提示(Output Constraints Prompting):明确规定模型输出的格式、长度等限制。
- 如要求 “用 30 字以内概括这篇新闻的主要内容”,模型按照字数限制提炼新闻要点,给出简洁准确的概括,方便用户快速获取关键信息。
- 主题聚焦提示(Topic Focus Prompting):避免模型回答偏离主题。
- 当用户问 “谈谈人工智能在医疗影像诊断中的应用”,通过强调主题,模型围绕医疗影像诊断,阐述 AI 如何识别疾病特征、辅助医生判读影像等应用,而非泛泛而谈人工智能在医疗领域的所有应用,保证回答的精准性。
- 格式提示(Format Prompting):指定模型输出的格式。
- 如在生成报告时,要求 “以表格形式列出过去五年公司的营收和利润数据”,模型生成相应格式的表格,清晰呈现数据,便于用户直观查看和分析。
- 示例引导提示(Example-Guided Prompting):给出高质量示例,让模型模仿生成类似内容。
- 在让模型创作儿童故事时,提供一个 “小兔子在森林里冒险,遇到困难后勇敢克服” 的示例,模型借鉴示例风格和情节模式,创作如 “小猴子在果园里探险,为帮助小伙伴摘到果子努力想办法” 的故事,降低创作难度,提升生成内容的质量和风格一致性。
- 分阶段提示(Stage-by-Stage Prompting):将复杂任务拆分为多个阶段,逐步引导模型完成。
- 以设计一款 APP 为例,先问 “APP 的核心功能有哪些”,模型回答后,再问 “针对这些功能,首页界面应如何设计”,依此类推,从功能规划到界面设计等阶段,逐步推进,确保模型全面、有条理地完成复杂任务。
- 情感引导提示(Emotion-Guided Prompting):引导模型输出带有特定情感色彩的内容。
- 如要求 “写一封给客户的道歉信,语气要诚恳、愧疚”,模型生成的信件中使用如 “非常抱歉给您带来了极大的困扰,我们深刻反思并将全力弥补” 等语句,传递出诚恳的情感,满足用户需求。
- 知识注入提示(Knowledge Injection Prompting):向模型提供特定领域的专业知识,辅助其回答。
- 在询问 “量子力学中的薛定谔方程在实际应用中有哪些体现” 时,先注入一些关于薛定谔方程的基本原理、适用范围等知识,模型结合这些新知识,详细阐述其在原子结构分析、半导体物理等实际领域的应用,提升回答的专业性和深度。
- 假设性提示(Hypothetical Prompting):提出假设场景,让模型进行推理和预测。
- 如 “假设全球突然停止使用化石燃料,会对经济和环境产生哪些影响”,模型从能源结构调整、产业变革、大气环境改善等多方面进行分析预测,为用户提供对未来可能性的洞察。
- 引导性问题提示(Guiding Question Prompting):通过一系列引导性问题,逐步引导模型深入思考和回答。
- 在探讨 “如何改善城市交通拥堵” 时,先问 “目前城市交通拥堵的主要原因是什么”,模型回答后,再问 “针对这些原因,有哪些可行的短期缓解措施”,最后问 “长期来看,如何从城市规划角度解决交通拥堵”,通过层层递进的问题,引导模型给出全面、深入的解决方案。
提示工程实践
- 基础:chatGPT、claude 适合新手快速验证想法。
- 企业级:LangChain(复杂工作流搭建)、PromptFlow(低代码提示优化)支持规模化部署,如构建客服聊天机器人的多轮对话流程。
- 内容创作神器:Jasper AI(营销文案生成)、Copy.ai(广告创意)、Canva AI(视觉设计)形成 “文案 + 设计” 一体化链路。
实际应用
- 内容创作和营销
- 一家营销机构利用 AI 根据用户参与度数据生成个性化的电子邮件活动,使用如下提示:“为放弃购物车的客户生成一封后续电子邮件,提供 10% 的折扣。”
- 客户服务自动化和聊天机器人
- 一家零售公司将 AI 集成到其客户支持系统中,使用提示来高效处理退货和退款:“为请求更换产品的客户提供分步指南。”
- 数据分析
- 一家金融公司使用 AI 生成季度财务摘要,方法是提示:“分析过去三个月的销售数据并确定关键的增长驱动力。”
- 教育
- 在线学习平台使用 AI 生成个性化的学习计划:“创建一个为期 4 周的初学者 Python 课程,专注于动手编码练习。
- 医疗和法律
- 一家医院使用 AI 来总结患者病史,并提示如下:“总结该患者最近三次就诊,突出关键症状和治疗方法。
- 一家律师事务所使用 AI 来协助合同起草,并提示:“在加州法律中为技术合作伙伴关系起草 NDA”。
- 个人效率
- 一位忙碌的高管使用 AI 来优化他们的日程安排:“制定每日工作时间表,优先考虑高影响任务并包括休息时间。”
工具框架
提示工程工具可分为以下几组:
- 提示创建和优化工具 – 帮助用户为各种 AI 应用程序设计和优化提示的工具。
- LangChain – 使用案例示例:通过构建多步骤工作流来提高准确性,实现客户支持聊天机器人的自动化。
- PromptFlow – 一种低代码工具,旨在快速提示实验、测试以及与 OpenAI 的 GPT 和 Anthropic 的 Claude 等 AI 模型集成。
- 测试和评估框架 – 评估及时有效性和优化响应的解决方案。
- PromptFoo — 一种测试驱动型工具,支持 A/B 测试和 AI 响应的并排比较,可以有效地微调提示。
- 无代码 AI 模型开发平台 – 允许用户无需编码即可创建 AI 驱动的工作流程的平台。
- Wnr.ai – 一个无代码 AI 平台,可帮助用户构建和测试 AI 驱动的聊天机器人和自动化工作流程,而无需编程知识。
- 社区驱动的开源平台 – 支持知识共享和实验的协作工具。
- FlowGPT(提示共享)、PromptSource(优质提示库)
常见陷阱
- 避免过度依赖AI:AI 是辅助工具,关键决策需人类把关。例如,金融领域的投资建议需结合分析师判断,防止模型幻觉导致误判。
陷阱类型 | 案例 | 解决方案 |
---|---|---|
模糊指令 | prompt:“写一篇关于环保的文章” → 输出泛泛而谈 | 细化目标:“为中学生写一篇 800 字环保科普文,重点介绍塑料污染的危害及解决方案” |
过拟合特定任务 | 优化 “生成促销文案” 的 prompt 后,无法适配 “产品评测” 场景 | 通用化设计:在 prompt 中保留可替换变量(如 “根据 (产品类型),生成 (场景) 的 (内容形式)”) |
拟人化假设 | 认为 AI “理解” 用户情感,如 prompt:“用悲伤的语气描述落叶” → 机械堆砌负面词汇 | 基于模型能力设计:明确 AI 仅能通过文本模式模拟情感,需提供具体风格示例(如引用诗句 “无边落木萧萧下”) |
缺乏上下文 | 跨轮对话中未延续历史信息:用户先问 “推荐上海餐厅”,后问 “其中有素食选项吗?” → AI 未关联前序回答 | 显式传递上下文:“基于你之前推荐的上海餐厅列表,请问哪些提供素食选项?” |
忽视格式要求 | prompt:“列出十大科技趋势” → 输出为段落而非列表 | 强制格式指令:“以有序列表形式列出十大科技趋势,每项包含简要说明” |
拒绝迭代优化 | 对首次生成的代码直接使用,未调试 → 存在逻辑漏洞 | 建立反馈循环:“根据运行报错日志,修正代码中的数组越界问题” |
未提供示例 | prompt:“写一封商务邮件” → 风格混乱(过于随意或生硬) | 示例引导:“参照以下格式:【主题】+【正文:开头问候 + |
- 伦理问题
- AI 的固有局限性
未来趋势
- 自动化提示设计:AI 将学会自我优化提示,如通过强化学习(RLPO)自动生成高转化率的营销文案。
- 智能提示生成工具将分析用户需求并自动建议优化提示。
- 平台将根据历史使用数据和 AI 模型性能提供建议。
- 工具将自动评估及时有效性,提供实时见解和改进建议。
- Prompt 工程将成为软件开发不可或缺的一部分,与 API、工作流和自动化工具无缝集成。
- 多模态交互:“文本 + 图像 + 传感器数据” 的融合提示将成为常态,例如,工业场景中通过 “拍摄机械零件照片 + 输入故障描述” 生成维修指南。
- 伦理合规体系:政府与企业将制定提示设计标准,如医疗 AI 需通过 “偏见检测→合规审查→临床验证” 三重关卡方可上线。
- 跨学科:
- 语言学和 AI:增强 AI 对自然语言的理解,以创建更有效的提示。
- 心理学和 UX 设计:创建与人类认知过程一致的提示,以实现更好的交互。
案例
- 目标:开发一个有效的提示来生成有关可持续时尚的博客文章介绍。
- 初始提示:“写一篇关于可持续时尚的介绍。”
- 改进:“为具有生态意识的千禧一代写一篇关于可持续时尚趋势的引人入胜的博客介绍。以信息丰富且引人入胜的语气包括关键统计数据、主要挑战和可行的解决方案。
- 目标:制作一个提示来生成专业且善解人意的客户支持电子邮件。
- “写一封电子邮件,为延迟发货道歉,并为未来的购买提供折扣。”
- “生成一封专业且善解人意的电子邮件,为订单 #12345 的延迟发货道歉。包括道歉、对延误的解释、为未来购买提供 10% 的折扣代码,以及改进服务的保证。
AI 工具
工具分类 | 工具名称 | 核心功能 | 适用场景 |
---|---|---|---|
聊天机器人与对话式AI | ChatGPT | 全能问答与文案生成,支持插件扩展(如联网搜索、数据分析) | 内容创作、编程辅助、日常问答 |
Character.ai | 专注角色扮演和虚构角色互动,让用户与AI生成的角色交流 | 娱乐、创意写作灵感获取 | |
Bard | 提供问题解答,生成高质量内容 | 知识查询、内容创作辅助 | |
Poe | 聚合多种AI聊天模型,一站式访问不同模型服务 | 对比不同模型回答、满足多样化需求 | |
Perplexity | 作为AI驱动的搜索助手,提供复杂问题的对话式回应 | 复杂问题深度探索、知识挖掘 | |
ForefrontAI | 具备企业级功能和定制集成能力 | 企业业务流程自动化、智能客服 | |
YOU | 兼具搜索与互动对话能力的AI搜索引擎 | 信息搜索、互动式知识获取 | |
Chub.ai | 允许用户创建定制化AI个性,提供独特交互体验 | 个性化服务、创意互动 | |
GPTGO.ai | 融合聊天与网络搜索功能,提供更精准回答 | 信息查询、实时知识获取 | |
CHATPDF | 用于分析和交互PDF文档,方便数据提取 | 学术研究、文档分析 | |
写作与内容生成 | QuillBot | 对文本进行改写、润色,提升写作清晰度和连贯性 | 学术写作、文案优化 |
Writesonic | 生成博客、广告文案等多种营销材料 | 营销内容创作、电商产品描述 | |
Copy.ai | 专注营销文案自动化生成,提供多种垂直场景模板 | 营销推广、广告策划 | |
Smodin | 为学术写作提供辅助,如论文创作 | 学术论文撰写、研究报告生成 | |
WRITER | 帮助企业和团队确保内容的品牌一致性和风格统一 | 企业内容创作、品牌传播 | |
Gamma | 用于创建演示文稿和书面内容,提供故事化创作支持 | 演讲展示、内容叙事创作 | |
NovelAI | 辅助小说创作者生成创意、构建故事结构 | 小说创作、文学构思 | |
AI-Novel | 专注于长篇创意写作,服务小说家 | 长篇小说创作、连载故事编写 | |
图像生成与编辑 | PhotoRoom | 实现AI抠图和图像增强,优化图片效果 | 摄影后期处理、电商产品图优化 |
CivitAI | 基于Stable Diffusion,提供图像生成和艺术创作社区平台 | 艺术创作、图像风格探索 | |
Midjourney | 生成高质量艺术图像,在超现实和插画风格表现出色 | 艺术设计、创意配图 | |
Leonardo.ai | 擅长生成游戏资产和概念艺术 | 游戏开发、影视前期概念设计 | |
PIXLR | 在线AI图像编辑,具备多种快速编辑功能 | 简单图像修改、应急图片处理 | |
NightCafe | 创作视觉效果突出的独特艺术作品 | 艺术创作、个性化图像生成 | |
Replicate | 提供AI模型部署平台,具备图像生成能力 | 技术开发、模型应用拓展 | |
Stable Diffusion | 开源的文本生成图像模型,支持多样化图像创作 | 图像创意生成、自由艺术创作 | |
ZMO.AI | 专注电商和社交媒体图像生成,贴合平台需求 | 电商商品展示、社交媒体营销 | |
KAPWING | 用于视频和图像编辑,适合内容创作者 | 多平台内容制作、视频图像一体化处理 | |
Kaiber | 生成创意动画和视频,增添视觉创意元素 | 动画制作、短视频特效 | |
Hotpot | 进行图像增强和设计改进,提升图像品质 | 图像质量提升、设计优化 | |
Looka | 专门设计AI生成专业品牌标识 | 品牌建设、企业形象设计 | |
PIXAI | 基于AI生成动漫风格图像 | 动漫创作、二次元内容生成 | |
视频生成与编辑 | VEED.IO | 轻松制作精良视频,简化视频制作流程 | 社交媒体视频制作、个人视频创作 |
Runway | 提供全流程AI视频编辑,支持3D艺术生成等高级功能 | 专业视频制作、创意视频创作 | |
Clipchamp | 微软推出的AI视频编辑软件,适用于企业和个人 | 企业宣传视频制作、个人视频处理 | |
D-ID | 将静态图像转换为会说话的头像和唇同步视频 | 虚拟角色创建、视频内容创新 | |
Fliki | 把文本转化为带有自然语音旁白的视频 | 知识科普视频制作、有声读物视频化 | |
音频与语音AI | Speechify | 实现文本转语音,模拟人声朗读文档和文章 | 阅读辅助、有声内容创作 |
ElevenLabs | 提供高保真语音克隆和多语言合成,支持情感语调调节 | 有声书录制、虚拟主播配音 | |
VocalRemover | 分离音乐轨道中的人声,制作卡拉OK版本 | 音乐制作、音频编辑 | |
AI生产力工具 | Tome | 自动生成演示文稿,辅助故事讲述 | 演讲展示、汇报材料制作 |
TheB.AI | 实现业务流程自动化,简化任务和工作流 | 企业业务流程优化、办公效率提升 | |
DeepSwap | 生成逼真的人脸交换效果,用于娱乐或特定场景 | 娱乐创作、影视特效(需合法使用) | |
Cutout.pro | 进行AI抠图和图像编辑,方便快捷 | 图像背景处理、图片合成 | |
Humata.ai | 从复杂文档中提取关键见解,辅助信息分析 | 学术研究、商业文档分析 | |
ZeroGPT | 检测文本是否由AI生成,识别AI创作内容 | 内容真实性检测、学术诚信审查 |
个人思考
- AI 时代个人竞争力:定义问题能力、批判性思维、创造性思想
- 提示工程 是去技术化的 AI 入口,非技术用户:
- 模板化思维:积累 “问题类型→提示结构” 的对应模板。例如,“对比分析类” 问题采用 “列出 XX 与 XX 的 5 个关键差异,包括优缺点” 的固定格式。
- 示例引导法:提供高质量示例(如 “理想回答的风格、长度、深度”),让 AI “照猫画虎”。例如,要求 AI “用类似 TED 演讲的风格撰写科技趋势分析”。
- 分阶段拆解:将复杂任务拆分为 “背景知识生成→核心问题分析→方案优化” 多步,避免一次性输入过多指令导致模型 “过载”。