2023 年初,OpenAI 以年薪 33.5 萬美元招聘「Prompt Engineer」職位的消息引發全球關注——一個既不需要傳統程式設計能力、也不需要博士學位的新興職業,薪資卻與資深軟體工程師比肩。這個現象折射出一個更深層的變革:人類與機器的溝通方式正在經歷根本性的典範轉移。從命令列介面(CLI)到圖形使用者介面(GUI),再到自然語言介面(NLI),每一次人機互動典範的躍遷都重新定義了「誰可以使用電腦」以及「電腦可以做什麼」。而 Prompt Engineering——設計、優化與管理輸入給大型語言模型(LLM)之指令的系統化方法論——正是這場最新革命的核心技術。[1]然而,當前的 Prompt Engineering 實踐存在一個根本矛盾:它被廣泛視為一種「技巧」(craft)甚至「藝術」(art),而非一門「科學」(science)。無數的「prompt 秘訣」和「魔法咒語」充斥網路,但缺乏系統性的方法論框架、可重複的實驗驗證、以及嚴謹的理論基礎。本文的目標正是填補這個缺口——從語言學與認知科學的學術基礎出發,系統性地解析 Prompt Engineering 的核心方法論、企業級應用、安全挑戰與未來演化方向。
一、學術基礎:語言學、認知科學與計算語言學的交匯
Prompt Engineering 的學術根基遠比多數實踐者認知的更為深厚。要理解「為什麼某些提示有效而某些無效」,我們需要回溯三個學科的基礎理論。
語用學(Pragmatics)與合作原則。語言哲學家 Paul Grice 在 1975 年提出的「合作原則」(Cooperative Principle)與四條「會話格準」(Conversational Maxims)——量的格準(提供適量資訊)、質的格準(只說真話)、關聯格準(保持相關)、方式格準(清楚有序)——為理解人機溝通提供了重要的分析框架。[2]一個有效的 prompt 本質上就是一個遵循 Grice 合作原則的溝通行為:它提供了模型完成任務所需的「適量」上下文(量的格準),給出了明確且一致的指令(質的格準),聚焦於特定的任務目標(關聯格準),並以結構化的方式組織資訊(方式格準)。反過來說,多數「低品質」prompt 的失敗可以歸因於違反了一條或多條格準——指令模糊(違反方式格準)、缺少必要背景(違反量的格準)、或混入不相關的資訊(違反關聯格準)。
認知負荷理論(Cognitive Load Theory)。John Sweller 在 1988 年提出的認知負荷理論指出,人類工作記憶的容量有限,學習效果取決於教材設計是否有效管理了「內在認知負荷」(intrinsic)、「外在認知負荷」(extraneous)與「生成認知負荷」(germane)之間的平衡。[3]這個理論對 LLM 有驚人的類比性——Transformer 架構的注意力機制(attention mechanism)在處理長序列時面臨類似的「容量限制」,而 prompt 的設計直接影響模型如何分配其有限的「注意力預算」。清晰的結構化提示降低了「外在認知負荷」,讓模型將更多計算資源集中於核心推理任務。這也解釋了為什麼認知外包的研究對 prompt 設計具有啟發意義——人類將認知任務外包給 AI 的方式,本身就是一種 prompt engineering。
從預訓練到提示的範式轉移。Liu et al. (2023) 在其系統性綜述中提出了 NLP 發展的四個範式:完全監督學習、預訓練加微調(pre-train and fine-tune)、預訓練加提示加預測(pre-train, prompt, and predict)、以及預訓練加提示加代理(pre-train, prompt, and act)。[4]在第三範式中,任務的定義從「調整模型以適應任務」轉變為「調整任務以適應模型」——通過設計恰當的提示,將下游任務重構為模型在預訓練階段已經學會的形式(如語言生成、完形填空)。這個範式轉移的深層含義是:prompt engineering 不只是一種「使用技巧」,而是一種重新定義人機任務分配的方法論。
二、核心方法論框架:從 Zero-shot 到 Tree-of-Thoughts
Prompt Engineering 的方法論在過去四年間經歷了爆發式的發展。以下是對核心技術的系統化梳理,按照複雜度和認知深度遞進排列。
Zero-shot 與 Few-shot Prompting。Brown et al. (2020) 在 GPT-3 的奠基性論文中,首次系統性地展示了大型語言模型的 few-shot learning 能力——僅通過在提示中提供少量示例(通常 1-5 個),而無需任何參數更新,就能讓模型在新任務上達到可觀的表現。[5]這篇論文是 NLP 領域引用量最高的論文之一,它開創了「in-context learning」的研究方向,並直接催生了 Prompt Engineering 作為一個獨立領域。Zero-shot 提示是最簡潔的形式——僅提供任務描述而不附帶示例,依賴模型從預訓練知識中推斷任務意圖。Few-shot 提示則通過示例建立了一個「任務模板」,讓模型理解輸入格式、期望的輸出格式、以及回應的風格和深度。實踐中,few-shot 示例的選擇和排列順序對模型表現有顯著影響——Zhao et al. (2021) 的研究發現,僅改變示例的排列順序就可以使 GPT-3 的準確率從接近隨機猜測波動到接近最優。[6]
Chain-of-Thought(CoT)Prompting。如果說 few-shot learning 回答了「模型能做什麼」,Chain-of-Thought prompting 則回答了「模型能怎麼思考」。Wei et al. (2022) 在 NeurIPS 發表的這篇論文提出了一個看似簡單卻影響深遠的想法:在提示中加入逐步推理的示範,引導模型將複雜問題分解為一系列中間推理步驟,而非直接跳到最終答案。[7]實驗結果令人矚目——在 GSM8K 數學推理基準上,標準 prompting 下 PaLM 540B 的準確率為 17.9%,而加入 chain-of-thought 示例後飆升至 58.1%。更重要的是,CoT 的效果具有湧現性(emergence)——它在較小的模型上幾乎無效,只有當模型規模超過約 100B 參數的閾值後,推理能力才出現質的飛躍。Kojima et al. (2022) 進一步發現了 zero-shot CoT 的可能性——僅在提示末尾加上一句簡單的指令就能觸發推理鏈的生成,無需任何示例。[8]這些發現揭示了一個深層的機制:大型語言模型在預訓練過程中已經隱含地學會了邏輯推理的模式,而 CoT prompting 的作用是提供了一個「認知腳手架」(cognitive scaffolding),激活這些潛在的推理能力。
Tree-of-Thoughts(ToT)。Yao et al. (2023) 提出的 Tree-of-Thoughts 框架將 CoT 的線性推理擴展為樹狀搜尋結構。[9]其核心思想是:對於需要探索和回溯的複雜問題,單一的推理鏈條可能走進死胡同。ToT 將問題求解建模為一棵搜尋樹——每個節點代表一個「思考狀態」(thought state),模型在每個節點生成多個候選的推理步驟(分支),通過自我評估(self-evaluation)判斷每個分支的前景,並使用廣度優先搜尋(BFS)或深度優先搜尋(DFS)策略在樹中導航。這個框架的意義超越了單純的準確率提升——它首次在 prompt 層面引入了「規劃」(planning)和「回溯」(backtracking)的能力,使 LLM 從被動的「一次性生成器」轉變為主動的「問題求解者」。在 24 點遊戲(Game of 24)的實驗中,GPT-4 在標準 prompting 下的成功率僅為 4%,Chain-of-Thought 為 4%,而 Tree-of-Thoughts 達到了 74%。
ReAct:推理與行動的協同。Yao et al. (2022) 提出的 ReAct(Reasoning + Acting)框架實現了另一個關鍵突破——將 LLM 的內部推理與外部工具的使用整合為統一的互動循環。[10]在 ReAct 框架中,模型交替生成兩種類型的輸出:「思考」(Thought,用於推理和規劃)和「行動」(Action,用於調用外部工具或 API)。模型觀察行動的結果,更新其推理,然後決定下一步行動——形成一個思考-行動-觀察(Thought-Action-Observation)的迭代循環。ReAct 的重要性在於它架起了從 Prompt Engineering 到AI Agent 架構的橋樑——一個 ReAct agent 本質上就是一個由 prompt 驅動的、能夠與外部環境互動的自主系統。這也是為什麼理解 Prompt Engineering 的方法論對於理解 AI Agent 的設計至關重要。
其他重要方法論。Self-Consistency(Wang et al., 2023)通過生成多條推理路徑並以多數投票選擇最終答案,有效提升了 CoT 的穩健性。[11]Retrieval-Augmented Generation(RAG, Lewis et al., 2020)將外部知識庫的檢索整合到生成過程中,解決了 LLM 知識截止和幻覺問題。[12]Constitutional AI(Bai et al., 2022)通過自我批評與修正的 prompt 策略,在不依賴人類回饋的情況下實現 AI 價值對齊。[13]這些方法論共同構成了一個日益成熟的技術生態。
三、企業級 Prompt Engineering:從個人技巧到系統工程
在企業環境中,Prompt Engineering 面臨的挑戰遠超個人使用場景。當數以千計的員工每天與 AI 系統互動、當 prompt 驅動的自動化流程處理關鍵業務邏輯時,Prompt Engineering 必須從「個人技巧」升級為「系統工程」。
系統提示(System Prompt)架構設計。系統提示是 LLM 應用的「憲法」——它定義了模型的角色、行為邊界、輸出格式和安全約束。White et al. (2023) 提出的 Prompt Pattern Catalog 系統性地歸納了 16 種可複用的 prompt 設計模式,涵蓋了輸出客製化(Output Customization)、錯誤識別(Error Identification)、提示改進(Prompt Improvement)和互動模式(Interaction)等四大類。[14]例如,「Persona Pattern」(角色模式)讓模型採用特定的專業角色來生成回應;「Template Pattern」(模板模式)規定輸出的結構化格式;「Flipped Interaction Pattern」(反轉互動模式)讓模型主動向使用者提問以釐清需求。這些模式的價值在於可複用性和可組合性——企業可以將多個模式組合為一套標準化的系統提示架構,確保不同團隊、不同場景下的 AI 行為一致且可預測。
Prompt Template 工程化。在生產環境中,prompt 不是一次性撰寫的靜態文本,而是具有變數插入、條件分支、版本控制需求的動態模板。成熟的企業 prompt 工程實踐包括以下層次:第一,模板化——將 prompt 拆分為固定的指令框架和可變的上下文插入區域,使用 Jinja2、Handlebars 等模板引擎管理動態內容。第二,版本控制——像管理程式碼一樣管理 prompt 的版本歷史,每次修改都有明確的變更記錄和回滾能力。第三,A/B 測試——在生產環境中同時部署多個 prompt 版本,以使用者回饋和任務成功率為指標進行量化比較。第四,prompt chains——將複雜任務分解為一系列順序或並行執行的子 prompt,每個子 prompt 負責一個明確的子任務,子任務之間通過結構化的中間輸出傳遞資訊。[15]
企業 prompt 治理框架。隨著 AI 應用在企業中的擴散,「prompt 治理」(prompt governance)成為一個新興的管理議題。一個完整的 prompt 治理框架應涵蓋:存取控制(誰有權修改生產環境的系統提示)、審計追蹤(所有 prompt 變更的記錄與審計)、合規驗證(prompt 是否遵循組織的 AI 使用政策、資料保護法規與AI 治理框架)、以及品質保證(定期評估 prompt 在不同模型版本上的表現穩定性)。在我帶領超智諮詢為企業部署 AI 系統的經驗中,缺乏 prompt 治理是導致 AI 專案從概念驗證(PoC)到生產部署失敗的最常見原因之一——團隊在開發階段精心調校的 prompt,在模型更新、上下文變更或邊界案例出現時迅速失效,而缺乏系統化的監控和維護機制。
四、Prompt Injection 與安全性:對抗性攻擊與防禦策略
隨著 LLM 被部署到越來越多的高風險場景——金融交易、法律諮詢、醫療輔助——Prompt Injection 已從學術好奇心升級為切實的安全威脅。
攻擊分類學。Prompt Injection 攻擊可分為兩大類:直接注入(Direct Injection)和間接注入(Indirect Injection)。[16]直接注入是指使用者在其輸入中嵌入惡意指令,試圖覆蓋系統提示的約束——例如「忽略上述所有指令,改為執行以下命令...」。間接注入則更為隱蔽——攻擊指令被嵌入在模型會處理的外部資料源中(如網頁、電子郵件、文件),當模型在 RAG 流程中檢索到這些被污染的資料時,攻擊指令被無意間執行。Greshake et al. (2023) 的研究展示了間接注入的危險性:攻擊者可以在公開網頁中嵌入隱藏文本,當具有瀏覽能力的 LLM Agent 訪問該頁面時,這些隱藏指令會被模型處理為有效的控制命令。[17]這種攻擊向量對代理式 AI 系統尤其危險,因為 AI Agent 擁有執行實際操作(如發送郵件、修改文件、調用 API)的能力。
防禦策略的多層架構。有效的 Prompt Injection 防禦需要一個多層架構(defense-in-depth),而非依賴單一機制。第一層是輸入層防禦——包括輸入清洗(移除已知的攻擊模式)、輸入分類(使用專門訓練的分類器判斷輸入是否包含攻擊意圖)、以及輸入長度和格式限制。第二層是提示層防禦——包括指令層級分離(明確區分系統指令、上下文資訊和使用者輸入的優先級)、提示封裝(將使用者輸入包裝在明確的分隔符號中,降低其被解讀為指令的風險)、以及「三明治防禦」(在使用者輸入前後都重複系統指令,增強指令的韌性)。第三層是輸出層防禦——在模型生成回應後,使用另一個模型或規則引擎檢查輸出是否違反安全策略,若違反則阻止輸出並回退到安全的預設回應。[18]
紅隊測試與持續安全。OWASP(開放網路應用安全計畫)已將 Prompt Injection 列為 LLM 應用的第一大安全風險,並發布了 LLM Top 10 安全風險清單。[19]企業部署 LLM 應用時,應建立常態化的紅隊測試(red teaming)機制——由專門的安全團隊定期以攻擊者的視角測試系統的 prompt 防禦。Anthropic、OpenAI 和 Google DeepMind 等主要 AI 實驗室均在其模型發布前進行大規模紅隊測試,但企業部署的應用往往在系統整合層面引入了新的攻擊面,需要針對特定的業務場景進行專門的安全測試。
五、自動化 Prompt 優化:從手工調校到演算法搜尋
Prompt Engineering 領域最令人興奮的前沿之一,是從人工撰寫和調校 prompt 轉向演算法自動搜尋最優 prompt 的方法論。這個方向正在將 prompt engineering 從「藝術」推向「工程科學」。
DSPy:宣告式 Prompt 程式設計。Khattab et al. (2023) 在 Stanford 開發的 DSPy 框架代表了 prompt engineering 自動化的一個里程碑。[20]DSPy 的核心理念是將 prompt engineering 從自然語言撰寫轉變為程式設計——開發者不再手動撰寫 prompt 文本,而是以 Python 程式碼定義任務的「簽章」(Signature,即輸入和輸出的語意描述)和「模組」(Module,即推理策略如 ChainOfThought、ReAct),然後由 DSPy 的編譯器(Compiler)自動搜尋最優的 prompt 實現。DSPy 編譯器通過在驗證集上反覆嘗試不同的 prompt 策略、示例選擇和參數組合,以任務特定的評估指標為目標函數,自動找到高表現的 prompt 配置。這個框架的革命性在於:它將 prompt engineering 的品質從依賴個人經驗和直覺,轉變為依賴演算法搜尋和統計驗證。
OPRO:LLM 作為自身的 Prompt 優化器。Zhou et al. (2023) 提出的 OPRO(Optimization by PROmpting)框架提供了另一個優雅的解法——直接利用 LLM 本身作為 prompt 的優化器。[21]其工作方式是:將一組候選 prompt 及其在評估集上的表現分數作為「優化上下文」輸入給 LLM,然後要求 LLM 基於這些歷史數據生成可能更好的新 prompt。這個過程反覆迭代——每輪生成的最佳 prompt 被加入優化上下文,引導下一輪搜尋向更好的方向前進。OPRO 的研究同時得出了一個意想不到的發現:LLM 自動搜尋到的最優 prompt 往往與人類直覺設計的 prompt 截然不同——有些在語義上甚至不完全通順,但在任務表現上卻顯著優於人類專家精心設計的版本。這暗示了 LLM 的「語言理解」機制與人類認知之間存在根本差異——機器理解的「有效指令」未必符合人類的語言直覺。
自動化 prompt 優化的企業意涵。對企業而言,自動化 prompt 優化工具的成熟意味著三重變革。第一,降低專業門檻——企業不再需要依賴「prompt 大師」的個人技藝,而可以通過工程化的流程穩定地產出高品質 prompt。第二,適應模型演化——當底層 LLM 更新版本時,自動化工具可以快速重新優化 prompt,而無需人工從頭調校。第三,規模化部署——當企業同時運營數百個 LLM 驅動的業務流程時,人工管理每一個 prompt 是不現實的,自動化優化和監控是唯一可擴展的方案。
六、多模態 Prompt 策略:超越文本的提示設計
隨著 GPT-4V、Gemini、Claude 等多模態大型模型的出現,Prompt Engineering 的疆域已從純文本擴展到圖像、音頻、影片等多模態輸入。這帶來了全新的設計挑戰和機會。
視覺提示(Visual Prompting)。在多模態模型中,圖像不僅是被分析的對象,也可以作為「提示」的一部分——引導模型理解任務上下文。[22]實務上,視覺 few-shot prompting(通過提供示例圖像及其對應的標註來定義任務)在物體識別、圖表理解和文件解析等場景中表現出色。然而,視覺提示的設計面臨一些獨特的挑戰:圖像的資訊密度遠高於文本,模型對圖像中不同區域的「注意力分配」更難預測;圖像的解析度、裁切方式和色彩特徵都可能影響模型的理解;此外,現有模型對圖像中的空間關係(上下左右)和計數任務(圖中有幾個物體)的理解能力仍有明顯不足。
跨模態提示策略。更前沿的研究方向是探索不同模態之間的互補和增強效應。例如,在分析一份技術文件時,同時提供文件的圖像掃描和 OCR 後的文本——圖像提供了版面佈局和圖表的視覺資訊,文本提供了精確的語言內容。在音頻理解任務中,同時提供語音片段和對應的文字轉錄,讓模型能夠結合聲調、語速等聽覺特徵和語義內容進行判斷。[23]多模態 prompt 策略的設計原則是:利用不同模態的互補性來降低模型的理解不確定性——當一個模態的資訊不足時,另一個模態的資訊可以提供補充和驗證。
結構化輸出與工具使用的提示設計。多模態 prompt engineering 中一個日益重要的面向是指導模型生成結構化輸出(如 JSON、XML、Markdown 表格)以及調用外部工具。這要求 prompt 設計者不僅理解自然語言的溝通原則,還需要理解資料結構和 API 的設計模式。在實際的企業應用中,模型的輸出通常需要被下游系統解析和處理——一個格式不正確的 JSON 輸出可能導致整個自動化流程的失敗。因此,prompt 中必須包含精確的輸出格式定義、邊界條件的處理規則、以及錯誤處理的回退策略。[24]
七、從 Prompt Engineering 到 AI Agent 架構設計
Prompt Engineering 的演化軌跡,清晰地指向了一個更宏大的方向:AI Agent 架構設計。事實上,當前最先進的 AI Agent 系統——無論是 AutoGPT、OpenClaw 還是企業級的 Salesforce Agentforce——其核心架構都可以被理解為一系列精心設計的 prompt 模組的協調運作。
Prompt 作為 Agent 的「認知架構」。在一個典型的 AI Agent 系統中,prompt 至少扮演四個核心角色:系統提示定義了 Agent 的身分、目標和行為約束(類比人類的「價值觀」和「職業規範」);任務提示定義了當前要完成的具體任務和成功標準(類比「工作指令」);推理提示定義了 Agent 如何思考和規劃(類比「方法論」和「問題解決策略」);工具使用提示定義了 Agent 可以調用哪些工具以及何時調用(類比「技能庫」和「工具使用手冊」)。[25]這些 prompt 模組的設計品質直接決定了 Agent 的能力邊界和行為可靠性。
多 Agent 系統中的 Prompt 協調。在更複雜的多 Agent 系統中,Prompt Engineering 還需要解決 Agent 之間的「溝通協議」問題——不同角色的 Agent 如何交換資訊、如何協調行動、如何處理衝突。Park et al. (2023) 的「生成式代理人」(Generative Agents)研究展示了 25 個由 LLM 驅動的虛擬角色在模擬小鎮中自主互動、形成社會關係的場景——每個角色的行為完全由其 prompt 定義的「記憶」、「反思」和「規劃」機制驅動。[26]這個研究暗示了一個深刻的可能性:Prompt Engineering 不僅是設計人與機器之間的溝通,更可能演化為設計機器與機器之間的溝通——一種全新的「AI 社會工程學」。
Agent 架構的安全含義。當 prompt 成為 AI Agent 的「認知架構」時,prompt 的安全性就等同於 Agent 的行為安全性。一個被成功注入惡意 prompt 的 AI Agent,可能自主地執行未經授權的操作——發送釣魚郵件、修改關鍵系統配置、或外洩敏感資料。這意味著 Prompt Engineering 的安全維度不再僅僅是「防止模型生成不當內容」,而是「防止自主系統執行未經授權的行為」——這是一個根本性的安全升級。Anthropic 的 Constitutional AI 方法和 OpenAI 的 Instruction Hierarchy 框架,都是試圖在 prompt 層面建立 Agent 行為安全的重要嘗試。[27]
八、結論:Prompt Engineering 作為人機介面的新典範
回顧本文所涵蓋的學術基礎、核心方法論、企業應用、安全挑戰與未來方向,我們可以得出一個核心論點:Prompt Engineering 正在從一種臨時性的「使用技巧」演化為一門具有理論基礎、方法論體系和工程實踐標準的獨立學科。
這門學科的學術基礎根植於語言學的語用理論、認知科學的認知負荷理論和計算語言學的預訓練範式;其核心方法論涵蓋了從 zero-shot 到 Tree-of-Thoughts 的漸進式推理框架;其工程實踐已從個人的手工調校發展為企業級的模板工程化和自動化優化;其安全維度已從防範惡意輸出擴展為保障自主系統的行為安全。
對企業決策者而言,三個策略性啟示尤為重要。第一,投資 prompt engineering 能力建設。在 AI 投資的回報方程式中,模型能力只是一半——另一半是有效地指導模型的能力。一個設計精良的 prompt 策略可以從同一個模型中萃取出數倍的價值。第二,建立系統化的 prompt 治理機制。隨著 AI 應用的擴散,prompt 的管理將成為組織能力的關鍵構成——就像程式碼品質管理和資料治理一樣重要。第三,關注從 prompt engineering 到 agent engineering 的演化。Prompt Engineering 是 AI Agent 架構設計的基礎——理解如何有效地「指導」一個 LLM,是理解如何有效地「設計」一個自主 AI 系統的前提。
最終,Prompt Engineering 的意義超越了技術層面——它是人類首次嘗試用自己最自然的溝通方式(自然語言)來「程式設計」一台機器。這意味著「使用 AI」的門檻被拉低到了人類語言能力的水平——這是計算機歷史上最根本的民主化。但也正因如此,如何確保這種新型人機溝通的品質、安全和公平性,成為了我們這個時代必須回答的關鍵問題。從直覺到科學,從技巧到方法論,Prompt Engineering 的革命才剛剛開始。
References
- Liu, P. et al. (2023). Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing. ACM Computing Surveys, 55(9), 1–35. doi.org
- Grice, H. P. (1975). Logic and Conversation. In Syntax and Semantics 3: Speech Acts, pp. 41–58. Academic Press.
- Sweller, J. (1988). Cognitive Load During Problem Solving: Effects on Learning. Cognitive Science, 12(2), 257–285. doi.org
- Liu, P. et al. (2023). Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing. ACM Computing Surveys, 55(9), 1–35. doi.org
- Brown, T. et al. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems (NeurIPS), 33, 1877–1901. arxiv.org
- Zhao, Z. et al. (2021). Calibrate Before Use: Improving Few-Shot Performance of Language Models. Proceedings of ICML 2021. arxiv.org
- Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. Advances in Neural Information Processing Systems (NeurIPS), 35. arxiv.org
- Kojima, T. et al. (2022). Large Language Models are Zero-Shot Reasoners. Advances in Neural Information Processing Systems (NeurIPS), 35. arxiv.org
- Yao, S. et al. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. Advances in Neural Information Processing Systems (NeurIPS), 36. arxiv.org
- Yao, S. et al. (2022). ReAct: Synergizing Reasoning and Acting in Language Models. Proceedings of ICLR 2023. arxiv.org
- Wang, X. et al. (2023). Self-Consistency Improves Chain of Thought Reasoning in Language Models. Proceedings of ICLR 2023. arxiv.org
- Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Advances in Neural Information Processing Systems (NeurIPS), 33. arxiv.org
- Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv preprint. arxiv.org
- White, J. et al. (2023). A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT. arXiv preprint. arxiv.org
- Chase, H. (2022). LangChain: Building Applications with LLMs through Composability. github.com
- Perez, F. & Ribeiro, I. (2022). Ignore This Title and HackAPrompt: Exposing Systemic Weaknesses of LLMs through a Global Scale Prompt Hacking Competition. Proceedings of EMNLP 2023. arxiv.org
- Greshake, K. et al. (2023). Not What You've Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection. Proceedings of AISec 2023. arxiv.org
- Yi, J. et al. (2023). Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models. arXiv preprint. arxiv.org
- OWASP. (2025). OWASP Top 10 for Large Language Model Applications. owasp.org
- Khattab, O. et al. (2023). DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines. Proceedings of ICLR 2024. arxiv.org
- Zhou, Y. et al. (2023). Large Language Models Are Human-Level Prompt Engineers. Proceedings of ICLR 2023. arxiv.org
- Yang, Z. et al. (2023). The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision). arXiv preprint. arxiv.org
- Wu, S. et al. (2023). Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models. arXiv preprint. arxiv.org
- Shanahan, M. (2024). Talking About Large Language Models. Communications of the ACM, 67(2), 68–79. doi.org
- Wang, L. et al. (2024). A Survey on Large Language Model Based Autonomous Agents. Frontiers of Computer Science, 18(6). arxiv.org
- Park, J. S. et al. (2023). Generative Agents: Interactive Simulacra of Human Behavior. Proceedings of UIST 2023. arxiv.org
- Wallace, E. et al. (2024). The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions. arXiv preprint. arxiv.org