PydanticAI 正在補上 AI 應用最容易被低估的那段工程債

很多 AI 專案真正卡住，不是在模型不夠強，也不是 prompt 還沒調到位。比較常見的情況是，demo 可以跑，接進產品就開始鬆動。

回傳格式一下對、一下錯。工具參數少一個欄位就整段失敗。客服流程跑到一半遇到外部 API timeout，只能整個重來。團隊裡每個人都說自己「大概知道 agent 在做什麼」，但真出事時，沒人能快速指出是哪一層先歪掉。

這就是 PydanticAI 值得看的原因。

它不是那種第一眼最華麗的框架。你打開 README，會發現它花很多篇幅在講 output validation、dependency injection、tool schema、observability、durable execution。這個編排很有意思，因為它透露了一個很務實的前提：今天多數團隊缺的不是再一個會思考的 agent，而是一個比較不容易在正式環境裡散掉的 AI 開發方式。

你以為在寫 prompt，其實在補型別債

PydanticAI 出自 Pydantic 團隊，這件事很重要。

它不是把 Python 世界已經熟悉的型別與資料驗證邏輯，硬套進 AI 熱潮裡當噱頭。它更像是把很多團隊早就在做、但做得很零碎的事情，重新整理成一套可維護的開發習慣。你要定義輸出結構、約束工具參數、處理失敗重試、接模型供應商、串 observability，這些本來就會做，只是以前常常散落在一堆 helper function、wrapper、prompt patch 與例外處理裡。

PydanticAI 的核心價值，在於它把這些零散工程債集中起來處理。

尤其在 Python 團隊裡，這件事很有感。因為當你的應用已經有 FastAPI、Pydantic、背景任務、資料庫模型時，AI 這一段若還停留在「先 call 一個 LLM API 再自己 parse JSON」，整體開發體驗會突然掉回很土法煉鋼的狀態。PydanticAI 想補的，就是這個落差。

它比較像正式產品的骨架，不像黑客松道具

如果只看功能表，PydanticAI 也有大家熟悉的 agent 能力，像多模型支援、tools、structured output、MCP、可串 observability，甚至開始把 durable execution、human-in-the-loop approval、graph support 放進來。

但它真正的判斷點，不是「功能多不多」，而是這些功能是不是圍繞同一件事服務：讓 AI 功能比較像可交付的系統，而不只是會動的範例。

這裡有一個很像真人使用過後才會注意到的細節。很多 agent 框架的首頁 demo，會很努力讓你三分鐘內看到模型自己調工具、自己規劃流程，看起來很聰明。PydanticAI 給人的感覺不太一樣，它比較常把「輸出要長什麼樣子」「工具參數怎麼驗」「失敗後怎麼補救」放在前面。這種順序其實沒有那麼討喜，但對真正要上線的人反而更有說服力。因為大家都知道，產品會壞掉的地方通常不是第一輪 demo 裡最亮眼的那一段。

幾種團隊會特別有感

第一種，是已經有 Python 後端基礎，想把 AI 納入既有服務的團隊。這種團隊最怕的是新功能進來之後，整體工程品質突然下降。PydanticAI 的型別與驗證思路，對他們很自然。

第二種，是**需要結構化輸出，不接受回答「大致上差不多」**的團隊。像是分類、抽取、風險判斷、摘要欄位生成、工單整理，這些任務只要有明確 schema，PydanticAI 的價值就會很直接。

第三種，是流程比較長、還會碰到人工介入或外部系統依賴的團隊。例如要跑多步工具調用、等待審批、遇到 API 失敗要續跑，這種時候 durable execution 與 tool approval 就不是加分題，而是基本盤。

反過來說，如果你只是想在兩小時內做個能聊天、能查資料的 demo，它未必是最輕的選擇。這點反而要講清楚，不然很容易誤判。

三個比較具體的場景

場景一，客服或內部支援系統

假設你要做一個客服助理，不只是回答 FAQ，還要去查帳戶狀態、建立工單、判斷風險等級。這時候最重要的不是模型講得多自然，而是輸出能不能穩定變成後續系統可接的資料。

PydanticAI 很適合這類情境，因為你可以先把輸出 schema 定好，例如回覆內容、是否升級人工、風險分數、下一步建議，然後把工具參數一起納入驗證。這樣模型就不是單純產生一段字，而是在你定義好的欄位裡工作。

場景二，文件抽取與資料整理流程

很多團隊會把 AI 用在 invoice、合約、履歷、投標文件、研究報告的欄位抽取。這類任務最常發生的問題，是你以為只差 prompt 微調，實際上是資料格式不穩，錯一欄就會污染後面整條流程。

PydanticAI 的結構化輸出在這裡很有價值，因為它讓「欄位合法」這件事變成顯性設計，而不是事後補救。你還是可能抽錯內容，但至少不會連資料型別、欄位名稱、必要欄位都漂掉。

場景三，內部營運工具與審批流程

有些 AI 流程不是一口氣跑完，中間會卡人工確認，像是寄信前審核、下採購單前確認、對外回覆前過法務。這種情境下，AI 不是要完全自主，而是要安全地停、等、續跑。

這也是 PydanticAI 比較務實的地方。它把 human-in-the-loop tool approval、durable execution 這些能力納入主體，不再假設所有流程都該追求「全自動」。

最麻煩的不是模型變笨，是你不知道哪一步先歪掉

很多團隊在 AI 專案裡感受到的挫折，其實來自可觀測性很差。

你只知道結果怪怪的，但不知道是 prompt 問題、工具回傳錯、模型理解錯、還是資料根本就髒。PydanticAI 跟 Pydantic Logfire 的整合，還有它對 tracing、evals、流程可追蹤的強調，正好補這一塊。

這件事聽起來沒有 agent 規劃、多代理協作那麼吸睛，可是對正式環境來說，通常更重要。因為只要系統要長期維運，你遲早會需要知道成本怎麼飆的、哪個工具最常失敗、哪一類輸出最常重試、模型換版本後哪些欄位先開始漂。

能不能觀測，最後會直接影響你敢不敢繼續把 AI 接進更核心的流程。

但它不是萬用解，也不是每個 agent 都值得上框架

PydanticAI 有幾個限制，必須講在前面。

1. 它很吃 Python 生態

這不是缺點，是邊界。如果你的主系統不在 Python，或團隊主要能力在 TypeScript、Go、Java，那 PydanticAI 再漂亮也不一定是對的。它最有優勢的地方，本來就建立在 Python 型別與 Pydantic 的既有文化上。

2. 它比較適合有 schema 的工作，不是所有任務都需要這麼重

如果你的任務本質上很開放，重點是創意生成、自由對話、快速試題，PydanticAI 的約束感可能會讓你覺得綁手綁腳。不是它做不到，而是投入的結構成本不一定划算。

3. 框架幫你整理複雜度，不代表複雜度消失

很多人會高估框架的魔法。 PydanticAI 可以讓 agent 比較有規矩，但不會自動替你解決 prompt 設計、資料品質、工具可靠性、業務規則模糊這些根本問題。輸出型別安全，不等於商業判斷正確。工具驗證通過，也不代表流程設計合理。

4. 發展速度快，穩定性心智要跟上

這個 repo 很活躍，最近 release 也相當密集。好處是功能演進快，壞處是團隊如果很怕 API 面或最佳實踐快速變動，就要有心理準備。對想追前沿能力的人是優點，對超保守環境則未必。

如果不選它，還有什麼路

如果你只想要最小成本做結構化輸出，直接用 OpenAI SDK 或 Anthropic SDK 加上 Pydantic，也許就夠了。

如果你要的是更重的多步工作流編排，LangGraph 這類框架還是更偏流程導向。

如果你的需求是先把 prompt、schema、LLM 輸出契約管住，但不一定要整套 agent 執行框架，像 Instructor 或其他較輕量方案，可能更簡潔。

這也是看 PydanticAI 最務實的方式。它不是要取代所有做法，而是卡在一個很明確的位置：當你的 AI 功能已經超過玩具階段，但又不想直接跳進過度龐大的 orchestration 世界，它很可能剛好。

結尾判斷

PydanticAI 不一定會是今年最吵的 AI 開源專案，但它很可能是那種真正被團隊留下來用的工具。

因為它瞄準的不是「讓 agent 看起來更聰明」，而是「讓 AI 功能比較像正常軟體一樣可以被設計、驗證、追蹤、維運」。這個方向沒有那麼性感，可是一旦你做的是要進產品、要接內部系統、要扛失敗成本的 AI 功能，價值就很實際。

比較務實的採用判斷是這樣：

如果你是 Python 團隊，且 AI 任務有清楚 schema、工具調用或長流程需求，PydanticAI 很值得現在開始看。
如果你只是要快速試點子、做聊天 demo，先別急著上它。
如果你已經被 JSON 解析、工具失敗、流程追蹤這些問題磨過幾輪，它大概會比你預期更有感。

有些框架是在幫你把未來想像得更大。 PydanticAI 比較像是在提醒你，先把會壞的地方補好，系統才走得遠。

英文 TL;DR

PydanticAI is one of the more practical open-source AI frameworks for Python teams that care about typed outputs, validation, tool safety, observability, and long-running workflows. Its value is not “more autonomous agents,” but making AI features less fragile when they move from demo to production. That said, it is still best suited for Python-heavy teams with clear schemas and workflow needs. If you just want a fast prototype or highly custom orchestration across many stacks, it may feel heavier than necessary.