Tags
第 4 頁
Inference
llama.cpp 不是聊天玩具,它正在變成開源模型落地的本地推理底座
BentoML 正在補上 AI 團隊最容易低估的交付層
SGLang 值得現在看嗎?開源模型真正難的不是跑起來,而是撐住延遲、吞吐與成本
Ollama:把本地大模型變簡單了,但別把它當成完整的 AI 平台