Tags

第 8 頁

Inference

BentoML：AI 模型真的要上線時，缺的常常不是推理框架，而是服務化那一層

NVIDIA Dynamo 值得現在看嗎？推理成本真正麻煩的不是模型跑不起來，而是多 GPU 叢集不會自己協調

TensorRT-LLM：開源模型推理要榨出效能，最後常常會回到 NVIDIA 生態的硬底層

KServe：模型服務上線真正麻煩的不是包成 API，而是讓推理變成 Kubernetes 上的穩定平台

llama.cpp 不是聊天玩具，它正在變成開源模型落地的本地推理底座

BentoML 正在補上 AI 團隊最容易低估的交付層

SGLang 值得現在看嗎？開源模型真正難的不是跑起來，而是撐住延遲、吞吐與成本

Ollama：把本地大模型變簡單了，但別把它當成完整的 AI 平台