BentoML 文档¶

BentoML 是一个统一推理平台，用于在任何云上使用任何模型部署和扩展 AI 系统。

精选示例¶

部署开源 LLM 端点

使用兼容 OpenAI 的 API 和 vLLM 推理后端服务大型语言模型。

LLM 推理：vLLM

使用 RAG 进行文档问答

使用开源嵌入模型和大型语言模型部署私有 RAG 系统。

RAG：文档摄取与搜索

服务扩散模型

部署具有灵活定制和优化批处理功能的图像生成 API。

Stable Diffusion XL Turbo

部署 ComfyUI 流水线

使用 ComfyUI 流水线通过队列执行自动化可重现的工作流。

ComfyUI：将工作流部署为 API

构建电话呼叫 Agent

使用开源模型和 Twilio 构建具有端到端流式处理能力的电话呼叫 Agent。

https://github.com/bentoml/BentoTwilioConversationRelay

LLM 安全：ShieldGemma

使用 Google 的安全内容审核模型保护您的 LLM API 端点免受有害输入的侵害。

LLM 安全：ShieldGemma

更多示例 👉

探索开发者如何使用 BentoML 构建应用。

概览

什么是 BentoML¶

BentoML 是一个统一推理平台，用于以生产级可靠性部署和扩展 AI 模型，无需复杂的管理基础设施。它使您的开发者能够使用自定义模型将 AI 系统的构建速度提高 10 倍，在您的云中高效扩展，并保持对安全性和合规性的完全控制。

The architecture diagram of the BentoML unified inference platform

BentoML 入门

使用 pip 安装 BentoML 开源模型服务框架，它作为 Python 包发布在 PyPI 上。
```
# Recommend Python 3.9+
pip install bentoml
```
注册 BentoCloud 获取免费试用。

操作指南¶

创建在线 API 服务

使用 BentoML 构建您的自定义 AI API。

创建在线 API 服务

创建部署

通过一条命令将您的 AI 应用程序部署到生产环境。

配置快速自动扩展以实现最佳性能。

使用 BentoML 在 GPU 上运行模型推理。

使用 GPU

使用 Codespaces 进行开发

使用您喜爱的 IDE 通过强大的云 GPU 进行开发。

使用 Codespaces 进行开发

加载和管理模型

使用 BentoML 加载和提供您的自定义模型。

加载和管理模型

保持关注¶

BentoML 团队通过以下渠道发布重要更新，例如主要产品版本发布，并分享教程、案例研究以及社区新闻。

要接收版本发布通知，请在 GitHub 上 Star 并 Watch BentoML 项目。有关版本说明和详细更改日志，请参阅版本发布页面。