BentoML 文档¶

BentoML 是一个统一推理平台，可用于在任何云上部署和扩展任何模型的 AI 系统。

精选示例¶

部署开源 LLM 端点

使用兼容 OpenAI 的 API 和 vLLM 推理后端服务大型语言模型。

LLM 推理：vLLM

使用 RAG 进行文档问答

使用开源 embedding 和大型语言模型部署私有 RAG 系统。

RAG：文档摄取与搜索

服务扩散模型

部署具有灵活定制和优化批量处理的图像生成 API。

Stable Diffusion XL Turbo

部署 ComfyUI 流水线

使用 ComfyUI 流水线通过排队执行自动化可重现的工作流。

ComfyUI：将工作流部署为 API

构建电话呼叫智能体

使用开源模型和 Twilio 构建具有端到端流处理能力的电话呼叫智能体。

https://github.com/bentoml/BentoTwilioConversationRelay

LLM 安全：ShieldGemma

使用 Google 的安全内容审核模型保护您的 LLM API 端点免受有害输入。

LLM 安全：ShieldGemma

更多示例 👉

探索开发者使用 BentoML 构建的内容。

概览

什么是 BentoML¶

BentoML 是一个统一推理平台，可用于部署和扩展具有生产级可靠性的 AI 模型，而无需管理基础设施的复杂性。它使您的开发者能够使用自定义模型以快 10 倍的速度构建 AI 系统，在您的云中高效扩展，并完全控制安全性和合规性。

The architecture diagram of the BentoML unified inference platform

开始使用 BentoML

使用 pip 安装 BentoML 开源模型服务框架，它作为 Python 包发布在 PyPI 上。
```
# Recommend Python 3.9+
pip install bentoml
```
注册 BentoCloud 免费试用。

操作方法¶

创建在线 API 服务

使用 BentoML 构建您的自定义 AI API。

创建在线 API 服务

创建部署

使用一个命令将您的 AI 应用部署到生产环境。

配置快速自动扩缩容以实现最佳性能。

使用 BentoML 在 GPU 上运行模型推理。

使用 GPU

使用 Codespaces 开发

使用您喜爱的 IDE 通过强大的云 GPU 进行开发。

使用 Codespaces 开发

加载和管理模型

使用 BentoML 加载和提供您的自定义模型。

加载和管理模型

保持关注¶

BentoML 团队通过以下渠道发布重要更新，例如主要产品发布，并分享教程、案例研究以及社区新闻。

要接收发布通知，请在 GitHub 上加星并关注 BentoML 项目。有关发布说明和详细的更新日志，请参阅发布页面。