BentoML 文档¶
BentoML 是一个统一推理平台,可用于在任何云上部署和扩展任何模型的 AI 系统。
精选示例¶
使用兼容 OpenAI 的 API 和 vLLM 推理后端服务大型语言模型。
使用开源 embedding 和大型语言模型部署私有 RAG 系统。
部署具有灵活定制和优化批量处理的图像生成 API。
使用 ComfyUI 流水线通过排队执行自动化可重现的工作流。
使用开源模型和 Twilio 构建具有端到端流处理能力的电话呼叫智能体。
使用 Google 的安全内容审核模型保护您的 LLM API 端点免受有害输入。
探索开发者使用 BentoML 构建的内容。
什么是 BentoML¶
BentoML 是一个统一推理平台,可用于部署和扩展具有生产级可靠性的 AI 模型,而无需管理基础设施的复杂性。它使您的开发者能够使用自定义模型以快 10 倍的速度构建 AI 系统,在您的云中高效扩展,并完全控制安全性和合规性。

开始使用 BentoML
使用 pip 安装 BentoML 开源模型服务框架,它作为 Python 包发布在 PyPI 上。
# Recommend Python 3.9+ pip install bentoml
注册 BentoCloud 免费试用。
操作方法¶
使用 BentoML 构建您的自定义 AI API。
使用一个命令将您的 AI 应用部署到生产环境。
配置快速自动扩缩容以实现最佳性能。
使用 BentoML 在 GPU 上运行模型推理。
使用您喜爱的 IDE 通过强大的云 GPU 进行开发。
使用 BentoML 加载和提供您的自定义模型。
保持关注¶
BentoML 团队通过以下渠道发布重要更新,例如主要产品发布,并分享教程、案例研究以及社区新闻。
要接收发布通知,请在 GitHub 上加星并关注 BentoML 项目。有关发布说明和详细的更新日志,请参阅发布页面。