推理服务

弹性推理服务
毫秒级响应

TensorRT 优化推理，AutoScaler 自动扩缩容。按调用量计费，0 运维成本。

获取定制方案查看定价

<50ms

推理延迟

吞吐量提升

99.9%

可用性 SLA

按量

计费方式

核心能力

高性能、高可用、低成本的推理服务

TensorRT 优化

深度学习推理引擎优化，延迟低于 50ms，吞吐量提升 5 倍

<50ms 延迟

AutoScaler 自动扩缩

根据 QPS 自动扩缩容，从容应对流量峰值，闲时自动缩容

自动扩缩

高可用保障

多副本容灾，99.9% 可用性 SLA，故障自动切换

99.9% SLA

安全隔离

计算资源隔离，数据加密传输，支持 VPC 私有网络

私有化部署

适用场景

LLM 对话

ChatGPT 类应用，实测 QPS 提升 3-5 倍

图像生成

Stable Diffusion / Midjourney 式推理

代码生成

CodeLlama 等代码大模型推理加速

知识库问答

RAG 场景，端到端延迟优化

技术规格

支持框架

TensorRT / vLLM / Ollama / Hugging Face TGI

优化技术

INT8 / FP16 量化、KV Cache、Continuous Batching

部署形式

API / Serverless / 私有化

计费模式

按调用量计费 / 包月套餐

可用性

99.9% SLA 保障

产品界面

简洁高效的控制台

一目了然的资源监控，流畅的任务管理，让 AI 开发更高效

console.zaicloud.com

系统正常

总 GPU

256

↑ 32 可用

运行中任务

4 训练中

本月费用

¥12.8k

较上月 -8%

账户余额

¥45.2k

充足

GPU 资源池

刷新

+ 新增资源

A100-SXM

75%

32 可用

¥8.50/时

使用

A100-NVL

45%

48 可用

¥7.20/时

使用

RTX 4090

90%

8 可用

¥2.50/时

使用

实时监控

GPU 利用率、任务进度、费用消耗一目了然

一键扩缩

根据负载自动扩缩容，无需人工干预

安全合规

数据加密隔离，符合企业安全要求

准备好部署推理服务了吗？

支持开源模型（Llama、Qwen 等）和自有模型，一键部署

联系售前顾问

弹性推理服务 毫秒级响应