推理服务解决方案
弹性扩缩容 + 低延迟推理,让 AI 应用降本增效
弹性扩缩容
AutoScaler 根据 QPS 自动扩缩容,从容应对流量峰值
低延迟推理
TensorRT / vLLM 优化,毫秒级响应
高可用架构
多副本部署,99.9% 可用性保障
按调用计费
0.001 元 / 次起,按实际调用量计费
技术规格
支持框架 vLLM / TensorRT / Triton / ONNX Runtime
模型格式 HuggingFace / Safetensors / ONNX
部署方式 API / SDK / WebSocket
计费模式 按调用次数计费 / 包月套餐