共找到 1 个提示词
设计模型服务架构:模型格式标准化(ONNX/TensorRT)→在线推理vs批推理→GPU资源调度→模型版本管理→冷启动优化→自动扩缩→A/B推理→延迟/吞吐权衡→成本优化(Spot GPU)