全面支持DeepSeek-1.5B/3B/7B/8B/14B/32B/70B/671B系列模型,通过量化与分布式推理技术,显著提升模型推理效率。结合Megatron-LM框架,实现多GPU并行流水线推理,吞吐量提升3倍以上。
【关闭】