知乎推出了名为「ZhiLight」的轻量级高效大模型推理框架。

据介绍,ZhiLight 目前兼容 OpenAI chat/completions 接口,监控指标上与 vLLM metrics对齐,便于日常使用及以及与 vLLM 等开源引擎的性能与稳定性对比。

ZhiLight 的优化侧重于 PCIe 卡间通讯优化、内存管理以及并发请求管理优化,同时还集成了 FlashAttention、Marlin、TensorRT、exllama 等开源项目。

其中,ZhiLight 通过计算与通讯 overlap 、以及低精度通讯等手段,单层 Transformer 计算时间降低了 40% 以上。

ZhiLight 引擎的性能表现:

知乎开源自研大模型推理引擎 ZhiLight插图

开源地址:https://github.com/zhihu/ZhiLight
 


更多独家技术见解与热门话题讨论,尽在【开源中国 APP】,与数百万开发者一起,随时随地探索技术无限可能。

免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表一休教程网的观点和立场。