知乎推出了名为「ZhiLight」的轻量级高效大模型推理框架。
据介绍,ZhiLight 目前兼容 OpenAI chat/completions 接口,监控指标上与 vLLM metrics对齐,便于日常使用及以及与 vLLM 等开源引擎的性能与稳定性对比。
ZhiLight 的优化侧重于 PCIe 卡间通讯优化、内存管理以及并发请求管理优化,同时还集成了 FlashAttention、Marlin、TensorRT、exllama 等开源项目。
其中,ZhiLight 通过计算与通讯 overlap 、以及低精度通讯等手段,单层 Transformer 计算时间降低了 40% 以上。
ZhiLight 引擎的性能表现:
开源地址:https://github.com/zhihu/ZhiLight
更多独家技术见解与热门话题讨论,尽在【开源中国 APP】,与数百万开发者一起,随时随地探索技术无限可能。
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表一休教程网的观点和立场。