基于CPU的AI推理加速技术在天翼云EMR云主机上的应用 2.2.1 Intel® Extension for PyTorch Intel® Extension for PyTorch(旧称Intel PyTorch Extension, IPEX)能够优化AI推理任务在英特尔硬件上的性能,支持AVX512与AMX。 2.2.2 xFasterTransformer xFasterTransformer(xFT)是由英特尔官方开源的AI推理框架,为大语言模型(LLM)在英特尔®至强®硬件平台上提供了一种深度优化的解决方案。xFT支持AVX512与AMX,并可在AMX上获得极致的推理性能。xFT目前支持的接口与模型如下: (更新时间:20240409) xFT还可支持多种数据类型,满足用户对不同精度的需求。xFT目前支持的数据类型包括: FP16 / BF16 / INT8 / W8A8 / INT4 / NF4 / BF16FP16 / BF16INT8 / BF16W8A8 / BF16INT4 / BF16NF4 / W8A8INT8 / W8A8INT4 / W8A8NF4(更新时间:20240409) xFT部署简便,您只需要一键安装插件,并在程序中加入几行代码,即可使用xFT对您的模型进行加速。具体实践可参考本文第3节的内容。 3. 英特尔 AI软件工具在天翼云主机上的应用实践 本节内容主要介绍基于Intel® Extension for PyTorch与xFasterTransformer,能够在天翼云主机上取得的性能指标,以及具体实施方法。 3.1 AI推理性能指标