目录

在手机上运行LLM

本文介绍了阿里巴巴开源的可以在安卓手机上运行LLM的app,并展示了在骁龙7+ Gen2的手机上使用Qwen2.5-0.5B-Instruct-MNN模型进行短输入长输出和长输入短输出的测试结果。

阿里前几天开源了一个安卓手机运行llm的app ,据说相较于llama.cpp,预填充速度提高了8.6倍,解码速度快了2.3倍,下面是在我手机上的测试结果,更多之后补充:

测试环境

cpu:骁龙7+ gen2
model:Qwen2.5-0.5B-Instruct-MNN

测试结果

短输入长输出:

/ob/static/images/Pasted%20image%2020250126220218.png

长输入短输出:

/ob/static/images/Pasted%20image%2020250126220244.png