在手机上运行LLM
目录
本文介绍了阿里巴巴开源的可以在安卓手机上运行LLM的app,并展示了在骁龙7+ Gen2的手机上使用Qwen2.5-0.5B-Instruct-MNN模型进行短输入长输出和长输入短输出的测试结果。
阿里前几天开源了一个安卓手机运行llm的app ,据说相较于llama.cpp,预填充速度提高了8.6倍,解码速度快了2.3倍,下面是在我手机上的测试结果,更多之后补充:
测试环境
cpu:骁龙7+ gen2
model:Qwen2.5-0.5B-Instruct-MNN