最近部署部署大模型,尝试过ollama和vLLM等几款开源软件。简单做个比较
文件存储形式:
ollama是自己的格式,查看ollama的模型文件目录:
blobs下面是:
vLLM则是可以直接使用从huggingface或者modelscope下载的文件。
llama.cpp则是要使用gguf格式的模型,可以是自己生成或者从huggingface上下载(如果模型作者提供了这个格式的话)。
最近Qwen1.5在开源上比较积极,这3个它都有支持。
显存占用:
同规格的模型,ollama显存占用比vLLM少,而且在运行后,一段时间没有使用ollama会释放显存。如下图所示:
这是启动后一段时间没有调用的ollama和vLLM,可以看到ollama释放了显存,而vLLM没有。
本文暂时没有评论,来添加一个吧(●'◡'●)