程序员开发实例大全宝库

网站首页 > 编程文章 正文

ollama, vLLM等几款大模型加速/服务化软件简单对比

zazugpt 2024-08-27 00:27:27 编程文章 17 ℃ 0 评论

最近部署部署大模型,尝试过ollama和vLLM等几款开源软件。简单做个比较

文件存储形式:

ollama是自己的格式,查看ollama的模型文件目录:

blobs下面是:

vLLM则是可以直接使用从huggingface或者modelscope下载的文件。

llama.cpp则是要使用gguf格式的模型,可以是自己生成或者从huggingface上下载(如果模型作者提供了这个格式的话)。

最近Qwen1.5在开源上比较积极,这3个它都有支持。

显存占用:

同规格的模型,ollama显存占用比vLLM少,而且在运行后,一段时间没有使用ollama会释放显存。如下图所示:

这是启动后一段时间没有调用的ollama和vLLM,可以看到ollama释放了显存,而vLLM没有。

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表