程序员开发实例大全宝库

网站首页 > 编程文章正文

ollama, vLLM等几款大模型加速/服务化软件简单对比

zazugpt 2024-08-27 00:27:27 编程文章 17 ℃ 0 评论

最近部署部署大模型，尝试过ollama和vLLM等几款开源软件。简单做个比较

文件存储形式：

ollama是自己的格式，查看ollama的模型文件目录：

blobs下面是：

vLLM则是可以直接使用从huggingface或者modelscope下载的文件。

llama.cpp则是要使用gguf格式的模型，可以是自己生成或者从huggingface上下载（如果模型作者提供了这个格式的话）。

最近Qwen1.5在开源上比较积极，这3个它都有支持。

显存占用：

同规格的模型，ollama显存占用比vLLM少，而且在运行后，一段时间没有使用ollama会释放显存。如下图所示：

这是启动后一段时间没有调用的ollama和vLLM，可以看到ollama释放了显存，而vLLM没有。

上一篇：麒麟系统安装JAVA JDK教程（麒麟系统怎么安装apk）
下一篇：支持新版PubMed，这款神级插件让你的PubMed与众不同

猜你喜欢

2024-08-27 如何借助大数据模型进行自己的二次创作
2024-08-27 Anaconda + Pytorch + GLM3+CPU 本地部署
2024-08-27 你的pubmed又不能显示影响因子了，因为 ……
2024-08-27 Mac硬盘检测工具哪个好?这几款工具很实用
2024-08-27 昆仑万维宣布4月17日发布天工大模型3.0:号称性能超Grok 1.0
2024-08-27 4卡3090部署Qwen1.5 72B AWQ模型和吞吐量测试
2024-08-27 西门子Climatix控制器程序下载（西门子控制器官网）
2024-08-27 Jlink+JScope显示波形（jlink问题汇总）
2024-08-27 Java|jdk(命令行环境下编译和运行) + netbeans(图形界面集成工具)
2024-08-27 Chattts + Ollma（dims++官网）

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

最近发表