RError.com

RError.com Logo RError.com Logo

RError.com Navigation

  • 主页

Mobile menu

Close
  • 主页
  • 系统&网络
    • 热门问题
    • 最新问题
    • 标签
  • Ubuntu
    • 热门问题
    • 最新问题
    • 标签
  • 帮助
主页 / 问题 / 1606069
Accepted
Kadenza
Kadenza
Asked:2025-02-01 19:33:50 +0000 UTC2025-02-01 19:33:50 +0000 UTC 2025-02-01 19:33:50 +0000 UTC

LLM模型的硬件参数如何选择?

  • 772
比赛还有4天就结束。回答该问题可能会获得+50声誉点的奖励。 Kadenza希望得到这个问题 更详细的答案。

如何确定语言模型的 RAM、视频内存等的数量。至少非常粗略地讲。

从两个部分来理解所需的能力是很有趣的:

  1. 推出完成的模型。
  2. 微调。

在影响硬件功率的重要参数中,我确定了以下几点:

  1. 参数的数量(3B、16B、128B……)——越多,所需硬件越强大。
  2. 量化(Q3...Q8 或 FP16...FP32)——越多,所需的硬件越强大。
  3. 上下文窗口的大小 - 越大,所需的硬件越强大。

其他哪些型号的特性会极大地影响功耗?那么如何根据这些特点,粗略的估算出一台服务器或者PC的具体功率呢?

如有任何建议我将不胜感激。

машинное-обучение
  • 3 3 个回答
  • 85 Views

3 个回答

  • Voted
  1. Best Answer
    EvgeniyZ
    2025-02-06T00:18:58Z2025-02-06T00:18:58Z

    你的问题的答案很简单:你选择的模型的整个尺寸必须完全适合你的 GPU 的 VRAM。

    如果我们更详细地讨论,那么很大程度上取决于模型的类型、量化、在哪里和如何启动等等。毕竟,该模型可以在CPU或GPU上启动,其中也存在阵营之分(Nvidia / AMD / Intel / Apple),这也极大地影响了一切,因为Nvidia拥有CUDA和其他可将效率提高数倍的技术,而其他制造商则无法夸耀这一点。

    现在稍微介绍一下模型的重要参数(你列出了所有参数):

    • 参数数量——这是模型的“大脑”。也就是说,这是在训练期间已经包含在模型中的一定量的数据。数量越多,答案越好、质量越高,但规模也越大。我记得我曾向一位对编程相差甚远的朋友解释过这一点,我给他举了这样的例子:“想象一下,你让一个 8 岁的孩子写一篇文章,而你把同样的任务交给一个 16 岁的孩子。他们中谁会写得更完整、更正确?”我认为这对这些事情是什么进行了非常好的解释B。当然,这是一个夸张的比较,但仍然如此。

    • 上下文 - 目前,我认为这个值有点模糊,因为当启动本地模型时,假设上下文为 8k,你可以将其限制为 100,或者相反,将上下文扩展为 30k。这很大程度上取决于模型、如何训练以及基于什么。粗略地说,上下文是你发送给模型并且模型能够成功消化的一组数据。它越大,所需的 VRAM 就越大。

    • 量化 - 将其视为 JPEG 图像压缩,压缩百分比越高,图像丢失的细节越多,但尺寸越小。模型也类似,因为量化越强,模型损失越大,其答案的质量就会低于预期。 (PS 根据我的测试,拥有更多参数但具有强(可接受!)压缩比没有压缩的“愚蠢”模型更好。)

    因此,有了所有这些,结论就很简单了:要在本地运行模型,您需要一个具有足够视频内存的 Nvidia 显卡,用于特定模型 + 其上下文。

    生活中的例子:
    我有一个旧处理器(I7-3770k)、16 GB RAM 和 RTX2060(12 GB VRAM)。如你所见,我的处理器很旧,插槽很旧,主板很旧,RAM 也很旧,但多亏了显卡,我可以轻松运行任何重量约为 10 GB 的型号,它们都会在几秒钟内生成大文本。目前我有一个具有 12B 参数和 Q5 量化(GGUF)的模型,文件大小为 ~8 GB + 上下文 = ~10 GB 的 VRAM 使用量,该模型完全适合。如果我采用 Q6 量化,模型重量将达到约 9 GB,加上上下文,将占用约 11 GB 的 VRAM,这几乎太多了,这意味着在运行几乎任何占用 VRAM 的应用程序时,模型将不再适合,约 5% 将进入 RAM,这会降低生成速度。

    好了,有了这些信息,现在您可以自己回答自己个人需要什么样的模型、用于什么目的、是否需要大量的参数等等。一旦找到适合您的内容,请查看文件大小以了解需要多少 VRAM,然后考虑硬件。不需要快速磁盘,它只会在将模型加载到 VRAM 时使用,如果它永久存在,则不会使用该磁盘。需要 CPU,但使用量很少,用于最少的计算(在我的情况下,生成期间的负载约为 15%),仅在 CPU 上启动时才使用 RAM(VRAM 不在那里使用,模型被加载到 RAM 中)或没有足够的 VRAM。

    至于额外的训练,那里的一切都稍微复杂一些,但总的来说,标准是+-相似的,但最好有一个储备,因为数据集在那里也有很大的影响。现在,如果您从头开始学习……嗯,是的,您需要疯狂的资源。

    • 1
  2. Тим Муранов
    2025-02-01T20:19:12Z2025-02-01T20:19:12Z

    据我所知,LLM 可以在任何上运行(甚至 RP zero)。只是硬件越强大,速度就会越快。例如,我的笔记本电脑(英特尔酷睿 i5、4GB GPU)上安装了 phi-3(3.8 B),它每秒可以思考 2-3 个字符。至于训练之前,没有必要使用自己的硬件。您可以使用租用的虚拟机。在这里,这个人通过信件向喇嘛进行了这样的教导。

    • -1
  3. Fox Fox
    2025-02-03T22:19:12Z2025-02-03T22:19:12Z

    当你脚下有一袋钱时,你就不需要大脑了。当您需要在分配的预算内选择最强大的设备时,您需要智慧。我这样做:我找出用户愿意花费的金额,然后进入门户网站,那里有来自所有在线商店的信息(!)。我选择了几个选项并将它们发送给客户。事实上,最近几次的选择仅有 2-3 台计算机。很难找到价格合理、功能真正强大的计算机。正如我已经说过的,您只需花费很少的钱,就可以去商店购买,并指着最贵的一个。没有不必要的、性能弱的计算机,只有一点点钱。总是!

    例如,这里是 Acer Predator Triton 17 X PTX17-71-99W5 (NH.QK3AA.001) 笔记本电脑。价格:4709 美元。我不会拒绝。它对于任何任务(包括列出的任务)来说都是最好的。 :-)

    • -3

相关问题

  • ANN 错误地构建正弦曲线

  • 我在哪里可以获得图像形式的卫星图像数据集?

  • 如何用一个隐喻来描述最大似然法的本质?

  • 将多个 .tsv 文件合并为一个

  • 一系列预训练的神经网络模型和库

  • 用于构建机器学习模型的数据集选择

Sidebar

Stats

  • 问题 10021
  • Answers 30001
  • 最佳答案 8000
  • 用户 6900
  • 常问
  • 回答
  • Marko Smith

    我看不懂措辞

    • 1 个回答
  • Marko Smith

    请求的模块“del”不提供名为“default”的导出

    • 3 个回答
  • Marko Smith

    "!+tab" 在 HTML 的 vs 代码中不起作用

    • 5 个回答
  • Marko Smith

    我正在尝试解决“猜词”的问题。Python

    • 2 个回答
  • Marko Smith

    可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件?

    • 1 个回答
  • Marko Smith

    Python解析野莓

    • 1 个回答
  • Marko Smith

    问题:“警告:检查最新版本的 pip 时出错。”

    • 2 个回答
  • Marko Smith

    帮助编写一个用值填充变量的循环。解决这个问题

    • 2 个回答
  • Marko Smith

    尽管依赖数组为空,但在渲染上调用了 2 次 useEffect

    • 2 个回答
  • Marko Smith

    数据不通过 Telegram.WebApp.sendData 发送

    • 1 个回答
  • Martin Hope
    Alexandr_TT 2020年新年大赛! 2020-12-20 18:20:21 +0000 UTC
  • Martin Hope
    Alexandr_TT 圣诞树动画 2020-12-23 00:38:08 +0000 UTC
  • Martin Hope
    Air 究竟是什么标识了网站访问者? 2020-11-03 15:49:20 +0000 UTC
  • Martin Hope
    Qwertiy 号码显示 9223372036854775807 2020-07-11 18:16:49 +0000 UTC
  • Martin Hope
    user216109 如何为黑客设下陷阱,或充分击退攻击? 2020-05-10 02:22:52 +0000 UTC
  • Martin Hope
    Qwertiy 并变成3个无穷大 2020-11-06 07:15:57 +0000 UTC
  • Martin Hope
    koks_rs 什么是样板代码? 2020-10-27 15:43:19 +0000 UTC
  • Martin Hope
    Sirop4ik 向 git 提交发布的正确方法是什么? 2020-10-05 00:02:00 +0000 UTC
  • Martin Hope
    faoxis 为什么在这么多示例中函数都称为 foo? 2020-08-15 04:42:49 +0000 UTC
  • Martin Hope
    Pavel Mayorov 如何从事件或回调函数中返回值?或者至少等他们完成。 2020-08-11 16:49:28 +0000 UTC

热门标签

javascript python java php c# c++ html android jquery mysql

Explore

  • 主页
  • 问题
    • 热门问题
    • 最新问题
  • 标签
  • 帮助

Footer

RError.com

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

帮助

© 2023 RError.com All Rights Reserve   沪ICP备12040472号-5