RError.com

RError.com Logo RError.com Logo

RError.com Navigation

  • 主页

Mobile menu

Close
  • 主页
  • 系统&网络
    • 热门问题
    • 最新问题
    • 标签
  • Ubuntu
    • 热门问题
    • 最新问题
    • 标签
  • 帮助
主页 / 问题

问题[машинное-обучение]

Martin Hope
Kadenza
Asked: 2025-02-01 19:33:50 +0000 UTC

LLM模型的硬件参数如何选择?

  • 5
比赛还有4天就结束。回答该问题可能会获得+50声誉点的奖励。 Kadenza希望得到这个问题 更详细的答案。

如何确定语言模型的 RAM、视频内存等的数量。至少非常粗略地讲。

从两个部分来理解所需的能力是很有趣的:

  1. 推出完成的模型。
  2. 微调。

在影响硬件功率的重要参数中,我确定了以下几点:

  1. 参数的数量(3B、16B、128B……)——越多,所需硬件越强大。
  2. 量化(Q3...Q8 或 FP16...FP32)——越多,所需的硬件越强大。
  3. 上下文窗口的大小 - 越大,所需的硬件越强大。

其他哪些型号的特性会极大地影响功耗?那么如何根据这些特点,粗略的估算出一台服务器或者PC的具体功率呢?

如有任何建议我将不胜感激。

машинное-обучение
  • 3 个回答
  • 85 Views
Martin Hope
SigmuS
Asked: 2024-09-02 15:03:34 +0000 UTC

机器学习中使用现成的模型是否需要对文本进行预处理?

  • 7

在创建机器学习模型时,为了提高其质量,通常会使用各种预处理技术 - 标记化、停用词、词形还原等。此外,像 spaCy 这样的现代工具可以提供深入分析的机会,深入到词根,例如,对于单词“Cat”,它可以建议词根“Cat”,而不是“Window”(这将是字母-按字母更接近单词 cat)。

我的问题是,如果我为文本多类分类创建了一个经过大量预处理的机器学习模型,那么在使用该模型时是否需要进行相同的预处理才能使该模型正常工作?

让我举个例子。让我们开发一个模型,根据评论文本将其分配到不同的类别。假设预处理后的部分训练样本如下所示:

  Сэмпл         |     Класс 

猫毛灰|动物。猫

在这种情况下,显然假设用户会写这样的评论:“我的猫有这么灰色的皮毛,这真是一个奇迹!”我的假设如下:如果我们首先通过相同的预处理管道运行此用户请求,然后将其传递到现成的机器学习模型的输入,那么我们收到的不是编写的短语,而是“灰色羊毛奇迹” cat,”这不会导致模型质量的提高吗?

машинное-обучение
  • 1 个回答
  • 15 Views
Martin Hope
Stan
Asked: 2024-03-27 05:55:01 +0000 UTC

使用KNN分类算法进行天气预报

  • 5

预测问题是一个相当耗费人力的问题,可以通过多种方式解决。我决定利用机器学习技术并在我的代码中使用 K 最近邻算法 。

训练模型后,其准确率约为 87%(不错)。在模型测试期间,我进行了标准化并输入了天气所依赖的数据。如果我理解正确的话,我应该得到天气的结果,但是我得到了array(2023)。我不明白出了什么问题。

请告诉我,如果可能的话,请批评问题本身解决方案的实施。

我从这里获取了天气数据。

машинное-обучение
  • 1 个回答
  • 20 Views
Martin Hope
Тима
Asked: 2023-10-22 08:18:25 +0000 UTC

向数据添加噪声

  • 6

我为自己编写了一个小神经元来识别 MNIST 数据库中的数字(可以说是从头开始)。它可以很好地处理现成的数据,但是当我想识别我的手写数字时,我会遇到错误 -他们在这里解释了原因。我想问,我应该将图片乘以什么矩阵才能获得数字移位或旋转?

我的程序的输出

машинное-обучение
  • 1 个回答
  • 77 Views
Martin Hope
Никита Денисов
Asked: 2022-09-04 15:30:23 +0000 UTC

实现线性回归

  • 0

在实现线性回归时,出现了一个问题:使用梯度下降,损失一次增加几个数量级。损失 - MSE,梯度下降 - 正常。我选择了加州住房数据集作为数据集。在写代码的时候,我依靠了文章。为了不和offset分开工作,我提前在特征矩阵的开头加了一列1。班级代码

class LinearRegression():

  w = None
  alpha = None

  def __init__(self, lr, E=20):
    self.lr = lr
    self.w = np.zeros(X.shape[1] + 1)
    self.E = E

  def loss(self, X, y):
    return np.sum((X @ self.w - y) ** 2) / X.shape[0]

  def grad(self, X, y):
    grad_basic = 2 * np.transpose(X) @ (X @ self.w - y) / X.shape[0]   
    assert grad_basic.shape == (X.shape[1],) , "Градиенты должны быть столбцом из k_features + 1 элементов"
    return grad_basic

  def sgd(self, X, y, E=20):
    self.loss_arr = [self.loss(X, y)]
    for _ in tqdm(range(E)):
      if abs(self.loss_arr[-1]) < 0.1:
        break
      self.w -= self.lr * self.grad(X, y)
      self.loss_arr.append(self.loss(X, y))

  def fit(self, X, y):
    self.sgd(X, y, self.E)

  def get_params(self):
    return self.w

  def get_loss(self):
    return self.loss_arr

  def predict(self, X):
    return X.dot(self.w)

这就是 loss 的行为方式:5.637, 288906709850, 3.250e+22...
同时,解析解被正确找到。它和完整的回归代码可以在notebook中找到。请告诉我哪里出错了

машинное-обучение регрессия
  • 1 个回答
  • 35 Views

Sidebar

Stats

  • 问题 10021
  • Answers 30001
  • 最佳答案 8000
  • 用户 6900
  • 常问
  • 回答
  • Marko Smith

    我看不懂措辞

    • 1 个回答
  • Marko Smith

    请求的模块“del”不提供名为“default”的导出

    • 3 个回答
  • Marko Smith

    "!+tab" 在 HTML 的 vs 代码中不起作用

    • 5 个回答
  • Marko Smith

    我正在尝试解决“猜词”的问题。Python

    • 2 个回答
  • Marko Smith

    可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件?

    • 1 个回答
  • Marko Smith

    Python解析野莓

    • 1 个回答
  • Marko Smith

    问题:“警告:检查最新版本的 pip 时出错。”

    • 2 个回答
  • Marko Smith

    帮助编写一个用值填充变量的循环。解决这个问题

    • 2 个回答
  • Marko Smith

    尽管依赖数组为空,但在渲染上调用了 2 次 useEffect

    • 2 个回答
  • Marko Smith

    数据不通过 Telegram.WebApp.sendData 发送

    • 1 个回答
  • Martin Hope
    Alexandr_TT 2020年新年大赛! 2020-12-20 18:20:21 +0000 UTC
  • Martin Hope
    Alexandr_TT 圣诞树动画 2020-12-23 00:38:08 +0000 UTC
  • Martin Hope
    Air 究竟是什么标识了网站访问者? 2020-11-03 15:49:20 +0000 UTC
  • Martin Hope
    Qwertiy 号码显示 9223372036854775807 2020-07-11 18:16:49 +0000 UTC
  • Martin Hope
    user216109 如何为黑客设下陷阱,或充分击退攻击? 2020-05-10 02:22:52 +0000 UTC
  • Martin Hope
    Qwertiy 并变成3个无穷大 2020-11-06 07:15:57 +0000 UTC
  • Martin Hope
    koks_rs 什么是样板代码? 2020-10-27 15:43:19 +0000 UTC
  • Martin Hope
    Sirop4ik 向 git 提交发布的正确方法是什么? 2020-10-05 00:02:00 +0000 UTC
  • Martin Hope
    faoxis 为什么在这么多示例中函数都称为 foo? 2020-08-15 04:42:49 +0000 UTC
  • Martin Hope
    Pavel Mayorov 如何从事件或回调函数中返回值?或者至少等他们完成。 2020-08-11 16:49:28 +0000 UTC

热门标签

javascript python java php c# c++ html android jquery mysql

Explore

  • 主页
  • 问题
    • 热门问题
    • 最新问题
  • 标签
  • 帮助

Footer

RError.com

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

帮助

© 2023 RError.com All Rights Reserve   沪ICP备12040472号-5