关于【машинное-обучение】的问题- 第1页

Kadenza

Asked: 2025-02-01 19:33:50 +0800 CST

LLM模型的硬件参数如何选择？

5

如何确定语言模型的 RAM、视频内存等的数量。至少非常粗略地讲。

从两个部分来理解所需的能力是很有趣的：

推出完成的模型。
微调。

在影响硬件功率的重要参数中，我确定了以下几点：

参数的数量（3B、16B、128B……）——越多，所需硬件越强大。
量化（Q3...Q8 或 FP16...FP32）——越多，所需的硬件越强大。
上下文窗口的大小 - 越大，所需的硬件越强大。

其他哪些型号的特性会极大地影响功耗？那么如何根据这些特点，粗略的估算出一台服务器或者PC的具体功率呢？

如有任何建议我将不胜感激。

SigmuS

Asked: 2024-09-02 15:03:34 +0800 CST

机器学习中使用现成的模型是否需要对文本进行预处理？

7

在创建机器学习模型时，为了提高其质量，通常会使用各种预处理技术 - 标记化、停用词、词形还原等。此外，像 spaCy 这样的现代工具可以提供深入分析的机会，深入到词根，例如，对于单词“Cat”，它可以建议词根“Cat”，而不是“Window”（这将是字母-按字母更接近单词 cat）。

我的问题是，如果我为文本多类分类创建了一个经过大量预处理的机器学习模型，那么在使用该模型时是否需要进行相同的预处理才能使该模型正常工作？

让我举个例子。让我们开发一个模型，根据评论文本将其分配到不同的类别。假设预处理后的部分训练样本如下所示：

  Сэмпл         |     Класс

猫毛灰|动物。猫

在这种情况下，显然假设用户会写这样的评论：“我的猫有这么灰色的皮毛，这真是一个奇迹！”我的假设如下：如果我们首先通过相同的预处理管道运行此用户请求，然后将其传递到现成的机器学习模型的输入，那么我们收到的不是编写的短语，而是“灰色羊毛奇迹” cat，”这不会导致模型质量的提高吗？

Stan

Asked: 2024-03-27 05:55:01 +0800 CST

使用KNN分类算法进行天气预报

5

预测问题是一个相当耗费人力的问题，可以通过多种方式解决。我决定利用机器学习技术并在我的代码中使用 K 最近邻算法。

训练模型后，其准确率约为 87%（不错）。在模型测试期间，我进行了标准化并输入了天气所依赖的数据。如果我理解正确的话，我应该得到天气的结果，但是我得到了array(2023)。我不明白出了什么问题。

请告诉我，如果可能的话，请批评问题本身解决方案的实施。

我从这里获取了天气数据。

Тима

Asked: 2023-10-22 08:18:25 +0800 CST

向数据添加噪声

6

我为自己编写了一个小神经元来识别 MNIST 数据库中的数字（可以说是从头开始）。它可以很好地处理现成的数据，但是当我想识别我的手写数字时，我会遇到错误 -他们在这里解释了原因。我想问，我应该将图片乘以什么矩阵才能获得数字移位或旋转？

Никита Денисов

Asked: 2022-09-04 15:30:23 +0800 CST

实现线性回归

0

在实现线性回归时，出现了一个问题：使用梯度下降，损失一次增加几个数量级。损失 - MSE，梯度下降 - 正常。我选择了加州住房数据集作为数据集。在写代码的时候，我依靠了文章。为了不和offset分开工作，我提前在特征矩阵的开头加了一列1。班级代码

class LinearRegression():

  w = None
  alpha = None

  def __init__(self, lr, E=20):
    self.lr = lr
    self.w = np.zeros(X.shape[1] + 1)
    self.E = E

  def loss(self, X, y):
    return np.sum((X @ self.w - y) ** 2) / X.shape[0]

  def grad(self, X, y):
    grad_basic = 2 * np.transpose(X) @ (X @ self.w - y) / X.shape[0]   
    assert grad_basic.shape == (X.shape[1],) , "Градиенты должны быть столбцом из k_features + 1 элементов"
    return grad_basic

  def sgd(self, X, y, E=20):
    self.loss_arr = [self.loss(X, y)]
    for _ in tqdm(range(E)):
      if abs(self.loss_arr[-1]) < 0.1:
        break
      self.w -= self.lr * self.grad(X, y)
      self.loss_arr.append(self.loss(X, y))

  def fit(self, X, y):
    self.sgd(X, y, self.E)

  def get_params(self):
    return self.w

  def get_loss(self):
    return self.loss_arr

  def predict(self, X):
    return X.dot(self.w)

这就是 loss 的行为方式：5.637, 288906709850, 3.250e+22...
同时，解析解被正确找到。它和完整的回归代码可以在notebook中找到。请告诉我哪里出错了

LLM模型的硬件参数如何选择？

机器学习中使用现成的模型是否需要对文本进行预处理？

使用KNN分类算法进行天气预报

向数据添加噪声

实现线性回归

我看不懂措辞

请求的模块“del”不提供名为“default”的导出

"!+tab" 在 HTML 的 vs 代码中不起作用

我正在尝试解决“猜词”的问题。Python

可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件？

Python解析野莓

问题：“警告：检查最新版本的 pip 时出错。”

帮助编写一个用值填充变量的循环。解决这个问题

尽管依赖数组为空，但在渲染上调用了 2 次 useEffect

数据不通过 Telegram.WebApp.sendData 发送

问题[машинное-обучение]