关于【нейронные-сети】的问题- 第1页

Mixadyt

Asked: 2024-12-19 01:18:18 +0800 CST

如何识别该图像中的物体？

6

我有图像，例如。但所有图像的大小都调整为 120x80。我需要识别图像中的内容：数字（1 到 9）或字母（完整英文字母表）。但我的模型没有学习。它只是在错误〜3.6处停止（CrossEntropyLoss，35个类）。

然后我尝试查看每层之后输出的图像，并且在块 3 之后（参见下面的模型）它们绝对相同（有孤立的例外），仅保留白色背景。我的对象（数字/字母）没有进入下一层。我尝试增加 Conv2d 内核的大小，减少过滤器的数量，但它不起作用。

更改：我使用 pytorch。在训练期间，Adam 优化器使用 lr = 0.001，batch_size 尝试了 32、64 - 两者都不起作用。数据集分为 20% - 验证集，80% - 训练集。我尝试训练 100 和 500 epoch，结果是相同的：（蓝色 - 训练集，黄色 - 验证集）。

训练代码：

from torch.utils.data import DataLoader, random_split
from torch.nn import CrossEntropyLoss
from torch.optim import Adam
from torchvision import transforms
import matplotlib.pyplot as plt

from dataset.dataset import CellsDataset
from model import RecognitionModel

batch_size = 32
epochs = 100
lr = 0.001

transform = transforms.Compose([
    transforms.Resize((80, 120)),  # Изменение размера изображений
    # transforms.RandomHorizontalFlip(),  # Случайное горизонтальное отражение
    # transforms.RandomRotation(20),  # Случайное вращение на 20 градусов
    # transforms.RandomAffine(degrees=15, translate=(0.1, 0.1)),  # Случайная аффинная трансформация
    transforms.Grayscale(),
    transforms.ToTensor(),  # Преобразование в тензор
])

dataset = CellsDataset(transform)

train_dataset, valid_dataset = random_split(dataset, [0.8, 0.2])
train_dataloader = DataLoader(train_dataset, batch_size = batch_size, shuffle = True)
valid_dataloader = DataLoader(valid_dataset, batch_size = batch_size, shuffle = True)

model = RecognitionModel()

loss_func = CrossEntropyLoss()
optimizer = Adam(model.parameters(), lr = lr)

train_losses = []
valid_losses = []

for i in range(epochs):
    # Train
    optimizer.zero_grad()
    image, label = next(iter(train_dataloader))

    pred = model(image)
    loss = loss_func(pred, label)
    train_losses.append(loss.item())

    # Validation
    image, label = next(iter(valid_dataloader))

    pred = model(image)
    loss_ = loss_func(pred, label)
    valid_losses.append(loss_.item())

    # Backward

    loss.backward()
    optimizer.step()

    print(f"Epoch {i+1}/{epochs} Loss {loss.item()} Validation loss {loss_.item()}")

型号代码：

import torch
from torch.nn import Module, Conv2d, MaxPool2d, ReLU, AdaptiveMaxPool2d, Linear, LeakyReLU, Softmax

class CNNBlock(Module):
    def __init__(self, in_channels, out_channels):
        super().__init__()
        self.conv = Conv2d(
            in_channels = in_channels,
            out_channels = out_channels,
            kernel_size = 5,
            padding = "same"
        )
        self.act = ReLU()
        self.maxpool = MaxPool2d(
            kernel_size = 2,
            stride = 2
        )

    def forward(self, x):
        return self.maxpool(self.act(self.conv(x)))

class RecognitionModel(Module):
    def __init__(self):
        super().__init__()
        
        self.block1 = CNNBlock(1, 32)
        self.block2 = CNNBlock(32, 64)
        self.block3 = CNNBlock(64, 128)
        self.block4 = CNNBlock(128, 256)
        self.conv1 = Conv2d(
            in_channels = 256,
            out_channels = 512,
            kernel_size = 3
        )
        self.act1 = ReLU()
        self.conv2 = Conv2d(
            in_channels = 512,
            out_channels = 1024,
            kernel_size = 3
        )
        self.act2 = ReLU()
        self.globalmaxpool = AdaptiveMaxPool2d(output_size = 1)

        self.sqz = lambda x: x.squeeze()
        self.linear1 = Linear(
            in_features = 1024,
            out_features = 512
        )
        self.act3 = LeakyReLU()
        self.linear2 = Linear(
            in_features = 512,
            out_features = 256
        )
        self.act4 = LeakyReLU()
        self.linear3 = Linear(
            in_features = 256,
            out_features = 128
        )
        self.act5 = LeakyReLU()
        self.linear4 = Linear(
            in_features = 128,
            out_features = 64
        )
        self.act6 = LeakyReLU()
        self.linear5 = Linear(
            in_features = 64,
            out_features = 35
        )
        self.act7 = Softmax()

    def forward(self, x):
        x = self.block1(x)
        x = self.block2(x)
        x = self.block3(x)
        x = self.block4(x)
        x = self.act1(self.conv1(x))
        x = self.act2(self.conv2(x))
        x = self.globalmaxpool(x)
        x = self.sqz(x)
        x = self.act3(self.linear1(x))
        x = self.act4(self.linear2(x))
        x = self.act5(self.linear3(x))
        x = self.act6(self.linear4(x))
        y = self.act7(self.linear5(x))

        return y

组装数据集的代码：

import json
import torch
from torch.utils.data import Dataset
from PIL import Image

class CellsDataset(Dataset):
    def __init__(self, transform):
        self.classes = "123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ"
        self.transform = transform

        with open("dataset/labels.json", 'r') as labels:
            self.labels = json.load(labels)

    def __len__(self):
        return len(self.labels)

    def __getitem__(self, index: int):
        image_path = "dataset/images/" + self.labels[index]["image"]
        
        label = self.labels[index]["choice"]
        label_index = self.classes.index(label.upper())
        label_hot_encoding = torch.zeros(len(self.classes))
        label_hot_encoding[label_index] = 1

        image = Image.open(image_path)
        return self.transform(image), label_hot_encoding

我还可以添加第 1 层的随机内核：

Виталий

Asked: 2024-09-14 05:13:45 +0800 CST

开源数据集

6

大家好！我想创建自己的神经网络，用于商业目的。网上有很多开源数据集，据我了解，可以用来学习。但我担心其他事情 - 它们可以用于商业目的吗？我未来的神经网络将拥有付费许可证。使用此类数据集是否会侵犯版权？祝一切顺利，提前致谢）

venanen

Asked: 2023-08-23 00:41:43 +0800 CST

如何仅在重要区域中识别和分类特征？

5

有这样的输入：有数据，为了简单起见，让它在二维空间中。图中的例子，这里f1和f2是特征（输入），颜色（Y）是输出。输出值的数量是已知的 - 这里的数量是两个（绿色和红色）。红点和绿点的数量几乎相同。

这些数据通常是随机的。但在一个大的空间中，实际上存在着一些同类点的簇。比如上图中就是：

也就是说，我们可以以很高的概率预测新点如果击中红色矩形，则为红色，如果击中绿色矩形，则为绿色。如果该点不属于任何这些簇，则无法预测结果。

实际上问题是：是否有一种算法，在这样一个嘈杂的字段中，可以找到某些点的数量大于其他点的簇，同时忽略字段中+点相同的其余部分。

这应该解决什么问题？这里我试图从它的坐标预测一个新点的颜色（从f1，f2预测Y） - 但大多数字段由随机值组成，所以我试图找到一个区域，其中某个区域的概率颜色脱落得更大，这样我知道该点落入这样的区域，就更有可能说出它是什么颜色。我使用简单的方法并没有成功 - 由于绝大多数数据是随机的，神经网络的准确度为 0.5（这对于随机值来说是合乎逻辑的） - 也就是说，它只是猜测。由于同样的原因，分类也无法充分发挥作用。聚类不太合适——我提前知道结果的数量。DBSCAN 与我的任务类似，它再次按密度选择区域，并且我的数据密度 +- 在整个字段中是均匀的，只是颜色不同。

ivan

Asked: 2023-08-01 03:45:29 +0800 CST

输出层误差方程δ的证明

6

在 Michael Nilson 的书中（更准确地说，在其翻译中） - https://habr.com/en/articles/457980/给出了输出层误差方程的证明。

为什么第二个公式中要对偏导数的乘积求和？毕竟，很明显，加权输入，例如输出层的第一个神经元，并不依赖于输出层的其余神经元。使用链式法则可以立即推导出第三个方程。

kuschanow

Asked: 2022-09-03 01:18:14 +0800 CST

如何设置神经网络训练？

0

我被神经网络的研究冲昏了头脑，偶然发现了这篇文章（在其他网站上也有重复）。我试图重复那里描述的训练方法。神经网络本身会产生正确的结果，但我注意到在训练之后，一些权重和偏差神经元超出了 0 和 1，有时非常显着。在网上搜索类似的东西，我遇到了再培训这样的事情。我试图改变 epoch 的数量和学习率，结果神经网络训练不足。我怀疑权重参数根本不应该超过 0 和 1，我不确定偏置神经元。我无法理解，错误来自数学方面或实施方面。也许还有另一个例子，或者本文没有达成一致意见？请告诉我在哪里挖？

我在c#中重复了一遍，原来的和我的都有超出范围的值的问题。

如何识别该图像中的物体？

开源数据集

如何仅在重要区域中识别和分类特征？

输出层误差方程δ的证明

如何设置神经网络训练？

我看不懂措辞

请求的模块“del”不提供名为“default”的导出

"!+tab" 在 HTML 的 vs 代码中不起作用

我正在尝试解决“猜词”的问题。Python

可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件？

Python解析野莓

问题：“警告：检查最新版本的 pip 时出错。”

帮助编写一个用值填充变量的循环。解决这个问题

尽管依赖数组为空，但在渲染上调用了 2 次 useEffect

数据不通过 Telegram.WebApp.sendData 发送

问题[нейронные-сети]