大家好!我想创建自己的神经网络,用于商业目的。网上有很多开源数据集,据我了解,可以用来学习。但我担心其他事情 - 它们可以用于商业目的吗?我未来的神经网络将拥有付费许可证。使用此类数据集是否会侵犯版权?祝一切顺利,提前致谢)
有这样的输入:有数据,为了简单起见,让它在二维空间中。图中的例子,这里f1和f2是特征(输入),颜色(Y)是输出。输出值的数量是已知的 - 这里的数量是两个(绿色和红色)。红点和绿点的数量几乎相同。
这些数据通常是随机的。但在一个大的空间中,实际上存在着一些同类点的簇。比如上图中就是:
也就是说,我们可以以很高的概率预测新点如果击中红色矩形,则为红色,如果击中绿色矩形,则为绿色。如果该点不属于任何这些簇,则无法预测结果。
实际上问题是:是否有一种算法,在这样一个嘈杂的字段中,可以找到某些点的数量大于其他点的簇,同时忽略字段中+点相同的其余部分。
这应该解决什么问题?这里我试图从它的坐标预测一个新点的颜色(从f1,f2预测Y) - 但大多数字段由随机值组成,所以我试图找到一个区域,其中某个区域的概率颜色脱落得更大,这样我知道该点落入这样的区域,就更有可能说出它是什么颜色。我使用简单的方法并没有成功 - 由于绝大多数数据是随机的,神经网络的准确度为 0.5(这对于随机值来说是合乎逻辑的) - 也就是说,它只是猜测。由于同样的原因,分类也无法充分发挥作用。聚类不太合适——我提前知道结果的数量。DBSCAN 与我的任务类似,它再次按密度选择区域,并且我的数据密度 +- 在整个字段中是均匀的,只是颜色不同。
在 Michael Nilson 的书中(更准确地说,在其翻译中) - https://habr.com/en/articles/457980/给出了输出层误差方程的证明。
为什么第二个公式中要对偏导数的乘积求和?毕竟,很明显,加权输入,例如输出层的第一个神经元,并不依赖于输出层的其余神经元。使用链式法则可以立即推导出第三个方程。
我被神经网络的研究冲昏了头脑,偶然发现了这篇文章(在其他网站上也有重复)。我试图重复那里描述的训练方法。神经网络本身会产生正确的结果,但我注意到在训练之后,一些权重和偏差神经元超出了 0 和 1,有时非常显着。在网上搜索类似的东西,我遇到了再培训这样的事情。我试图改变 epoch 的数量和学习率,结果神经网络训练不足。我怀疑权重参数根本不应该超过 0 和 1,我不确定偏置神经元。我无法理解,错误来自数学方面或实施方面。也许还有另一个例子,或者本文没有达成一致意见?请告诉我在哪里挖?
我在c#中重复了一遍,原来的和我的都有超出范围的值的问题。
请建议在这些领域从零到专业的阅读计划。这些站点的定义非常模糊,您不想在这些区域游泳。建议不要依赖特定的技术或编程语言。有一种直观的理解,这是苏联时代改名的数学,仅此而已。谢谢你。