RError.com

RError.com Logo RError.com Logo

RError.com Navigation

  • 主页

Mobile menu

Close
  • 主页
  • 系统&网络
    • 热门问题
    • 最新问题
    • 标签
  • Ubuntu
    • 热门问题
    • 最新问题
    • 标签
  • 帮助
主页 / 问题 / 1537143
Accepted
venanen
venanen
Asked:2023-08-23 00:41:43 +0000 UTC2023-08-23 00:41:43 +0000 UTC 2023-08-23 00:41:43 +0000 UTC

如何仅在重要区域中识别和分类特征?

  • 772

有这样的输入:有数据,为了简单起见,让它在二维空间中。图中的例子,这里f1和f2是特征(输入),颜色(Y)是输出。输出值的数量是已知的 - 这里的数量是两个(绿色和红色)。红点和绿点的数量几乎相同。

在此输入图像描述

这些数据通常是随机的。但在一个大的空间中,实际上存在着一些同类点的簇。比如上图中就是: 在此输入图像描述

也就是说,我们可以以很高的概率预测新点如果击中红色矩形,则为红色,如果击中绿色矩形,则为绿色。如果该点不属于任何这些簇,则无法预测结果。

实际上问题是:是否有一种算法,在这样一个嘈杂的字段中,可以找到某些点的数量大于其他点的簇,同时忽略字段中+点相同的其余部分。

这应该解决什么问题?这里我试图从它的坐标预测一个新点的颜色(从f1,f2预测Y) - 但大多数字段由随机值组成,所以我试图找到一个区域,其中某个区域的概率颜色脱落得更大,这样我知道该点落入这样的区域,就更有可能说出它是什么颜色。我使用简单的方法并没有成功 - 由于绝大多数数据是随机的,神经网络的准确度为 0.5(这对于随机值来说是合乎逻辑的) - 也就是说,它只是猜测。由于同样的原因,分类也无法充分发挥作用。聚类不太合适——我提前知道结果的数量。DBSCAN 与我的任务类似,它再次按密度选择区域,并且我的数据密度 +- 在整个字段中是均匀的,只是颜色不同。

нейронные-сети
  • 1 1 个回答
  • 18 Views

1 个回答

  • Voted
  1. Best Answer
    CrazyElf
    2023-08-23T19:44:15Z2023-08-23T19:44:15Z

    好的,这是一个包含人工数据和小型决策树的示例。纯粹针对一个集群。将会有更多的簇 - 有必要不要限制树,就像我为了清楚起见所做的那样,让它进一步生长。

    代码

    import pandas as pd
    import numpy as np
    import seaborn as sns
    import matplotlib.pylab as plt
    from sklearn.model_selection import train_test_split
    from sklearn.tree import DecisionTreeClassifier, plot_tree
    from sklearn.metrics import f1_score
    
    # разбрасываем точки
    n = 20
    X = np.random.rand(n * n, 2)
    y = np.random.randint(2, size=n*n)
    df = pd.DataFrame({'x1': X[:,0], 'x2': X[:,1], 'y': y})
    
    ## перемещаем часть единиц в кластер в углу
    idx = df[df.y == 1].sample(frac=0.75).index
    df.loc[idx, 'x1'] /= 3
    df.loc[idx, 'x2'] /= 3
    X = df[['x1', 'x2']]
    y = df['y']
    
    # делим данные на трейн/тест
    X_train, X_test, y_train, y_test = train_test_split(X, y, shuffle=True, stratify=y)
    
    # строим модель
    dtc = DecisionTreeClassifier(max_depth=2, min_impurity_decrease=0.05)
    dtc.fit(X_train, y_train)
    y_pred = dtc.predict(X_test)
    
    # считаем скор
    print('f1 score =', f1_score(y_test, y_pred))
    
    # рисуем графики
    plt.figure()
    sns.scatterplot(x='x1', y='x2', hue=y, data=X)
    plt.title('Все данные')
    plt.figure()
    sns.scatterplot(x='x1', y='x2', hue=y_test, data=X_test)
    plt.title('Тестовые данные')
    plt.figure()
    sns.scatterplot(x='x1', y='x2', hue=y_pred, data=X_test)
    plt.title('Предсказание на тестовых данных')
    X_diff = X_test[y_test != y_pred]
    y_diff = y_pred[y_test != y_pred]
    plt.figure()
    sns.scatterplot(x='x1', y='x2', hue=y_diff, data=X_diff)
    plt.title('Предсказания, отличающиеся от тестовых данных')
    
    # рисуем наше дерево
    plt.figure()
    plot_tree(dtc, filled=True);
    

    结论:

    f1 score = 0.8461538461538461
    

    图表:

    在此输入图像描述

    在此输入图像描述

    在此输入图像描述

    在此输入图像描述

    决策树可视化:

    在此输入图像描述

    结论:

    只需两个条件,树就完美地选择了图角落里的簇。事实上,只在这个角落预测了 1 级。嗯,因为在其他地方猜1还是不可能的。

    当集群数量较多且分布在很多地方时,自然需要更多的规则。但无论如何,这棵树不应该有任何困难。最重要的是不要忘记对数据进行分层,这样就不会发生在训练样本中任何集群中两个类的代表数量都不够的情况,然后树将无法检测到这个集群。

    当有很多集群时,切换到使用集群算法可能会更好,但这是另一个需要其他数据示例的故事,没有这些示例我无法帮助您完成此任务。虽然,显然,你只需要在那里找到一个簇,并为簇内的所有点设置 1,为簇外的所有点设置 0。这种方法似乎没有标准模型,但使用聚类和简单的手动操作,您可以可以轻松做到这一点。

    • 1

相关问题

  • 在 MATLAB 中使用神经网络进行滑动窗口时间序列预测

  • 错误反向传播算法——神经网络的输出出现错误

  • 我们需要现成的神经网络来识别图片或视频序列中的对象,以及它们的描述

  • 帮助改写tensorflow 2.0的代码;图像人工智能;Python

  • 使用卷积网络的特征图

  • 将绝对值转移到归一化值的范围内,反之亦然

Sidebar

Stats

  • 问题 10021
  • Answers 30001
  • 最佳答案 8000
  • 用户 6900
  • 常问
  • 回答
  • Marko Smith

    我看不懂措辞

    • 1 个回答
  • Marko Smith

    请求的模块“del”不提供名为“default”的导出

    • 3 个回答
  • Marko Smith

    "!+tab" 在 HTML 的 vs 代码中不起作用

    • 5 个回答
  • Marko Smith

    我正在尝试解决“猜词”的问题。Python

    • 2 个回答
  • Marko Smith

    可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件?

    • 1 个回答
  • Marko Smith

    Python解析野莓

    • 1 个回答
  • Marko Smith

    问题:“警告:检查最新版本的 pip 时出错。”

    • 2 个回答
  • Marko Smith

    帮助编写一个用值填充变量的循环。解决这个问题

    • 2 个回答
  • Marko Smith

    尽管依赖数组为空,但在渲染上调用了 2 次 useEffect

    • 2 个回答
  • Marko Smith

    数据不通过 Telegram.WebApp.sendData 发送

    • 1 个回答
  • Martin Hope
    Alexandr_TT 2020年新年大赛! 2020-12-20 18:20:21 +0000 UTC
  • Martin Hope
    Alexandr_TT 圣诞树动画 2020-12-23 00:38:08 +0000 UTC
  • Martin Hope
    Air 究竟是什么标识了网站访问者? 2020-11-03 15:49:20 +0000 UTC
  • Martin Hope
    Qwertiy 号码显示 9223372036854775807 2020-07-11 18:16:49 +0000 UTC
  • Martin Hope
    user216109 如何为黑客设下陷阱,或充分击退攻击? 2020-05-10 02:22:52 +0000 UTC
  • Martin Hope
    Qwertiy 并变成3个无穷大 2020-11-06 07:15:57 +0000 UTC
  • Martin Hope
    koks_rs 什么是样板代码? 2020-10-27 15:43:19 +0000 UTC
  • Martin Hope
    Sirop4ik 向 git 提交发布的正确方法是什么? 2020-10-05 00:02:00 +0000 UTC
  • Martin Hope
    faoxis 为什么在这么多示例中函数都称为 foo? 2020-08-15 04:42:49 +0000 UTC
  • Martin Hope
    Pavel Mayorov 如何从事件或回调函数中返回值?或者至少等他们完成。 2020-08-11 16:49:28 +0000 UTC

热门标签

javascript python java php c# c++ html android jquery mysql

Explore

  • 主页
  • 问题
    • 热门问题
    • 最新问题
  • 标签
  • 帮助

Footer

RError.com

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

帮助

© 2023 RError.com All Rights Reserve   沪ICP备12040472号-5