RError.com

RError.com Logo RError.com Logo

RError.com Navigation

  • 主页

Mobile menu

Close
  • 主页
  • 系统&网络
    • 热门问题
    • 最新问题
    • 标签
  • Ubuntu
    • 热门问题
    • 最新问题
    • 标签
  • 帮助
主页 / 问题 / 848904
Accepted
Adam Shakhabov
Adam Shakhabov
Asked:2020-07-01 21:39:06 +0000 UTC2020-07-01 21:39:06 +0000 UTC 2020-07-01 21:39:06 +0000 UTC

为包含直角坐标系元素的聚类方案准备数据

  • 772

有格式的文本文件scheme{N}.txt,其中包含格式中的行:

x – значение координаты X, 
y – значение координаты Y, 
w – ширина элемента,
y – высота элемента,
type – тип элемента (1-прямоугольник, 2-круг)

描述位于图表上的元素。一个文件 - 一个方案,一行 - 一个元素。

例如,有两种方案:

在此处输入图像描述

在此处输入图像描述

使用您的文本文件:

方案1.txt

200,200,400,100,1
1100,200,400,100,1
700,450,350,200,2

方案2.txt

200,200,400,200,1
1100,200,400,200,1
700,300,350,150,2
350,550,950,100,1

一个任务

当然,这样的文件有数百个,现在有必要使用聚类对这些方案进行分组,在一组中会有元素布局和空间排列scheme{N}.txt最相似的方案(文件名)。例如,上述两种方案可以被认为是相似的,因此被定义在一组中。


问题

根据任务,如何为聚类准备数据?明明这是 ML,不可能有明确的推荐,但不知道从何说起。如果您在指示性描述的帮助下尝试,因为事实证明模式对象(训练样本)必须由一组元素对象来描述。请告诉我应该寻找解决方案的方向。


.NET 的机器学习框架

作为一名 .NET 开发人员,我仍然计划使用 .NET 的 ML 框架之一来实现整个事情:ML.NET,它现在正在开发中,但是集群已经允许或Accord.NET Framework,同志由于它的年龄,它的 API 最丰富。

c#
  • 2 2 个回答
  • 10 Views

2 个回答

  • Voted
  1. MaxU - stop genocide of UA
    2020-07-02T06:38:57Z2020-07-02T06:38:57Z

    通常,在聚类任务中,我们通过对象之间的距离或相似性将对象选择/分组到集群中。

    在您的情况下,对象是文件(模式)。

    您必须实现一个函数来计算两个文件的距离(相似因子)并尝试使用它。以“余弦相似度”为例。在计算相似度之前,最好将矩阵的最后一列(元素类型)进行转换,使其与其余列的维数大致相同——例如,将图形的类型(数字1、2)替换为正方形这个图的面积的根。那么所有 5 列将被测量为相同的值,并且在计算"cosine similarity"列的值时将被视为向量在五维空间中的对应坐标。

    PSAccord.NET我不知道该怎么做...

    • 2
  2. Best Answer
    MaxU - stop genocide of UA
    2020-07-06T17:33:06Z2020-07-06T17:33:06Z

    Python 示例(使用模块:Numpy、Pandas、SciKit-Learn)。

    源文件:

    1.csv:

    x,y,width,height,type
    200,200,400,100,1
    1100,200,400,100,1
    700,450,350,200,2
    

    2.csv:

    x,y,width,height,type
    200,200,400,200,1
    1100,200,400,200,1
    700,300,350,150,2
    350,550,950,100,1
    

    编码:

    import numpy as np
    import pandas as pd
    from sklearn.metrics.pairwise import cosine_similarity
    
    d1 = pd.read_csv("c:/temp/1.csv")
    d2 = pd.read_csv("c:/temp/2.csv")
    

    计算cosine similarity:

    In [100]: cosine_similarity(d1, d2)
    Out[100]:
    array([[0.98270769, 0.73080017, 0.83385344, 0.98572935],
           [0.69779772, 0.99657013, 0.97078395, 0.6421735 ],
           [0.83795773, 0.93404102, 0.98752559, 0.79018104]])
    

    那些。考虑第一个文件的第一行与第二个文件的所有 4 行的相似性(我们在第一个文件的第一行的第一行中有 4 个元素,等等),即 结果,我们得到一个维度矩阵(число строк первого файла, число строк второго файла)。

    您可以将整个矩阵的平均值作为文件相似性的衡量标准(您需要在实践中尝试使用这种方法处理许多文件以了解它是如何“工作”的):

    In [101]: cosine_similarity(d1, d2).mean()
    Out[101]: 0.8658434435935128
    
    • 1

相关问题

Sidebar

Stats

  • 问题 10021
  • Answers 30001
  • 最佳答案 8000
  • 用户 6900
  • 常问
  • 回答
  • Marko Smith

    是否可以在 C++ 中继承类 <---> 结构?

    • 2 个回答
  • Marko Smith

    这种神经网络架构适合文本分类吗?

    • 1 个回答
  • Marko Smith

    为什么分配的工作方式不同?

    • 3 个回答
  • Marko Smith

    控制台中的光标坐标

    • 1 个回答
  • Marko Smith

    如何在 C++ 中删除类的实例?

    • 4 个回答
  • Marko Smith

    点是否属于线段的问题

    • 2 个回答
  • Marko Smith

    json结构错误

    • 1 个回答
  • Marko Smith

    ServiceWorker 中的“获取”事件

    • 1 个回答
  • Marko Smith

    c ++控制台应用程序exe文件[重复]

    • 1 个回答
  • Marko Smith

    按多列从sql表中选择

    • 1 个回答
  • Martin Hope
    Alexandr_TT 圣诞树动画 2020-12-23 00:38:08 +0000 UTC
  • Martin Hope
    Suvitruf - Andrei Apanasik 什么是空? 2020-08-21 01:48:09 +0000 UTC
  • Martin Hope
    Air 究竟是什么标识了网站访问者? 2020-11-03 15:49:20 +0000 UTC
  • Martin Hope
    Qwertiy 号码显示 9223372036854775807 2020-07-11 18:16:49 +0000 UTC
  • Martin Hope
    user216109 如何为黑客设下陷阱,或充分击退攻击? 2020-05-10 02:22:52 +0000 UTC
  • Martin Hope
    Qwertiy 并变成3个无穷大 2020-11-06 07:15:57 +0000 UTC
  • Martin Hope
    koks_rs 什么是样板代码? 2020-10-27 15:43:19 +0000 UTC
  • Martin Hope
    Sirop4ik 向 git 提交发布的正确方法是什么? 2020-10-05 00:02:00 +0000 UTC
  • Martin Hope
    faoxis 为什么在这么多示例中函数都称为 foo? 2020-08-15 04:42:49 +0000 UTC
  • Martin Hope
    Pavel Mayorov 如何从事件或回调函数中返回值?或者至少等他们完成。 2020-08-11 16:49:28 +0000 UTC

热门标签

javascript python java php c# c++ html android jquery mysql

Explore

  • 主页
  • 问题
    • 热门问题
    • 最新问题
  • 标签
  • 帮助

Footer

RError.com

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

帮助

© 2023 RError.com All Rights Reserve   沪ICP备12040472号-5