RError.com

RError.com Logo RError.com Logo

RError.com Navigation

  • 主页

Mobile menu

Close
  • 主页
  • 系统&网络
    • 热门问题
    • 最新问题
    • 标签
  • Ubuntu
    • 热门问题
    • 最新问题
    • 标签
  • 帮助
主页 / 问题 / 824014
Accepted
максим ильин
максим ильин
Asked:2020-05-06 21:29:17 +0000 UTC2020-05-06 21:29:17 +0000 UTC 2020-05-06 21:29:17 +0000 UTC

如何将向量 (1) 的行作为文本返回另一个向量 (2) 中出现的数字(运行“sklearn.preprocessing.LabelEncoder”的结果)?

  • 772

有一个由 2 个向量组成的数据框:其中 1 是向量 ('cleanUrl'),2 是向量 ('code_url')。

在第一个向量的url记录中,在第二个向量的url记录中使用from sklearn导入预处理库的preprocessing.LabelEncoder() 方法转换为数字

一种可能的解决方案是将向量 2 反向转换为文本,或将向量 1 转换为数字。

文件示例:

cleanUrl,code_url
amerikan-gruzovik.ru,4590
tinatube.net,74861
sextelevizor.net,66791
ru.anysex.com,62743
www.asiamobil.ru,86865
www.chinamobil.ru,90045
ad-k.ru,2637
www.nik-store.ru,105112
video-seks.net,80108
russkoe-porno.info,63946
www.foxporns.com,94819
www.chrono24.com.ru,90117
www.wibes.ru,118283
german242.com,26297
santdom.ru,65100
treningchess.com,76231
razvedem.web-3.ru,60517
aktis-stroy.ru,3525
www.aktis-stroy.ru,85600
plot.name,56170
www.lichnycabinet.ru,100979
www.worldfishing.narod.ru,118532
sekretka.su,66123
www.a-centre.ru,85011
www.suzukirus.ru,113986
pornogl.com,57123
wmid234ru.ru,83678
hsi.ru,29794
infometer.ru,31244
www.git77.rostrud.ru,95784
www.packagetrackr.com,106632
www.tns-global.ru,115139
www.vipgroup.net,117281
www.toysrus.com,115433
moskva.wisell.ru,46046
www.shopjustice.com,111904
deti75.ru,16625
crimeacity.info,15195
baza.crimea.ua,8838
atelica-oazis.bron.me,6647
gokurort.ru,26990
mitula17.imhonet.ru,44811
foxbrest.imhonet.ru,24645
xavi.imhonet.ru,120090
ural.kp.ru,78539
spb.kp.ru,69996
pinkmarie.com,55650
geneva2015.cars.ru,26188
domodedovo.rujazi.com,18057
xn------5cdjccgu2avckptly3ad8p.xn--e1arcbfn.xn--p1ai,120241
baikalpress.ru,8328
klimovsk.mnogonado.net,35750
svet-modern.ru,72656
www.forex-kf.ru,94627
www.uniq-ip.com,116401
www.terrawoman.ua,114714
www.gorsovet.mk.ua,96192
vmr.gov.ua,81250
helpstu.su,28874
www.helpstu.su,96823
zab-nanny.ru,122892
kursak-diplom.com.ua,37838
kgu-journalist.ucoz.ru,34771
mospf.ru,46093
newdiplom.ucoz.ru,49231
www.autoezda.com,87258
referats.nashisrael.ru,60990
www.hotdiplom.ru,97129
fotorakom.com,24577
redirect.disqus.com,60900
www.sq.com.ua,113207
member.newsnet.in.ua,43580
bankomet.com.ua,8537
po4emu.ru,56252
www.po4emu.ru,107650
tric.info,76258
myotpusk.com,47714
yspehx.narod.ru,122777
vozhatiki.ru,81885
kirent.narod.ru,35483
www.festivalsearcher.com,94080
hotasianz.com.6716069.yupiromo.ru,29549
starblag.ucoz.ua,70955
www.medalbum.ru,102495
ab28ru.narod.ru,2336
diel.ks.ua,16931
aniplay.tv,5091
ugolzreniya.narod.ru,77854
vrn.vestipk.ru,81990
afg-hist.ucoz.ru,3023
www.shanson-plus.ru,111700
www.vsmolenske.ru,117854
vsetutonline.com,82254
stomatologmova.ucoz.ua,71506
xn----8sbgjprccxgonf4d1dya7b.xn--p1ai,120742
yarcube.ru,122335
www.pion.com.ru,107364
76yar.ru,1961
loveplanet-online.ru,40510

答案将包含来自矢量 2 的数据帧格式的非重复行: [4590, 4591, 4594, 4595, 4597, 4598]一个数组示例,我不知道如何数据帧。

python
  • 1 1 个回答
  • 10 Views

1 个回答

  • Voted
  1. Best Answer
    MaxU - stop genocide of UA
    2020-05-06T22:04:43Z2020-05-06T22:04:43Z

    如果我正确理解了这个问题(我完全不确定),那么您正在尝试对 URL(第一列)进行编码,以便获得与第二列的代码匹配的“正确”代码(尽管第二列的代码是从不同的数据集中获得的)。

    如果在完整数据集上进行训练,则可以做到这一点LabelEncoder- 即 它需要从两个数据集(DataFrames)中提供所有可能的 URL。

    例子:

    原df:

    In [26]: df
    Out[26]:
                    cleanUrl
    0   amerikan-gruzovik.ru
    1   amerikan-gruzovik.ru
    2           tinatube.net
    3           tinatube.net
    4       sextelevizor.net
    5          ru.anysex.com
    6       www.asiamobil.ru
    7      www.chinamobil.ru
    8                ad-k.ru
    9       www.nik-store.ru
    ..                   ...
    12      www.foxporns.com
    13   www.chrono24.com.ru
    14          www.wibes.ru
    15         german242.com
    16            santdom.ru
    17      treningchess.com
    18     razvedem.web-3.ru
    19        aktis-stroy.ru
    20    www.aktis-stroy.ru
    21             plot.name
    
    [22 rows x 1 columns]
    

    对 URL 进行编码:

    In [27]: from sklearn.preprocessing import LabelEncoder
    
    In [28]: le = LabelEncoder()
    
    In [29]: df['code_url'] = le.fit_transform(df['cleanUrl'])
    
    In [30]: df
    Out[30]:
                    cleanUrl  code_url
    0   amerikan-gruzovik.ru        19
    1   amerikan-gruzovik.ru        19
    2           tinatube.net         3
    3           tinatube.net         3
    4       sextelevizor.net         9
    5          ru.anysex.com         6
    6       www.asiamobil.ru        11
    7      www.chinamobil.ru        15
    8                ad-k.ru         0
    9       www.nik-store.ru        13
    ..                   ...       ...
    12      www.foxporns.com        12
    13   www.chrono24.com.ru        18
    14          www.wibes.ru         4
    15         german242.com         5
    16            santdom.ru         2
    17      treningchess.com        10
    18     razvedem.web-3.ru        14
    19        aktis-stroy.ru         7
    20    www.aktis-stroy.ru        17
    21             plot.name         1
    
    [22 rows x 2 columns]
    

    现在让我们再看一个 DF:

    In [32]: df2
    Out[32]:
                   cleanUrl
    0          tinatube.net
    1            santdom.ru
    2    www.aktis-stroy.ru
    3         ru.anysex.com
    

    要获得与第一个 DF 对应的代码,您需要使用已经训练过的对象LabelEncoder- 我们将使用它transform()来代替fit_transform(),以免重新训练le新数据:

    In [33]: df2['code_url'] = le.transform(df2['cleanUrl'])
    
    In [34]: df2
    Out[34]:
                   cleanUrl  code_url
    0          tinatube.net         3
    1            santdom.ru         2
    2    www.aktis-stroy.ru        17
    3         ru.anysex.com         6
    

    如果我们尝试对训练期间未遇到的字符串 (.fit()或.fit_transform()) 进行编码,则会收到以下错误:

    In [35]: le.transform(['ru.stackoverflow.com'])
    ---------------------------------------------------------------------------
    ValueError                                Traceback (most recent call last)
    <ipython-input-35-51ca5dd7c8c5> in <module>()
    ----> 1 le.transform(['ru.stackoverflow.com'])
    
    ~\Anaconda3_5.0\envs\ml\lib\site-packages\sklearn\preprocessing\label.py in transform(self, y)
        131         if len(np.intersect1d(classes, self.classes_)) < len(classes):
        132             diff = np.setdiff1d(classes, self.classes_)
    --> 133             raise ValueError("y contains new labels: %s" % str(diff))
        134         return np.searchsorted(self.classes_, y)
        135
    
    ValueError: y contains new labels: ['ru.stackoverflow.com']
    
    • 1

相关问题

Sidebar

Stats

  • 问题 10021
  • Answers 30001
  • 最佳答案 8000
  • 用户 6900
  • 常问
  • 回答
  • Marko Smith

    是否可以在 C++ 中继承类 <---> 结构?

    • 2 个回答
  • Marko Smith

    这种神经网络架构适合文本分类吗?

    • 1 个回答
  • Marko Smith

    为什么分配的工作方式不同?

    • 3 个回答
  • Marko Smith

    控制台中的光标坐标

    • 1 个回答
  • Marko Smith

    如何在 C++ 中删除类的实例?

    • 4 个回答
  • Marko Smith

    点是否属于线段的问题

    • 2 个回答
  • Marko Smith

    json结构错误

    • 1 个回答
  • Marko Smith

    ServiceWorker 中的“获取”事件

    • 1 个回答
  • Marko Smith

    c ++控制台应用程序exe文件[重复]

    • 1 个回答
  • Marko Smith

    按多列从sql表中选择

    • 1 个回答
  • Martin Hope
    Alexandr_TT 圣诞树动画 2020-12-23 00:38:08 +0000 UTC
  • Martin Hope
    Suvitruf - Andrei Apanasik 什么是空? 2020-08-21 01:48:09 +0000 UTC
  • Martin Hope
    Air 究竟是什么标识了网站访问者? 2020-11-03 15:49:20 +0000 UTC
  • Martin Hope
    Qwertiy 号码显示 9223372036854775807 2020-07-11 18:16:49 +0000 UTC
  • Martin Hope
    user216109 如何为黑客设下陷阱,或充分击退攻击? 2020-05-10 02:22:52 +0000 UTC
  • Martin Hope
    Qwertiy 并变成3个无穷大 2020-11-06 07:15:57 +0000 UTC
  • Martin Hope
    koks_rs 什么是样板代码? 2020-10-27 15:43:19 +0000 UTC
  • Martin Hope
    Sirop4ik 向 git 提交发布的正确方法是什么? 2020-10-05 00:02:00 +0000 UTC
  • Martin Hope
    faoxis 为什么在这么多示例中函数都称为 foo? 2020-08-15 04:42:49 +0000 UTC
  • Martin Hope
    Pavel Mayorov 如何从事件或回调函数中返回值?或者至少等他们完成。 2020-08-11 16:49:28 +0000 UTC

热门标签

javascript python java php c# c++ html android jquery mysql

Explore

  • 主页
  • 问题
    • 热门问题
    • 最新问题
  • 标签
  • 帮助

Footer

RError.com

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

帮助

© 2023 RError.com All Rights Reserve   沪ICP备12040472号-5