RError.com

RError.com Logo RError.com Logo

RError.com Navigation

  • 主页

Mobile menu

Close
  • 主页
  • 系统&网络
    • 热门问题
    • 最新问题
    • 标签
  • Ubuntu
    • 热门问题
    • 最新问题
    • 标签
  • 帮助
主页 / 问题 / 884354
Accepted
garrythehotdog
garrythehotdog
Asked:2020-09-23 03:43:24 +0000 UTC2020-09-23 03:43:24 +0000 UTC 2020-09-23 03:43:24 +0000 UTC

字符串。在表达式中查找单词出现的最快方法是什么?

  • 772

有必要检查列表中的单词是否包含lst在字符串中string。下面的代码正在运行,但显然不是最佳选择。而且我也不确定正则表达式是否很快。

string = 'hello world people'
lst = ('foo', 'bar')

r = False
for x in lst:
    if string.find(x) != -1:
        r = True
        break

print('Contains words:', r)
python
  • 2 2 个回答
  • 10 Views

2 个回答

  • Voted
  1. Best Answer
    MaxU - stop genocide of UA
    2020-09-23T03:46:18Z2020-09-23T03:46:18Z

    要检查字符串是否string至少包含列表中的一个元素lst,可以将字符串拆分为单词,将结果列表转换为集合,并获取此集合与从列表中获得的集合的交集lst:

    res = bool(set(string.split()) & set(lst))
    

    如果结果是一个非空列表,这将表明列表中至少有一个单词包含在字符串中。


    更新1:

    如果输入的是长字符串,我认为分词功能不会那么快

    举个例子,让我们把契诃夫的全集分解成文字:

    In [46]: from pathlib import Path
    
    In [47]: text = Path(r'D:\download\Чехов Антон. Полное собрание сочинений и писем - ModernLib.Ru.txt').read_text()
    
    In [48]: len(text)
    Out[48]: 833011
    
    In [49]: %timeit text.split()
    19.3 ms ± 196 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
    

    契诃夫全集查词速度测量:

    In [50]: %timeit bool(set(text.split()) & set(lst))
    35 ms ± 171 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
    

    UPDATE2:一种更简单且看似更快的方式(速度取决于列表大小lst):

    In [55]: %timeit sum(x in text for x in lst)
    1.49 ms ± 1.08 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
    
    • 1
  2. garrythehotdog
    2020-09-23T04:27:22Z2020-09-23T04:27:22Z

    最快的选项原来是使用构造any,下面是比较各种搜索选项的代码,包括那些使用集合的选项。作为输入,我们使用了英文“复制”文本(~20 Mb),其中lst没有字典中的单词。

    import re
    from time import time
    
    string = ''
    with open('1.txt', 'r', encoding='utf-8') as f:
        string = f.read()
    
    lst = ('garrybaldi', 'megapooper')
    
    t1 = time()
    r = False
    for x in lst:
        if string.find(x) != -1:
            r = True
            break
    t2 = time()
    print('Broot:', t2-t1)
    
    
    t1 = time()
    r2 = any(string.find(x) != -1 for x in ('garrybaldi', 'megapooper'))
    t2 = time()
    print('Any:', t2-t1)
    
    t1 = time()
    r_re = True if re.search('(garrybaldi|megapooper)', string) else False
    t2 = time()
    print('Regex:', t2-t1)
    
    t1 = time()
    r_set = bool(set(string.split()) & set(lst))
    t2 = time()
    print('set:', t2-t1)
    

    结果:

    Broot: 0.030079364776611328
    Any: 0.028577327728271484
    Regex: 0.14287662506103516
    set: 0.5278980731964111
    
    • 1

相关问题

Sidebar

Stats

  • 问题 10021
  • Answers 30001
  • 最佳答案 8000
  • 用户 6900
  • 常问
  • 回答
  • Marko Smith

    是否可以在 C++ 中继承类 <---> 结构?

    • 2 个回答
  • Marko Smith

    这种神经网络架构适合文本分类吗?

    • 1 个回答
  • Marko Smith

    为什么分配的工作方式不同?

    • 3 个回答
  • Marko Smith

    控制台中的光标坐标

    • 1 个回答
  • Marko Smith

    如何在 C++ 中删除类的实例?

    • 4 个回答
  • Marko Smith

    点是否属于线段的问题

    • 2 个回答
  • Marko Smith

    json结构错误

    • 1 个回答
  • Marko Smith

    ServiceWorker 中的“获取”事件

    • 1 个回答
  • Marko Smith

    c ++控制台应用程序exe文件[重复]

    • 1 个回答
  • Marko Smith

    按多列从sql表中选择

    • 1 个回答
  • Martin Hope
    Alexandr_TT 圣诞树动画 2020-12-23 00:38:08 +0000 UTC
  • Martin Hope
    Suvitruf - Andrei Apanasik 什么是空? 2020-08-21 01:48:09 +0000 UTC
  • Martin Hope
    Air 究竟是什么标识了网站访问者? 2020-11-03 15:49:20 +0000 UTC
  • Martin Hope
    Qwertiy 号码显示 9223372036854775807 2020-07-11 18:16:49 +0000 UTC
  • Martin Hope
    user216109 如何为黑客设下陷阱,或充分击退攻击? 2020-05-10 02:22:52 +0000 UTC
  • Martin Hope
    Qwertiy 并变成3个无穷大 2020-11-06 07:15:57 +0000 UTC
  • Martin Hope
    koks_rs 什么是样板代码? 2020-10-27 15:43:19 +0000 UTC
  • Martin Hope
    Sirop4ik 向 git 提交发布的正确方法是什么? 2020-10-05 00:02:00 +0000 UTC
  • Martin Hope
    faoxis 为什么在这么多示例中函数都称为 foo? 2020-08-15 04:42:49 +0000 UTC
  • Martin Hope
    Pavel Mayorov 如何从事件或回调函数中返回值?或者至少等他们完成。 2020-08-11 16:49:28 +0000 UTC

热门标签

javascript python java php c# c++ html android jquery mysql

Explore

  • 主页
  • 问题
    • 热门问题
    • 最新问题
  • 标签
  • 帮助

Footer

RError.com

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

帮助

© 2023 RError.com All Rights Reserve   沪ICP备12040472号-5