2020年新年大赛！

Question

Кевин

Asked:2020-09-15 00:08:15 +0000 UTC2020-09-15 00:08:15 +0000 UTC 2020-09-15 00:08:15 +0000 UTC

如何使用正则表达式加快查找字符串？

772

我有一个第一个文件（大小约为 1-3 kb），其中有几行如下所示：

Name1
Name2
Name3
Name4

还有第二个文件（大小为 1.2 GB），其中的行如下所示：

<root><img>url</img><title>Name1</title>(здесь еще несколько тегов)</root>

第二个文件包含第一个文件的所有名称（以及与 1 相同的文件的名称），只有额外的。信息。

我需要代码遍历文件1的每一行,从那里取一个名称并使用它在文件2中查找具有相同名称的标签.找到包含所需名称的标签后,您需要复制父根标签和里面的一切。

这是我写的代码：

import re

my_list = [12, 13, 14, 17, 18, 19, 21, 22, 23, 24] #идентификатор файла после имени
with open('main_data_file.xml', 'r', encoding='utf-8') as f:
    txt = ''.join(f.readlines())
    for i in my_list:
        cat_name = "catalog_" + str(i) + ".xml"
        data_name = "main_data_catalog" + str(i) + ".xml"
        with open(cat_name, 'r', encoding='utf-8') as g, open(data_name, 'a', encoding='utf-8') as x:
            for element in g.readlines():
                line_regexp = r'.*<title>{}</title>.*'.format(element.strip())
                matches = re.search(line_regexp, txt, re.MULTILINE)
                try:
                    x.write(matches.group(0) + "\n")
                except AttributeError:
                    pass

它正在工作，只是速度很慢，我需要加快这段代码的速度

问题：我怎样才能加快这段代码，至少到 2-3 秒的一行（而不是 10-15 秒的一行）

1 个回答

Voted

Кевин · Answer 1 · 2020-09-17T04:28:54Z

Best Answer

Кевин

2020-09-17T04:28:54Z2020-09-17T04:28:54Z

我搜索并找到了一种相当有效的方法set()

data_set = set()
with open('main_data_file.xml', 'r') as f:
    data_set.update(f.readlines())
    data_name = "main_data_catalog" + str(i) + ".xml"
    with open("names.txt", 'r', encoding='utf-8') as g, open(catalog.xml, 'a') as x:
        for line in g.readlines():
            line_regexp = '<title>%s</title>' % line.strip()
            # print('Searching line:' + line_regexp)
            for element in data_set:
                if line_regexp in element:
                    x.write(element)
                    # print('Element found ' + line.strip() + "\n")

它以相当高的速度工作并且适合我，如果有优化技巧，请写在评论中

0

如何使用正则表达式加快查找字符串？

根据浏览器窗口的大小调整背景图案的大小

理解for循环的执行逻辑

复制动态数组时出错（C++）

Or and If,elif,else 构造[重复]

如何构建支持 x64 的 APK

如何使按钮的输入宽度？

如何显示对象变量的名称？

如何循环一个函数？

LOWORD 宏有什么作用？

从字符串的开头删除直到并包括一个字符

如何使用正则表达式加快查找字符串？

1 个回答

相关问题