究竟是什么标识了网站访问者？

Question

Gleb

Asked:2020-08-29 03:56:14 +0800 CST2020-08-29 03:56:14 +0800 CST 2020-08-29 03:56:14 +0800 CST

如何创建拼写排序器：按给定字母顺序的首字母对单词列表进行排序

772

如何创建一个字母分类器。从任何字母到任何字母？（在python 3中）实际上写了代码：

list=["e","r","t","y","w"]
h=0
list2=["write","english","teacher","read","yellow"]
enter=[]
for u in range(1000):           #while len(enter)<=4:
    for qw in list2:
        try:
            if qw[0]==list[h]:
                enter.append(qw)
                h=h+1
        except IndexError:
            pass
print(enter)

但是这段代码的缺点是，如果碰巧在我们遇到的列表 2 中，让我们为字母 r 说两个单词，那么它会为字母 r 打印一个单词，它更接近列表的开头，这是由于我创建了一个变量 h 来显示哪个是下一个字母。

使用 Python 3.6.1

3 个回答

Voted

jfs · Answer 1 · 2020-08-30T01:11:38+08:00

要按第一个字母对单词列表进行排序，使用另一个列表（字母表）给出的字母顺序，假设字母表很小并且它的长度与输入无关，有一个简单的 O(n * log n)解决方案：

def sorted_by_first_char(words, alphabet):
    return sorted(words, key=lambda word: alphabet.index(word[0]))

如果调用的结果alphabet.index()被缓存，那么将获得@MaxU 的答案的解决方案。

对于更多输入，有一个线性 O(n + m) 算法：

from collections import defaultdict

def sorted_by_first_char(words, alphabet):
    words_by_char = defaultdict(list)  # char -> words
    for word in words:
        words_by_char[word[0]].append(word)
    return [word for char in alphabet for word in words_by_char.get(char) or []]

其中n是单词m的数量，是字母表中的字母数。例子：

>>> alphabet = "wtrye"
>>> words = ["write", "english", "teacher", "read", "yellow", "red"]
>>> sorted_by_first_char(words, alphabet)
['write', 'teacher', 'read', 'red', 'yellow', 'english']

性能比较

简而言之：没有惊喜。在小输入上，执行时间没有太大差异（因此，最好使用最简单的解决方案）。在大输入时，解决方案的渐近性会让人感觉到（如果性能很重要，请使用适当的算法）。

ñ，米〜1

对于少量输入，所有实现（sorted_by_first_char()上述 + 问题的其他解决方案）在我的机器上花费大致相同的 3-5 微秒时间：

$ python -m perf timeit -s $'def sorted_by_first_char(words, alphabet):\n\torder = {c:i for i,c in enumerate(alphabet)}\n\treturn sorted(words, key=lambda w: order[w[0]])\nalphabet = "wtrye"\nwords = ["write", "english", "teacher", "read", "yellow", "red"]' 'sorted_by_first_char(words, alphabet)' 
.....................
Mean +- std dev: 4.61 us +- 0.16 us

$ python -m perf timeit -s $'from collections import defaultdict\ndef sorted_by_first_char(words, alphabet):\n\twords_by_first_char = defaultdict(list)\n\tfor word in words:\n\t\twords_by_first_char[word[0]].append(word)\n\treturn [word for char in alphabet for word in words_by_first_char[char]]\nalphabet = "wtrye"\nwords = ["write", "english", "teacher", "read", "yellow", "red"]' 'sorted_by_first_char(words, alphabet)'
.....................
Mean +- std dev: 4.80 us +- 0.21 us

$ python -m perf timeit -s $'def sorted_by_first_char(words, alphabet):\n\treturn sorted(words, key=lambda word: alphabet.index(word[0]))\nalphabet = "wtrye"\nwords = ["write", "english", "teacher", "read", "yellow", "red"]' 'sorted_by_first_char(words, alphabet)'
.....................
Mean +- std dev: 4.40 us +- 0.15 us

$ python -m perf timeit -s $'def sorted_by_first_char(words, alphabet):\n\treturn [w for c in alphabet for w in words if c == w[0]]\nalphabet = "wtrye"\nwords = ["write", "english", "teacher", "read", "yellow", "red"]' 'sorted_by_first_char(words, alphabet)'                                 
.....................
Mean +- std dev: 3.23 us +- 0.08 us

m ~ 10, n ~ 10_000*m

$ python -m perf timeit -s $'import string\ndef sorted_by_first_char(words, alphabet):\n\torder = {c:i for i,c in enumerate(alphabet)}\n\treturn sorted(words, key=lambda w: order[w[0]])\nalphabet = string.ascii_lowercase\nwords = list(alphabet)*10000' 'sorted_by_first_char(words, alphabet)'  
.....................
Mean +- std dev: 105 ms +- 2 ms

$ python -m perf timeit -s $'import string\nfrom collections import defaultdict\ndef sorted_by_first_char(words, alphabet):\n\twords_by_first_char = defaultdict(list)\n\tfor word in words:\n\t\twords_by_first_char[word[0]].append(word)\n\treturn [word for char in alphabet for word in words_by_first_char[char]]\nalphabet = string.ascii_lowercase\nwords = list(alphabet)*10000' 'sorted_by_first_char(words, alphabet)'
.....................
Mean +- std dev: 48.8 ms +- 1.3 ms

$ python -m perf timeit -s $'import string\ndef sorted_by_first_char(words, alphabet):\n\treturn sorted(words, key=lambda word: alphabet.index(word[0]))\nalphabet = string.ascii_lowercase\nwords = list(alphabet)*10000' 'sorted_by_first_char(words, alphabet)'
.....................
Mean +- std dev: 150 ms +- 3 ms

$ python -m perf timeit -s $'import string\ndef sorted_by_first_char(words, alphabet):\n\treturn [w for c in alphabet for w in words if c == w[0]]\nalphabet = string.ascii_lowercase\nwords = list(alphabet)*10000' 'sorted_by_first_char(words, alphabet)'
.....................
Mean +- std dev: 508 ms +- 17 ms

二次解开始滞后。

n, m ~ 1000_000

对于大字母表（所有 Unicode 字符），使用字典的非二次解决方案要快得多。它们按一秒的顺序执行：

$ python -m perf timeit -s $'import sys\ndef sorted_by_first_char(words, alphabet):\n\torder = {c:i for i,c in enumerate(alphabet)}\n\treturn sorted(words, key=lambda w: order[w[0]])\n\nwords = alphabet = "".join(map(chr, range(sys.maxunicode+1)))' 'sorted_by_first_char(words, alphabet)'
.....................
Mean +- std dev: 934 ms +- 30 ms

$ python -m perf timeit -s $'import sys\nfrom collections import defaultdict\ndef sorted_by_first_char(words, alphabet):\n\twords_by_first_char = defaultdict(list)\n\tfor word in words:\n\t\twords_by_first_char[word[0]].append(word)\n\treturn [word for char in alphabet for word in words_by_first_char[char]]\n\nwords = alphabet = "".join(map(chr, range(sys.maxunicode+1)))' 'sorted_by_first_char(words, alphabet)'.....................
Mean +- std dev: 1.83 sec +- 0.05 sec

二次算法（来自@Dmitry Erohin 的回答和我的评论的解决方案）在这种情况下需要大约 10 ¹²次操作，即如果以每秒十亿次操作执行，则需要大约一个小时才能完成，这明显比非二次算法差解决方案。

请注意，@MaxU 答案O(n log n + m)中的解决方案在已经排序的输入（Python 中 sorted() 中使用的 timsort 算法的一个特性）上的运行速度比来自此答案的解决方案更快。O(n + m)

这通过对混合输入的测量得到证实（时间上的差异较小）：

$ python -m perf timeit -s $'import random, sys\nfrom collections import defaultdict\ndef sorted_by_first_char(words, alphabet):\n\twords_by_first_char = defaultdict(list)\n\tfor word in words:\n\t\twords_by_first_char[word[0]].append(word)\n\treturn [word for char in alphabet for word in words_by_first_char[char]]\n\nalphabet = "".join(map(chr, range(sys.maxunicode+1)))\nwords = list(alphabet)\nrandom.shuffle(words)' 'sorted_by_first_char(words, alphabet)'
.....................
Mean +- std dev: 2.93 sec +- 0.06 sec

$ python -m perf timeit -s $'import random, sys\ndef sorted_by_first_char(words, alphabet):\n\torder = {c:i for i,c in enumerate(alphabet)}\n\treturn sorted(words, key=lambda w: order[w[0]])\n\nalphabet = "".join(map(chr, range(sys.maxunicode+1)))\nwords = list(alphabet)\nrandom.shuffle(words)' 'sorted_by_first_char(words, alphabet)'
.....................
Mean +- std dev: 2.22 sec +- 0.07 sec

m ~ 1000_000, n ~ 10*m

作为n，线性解胜出：

$ python -m perf timeit -s $'import random, sys\nfrom collections import defaultdict\ndef sorted_by_first_char(words, alphabet):\n\twords_by_first_char = defaultdict(list)\n\tfor word in words:\n\t\twords_by_first_char[word[0]].append(word)\n\treturn [word for char in alphabet for word in words_by_first_char[char]]\n\nalphabet = "".join(map(chr, range(sys.maxunicode+1)))\nwords = list(alphabet)*10\nrandom.shuffle(words)' 'sorted_by_first_char(words, alphabet)'
.....................
Mean +- std dev: 14.2 sec +- 0.4 sec

$ python -m perf timeit -s $'import random, sys\ndef sorted_by_first_char(words, alphabet):\n\torder = {c:i for i,c in enumerate(alphabet)}\n\treturn sorted(words, key=lambda w: order[w[0]])\n\nalphabet = "".join(map(chr, range(sys.maxunicode+1)))\nwords = list(alphabet)*10\nrandom.shuffle(words)' 'sorted_by_first_char(words, alphabet)'
.....................
Mean +- std dev: 18.1 sec +- 0.4 sec

Dmitry Erohin · Answer 2 · 2020-08-29T14:39:37+08:00

Best Answer

Dmitry Erohin

2020-08-29T14:39:37+08:002020-08-29T14:39:37+08:00

list1=["e","r","t","y","w"]
list2=["write","english","teacher","read","yellow"]

enter = [y for x in list1 for y in list2 if x == y[0]]

print(enter)

2

MaxU - stop genocide of UA · Answer 3 · 2020-08-29T17:47:43+08:00

MaxU - stop genocide of UA

2020-08-29T17:47:43+08:002020-08-29T17:47:43+08:00

非标准（“自定义”）排序示例：

In [115]: lst1 = ["w","t","r","y","e"]

In [116]: lst2 = ["write","english","teacher","read","yellow", "red"]

In [117]: order = {x:i for i,x in enumerate(lst1)}

In [118]: sorted(lst2, key=lambda x: order[x[0]])
Out[118]: ['write', 'teacher', 'read', 'red', 'yellow', 'english']

辅助词典：

In [119]: order
Out[119]: {'e': 4, 'r': 2, 't': 1, 'w': 0, 'y': 3}

1

如何创建拼写排序器：按给定字母顺序的首字母对单词列表进行排序

性能比较

ñ，米〜1

m ~ 10, n ~ 10_000*m

n, m ~ 1000_000

m ~ 1000_000, n ~ 10*m

onMousePressed 在 ScrollPane 上不起作用

如何关闭jFrame？

JavaFX someNode.getBoundsInLocal().getHeight() 返回 0.0

通过绑定更改图像透明度？

proto 和原型有什么区别？

阻塞进程直到线程/子进程退出

如何一键启动浏览器同步

代码的第一部分有效，但随后无效。我不知道为什么。Python

给出错误警告：filesize(): stat failed for Chrysanthemum.jpg in D:\OSPanel\domains\test\index.php 在第 2 行

同时测试包含“！=”运算符的两个条件

如何创建拼写排序器：按给定字母顺序的首字母对单词列表进行排序

3 个回答

性能比较

ñ，米〜1

m ~ 10, n ~ 10_000*m

n, m ~ 1000_000

m ~ 1000_000, n ~ 10*m

相关问题