圣诞树动画

Question

garrythehotdog

Asked:2020-11-14 15:25:24 +0000 UTC2020-11-14 15:25:24 +0000 UTC 2020-11-14 15:25:24 +0000 UTC

如何识别随机字符集中的文本？

772

需要从一组随机字符中提取包含姓名、姓氏等的单词。例如，从这组词中：

3kshjfsdhf9834r
Henry11
34r9jsadfsdf
Jackson33
3d2d32ddffjkj
Alex

得到这个：

Henry11
Jackson33
Alex

到目前为止，我正在考虑计算单词中的元音和辅音，然后留下元音和辅音一定比例的单词。第二种选择是使用字典，但我不确定是否存在包含所有姓名和姓氏的字典，并且还必须考虑俄语姓名和姓氏。

也许有一些来自“时尚”机器学习世界的现成解决方案？

3 个回答

Voted

gil9red · Answer 1 · 2020-11-14T15:52:32Z

Best Answer

gil9red

2020-11-14T15:52:32Z2020-11-14T15:52:32Z

到目前为止，我正在考虑计算单词中的元音和辅音，然后留下元音和辅音的“一定”比例的单词。

例如，我们排除具有 4 个或更多连续辅音的单词：

import re

PATTERN = re.compile('[bcdfghjklmnpqrstvwxz]{4,}', flags=re.I)

words = ['3kshjfsdhf9834r', 'Henry11', '34r9jsadfsdf', 'Jackson33', '3d2d32ddffjkj', 'Alex']
print(words)

new_words = [word for word in words if not PATTERN.search(word)]
print(new_words)  # ['Henry11', 'Jackson33', 'Alex']

PS。

很明显，这个算法非常简单。

4

passant · Answer 2 · 2020-11-15T19:06:19Z

如果你有一个大的 - 非常大的，大约数千或数万 - 一组真实的名字和姓氏，那么你可以尝试使用 - 正如你所说的 - “时尚”机器学习。

或多或少是这样的。

首先，我们生成另一组同样大的随机序列。然后我们混合我们的两组（“正确”和随机），不要忘记为每个单词分配一个相应的标签。然后我们尝试为分类任务训练神经网络。输入符号是序列和 n-gram 的字母（也许是别的东西，但现在我想不起来了）。希望网络能够训练。

顺便说一句，“四个辅音”的问题，但不是任意的，而是真正出现在这种语言中的那些，将在此过程中得到解决。

顺便说一句，在此过程中，您的示例中名字和姓氏后面的数字是什么意思以及它们的重要性并不完全清楚。

PS我还找到了一个链接-http://ai-news.ru/2018/11/pytorch_rnn_opredelyaem_yazyk_po_familii_cheloveka.html 任务，虽然和你的有点不同，但我认为可以收集到一些有用的想法。

Andrio Skur · Answer 3 · 2020-11-15T19:14:59Z

Andrio Skur

2020-11-15T19:14:59Z2020-11-15T19:14:59Z

其实很简单：

Для каждой строки в файле:
    Для каждой подряд идущей комбинации букв в строке: 
         #(word) -> (w, wo, wor, word, o, or, ord, rd, r, rd, d)
         Чекаем являться ли эта комбинция именем(через списки имен или либой например)

一般来说，如果你能提供部分套装会很好。在您的示例中，我看到带有数字的模式，但我不明白是这样，还是示例中的缺陷

0

如何识别随机字符集中的文本？

是否可以在 C++ 中继承类 <---> 结构？

这种神经网络架构适合文本分类吗？

为什么分配的工作方式不同？

控制台中的光标坐标

如何在 C++ 中删除类的实例？

点是否属于线段的问题

json结构错误

ServiceWorker 中的“获取”事件

c ++控制台应用程序exe文件[重复]

按多列从sql表中选择

如何识别随机字符集中的文本？

3 个回答

相关问题