需要从一组随机字符中提取包含姓名、姓氏等的单词。例如,从这组词中:
3kshjfsdhf9834r
Henry11
34r9jsadfsdf
Jackson33
3d2d32ddffjkj
Alex
得到这个:
Henry11
Jackson33
Alex
到目前为止,我正在考虑计算单词中的元音和辅音,然后留下元音和辅音一定比例的单词。第二种选择是使用字典,但我不确定是否存在包含所有姓名和姓氏的字典,并且还必须考虑俄语姓名和姓氏。
也许有一些来自“时尚”机器学习世界的现成解决方案?
需要从一组随机字符中提取包含姓名、姓氏等的单词。例如,从这组词中:
3kshjfsdhf9834r
Henry11
34r9jsadfsdf
Jackson33
3d2d32ddffjkj
Alex
得到这个:
Henry11
Jackson33
Alex
到目前为止,我正在考虑计算单词中的元音和辅音,然后留下元音和辅音一定比例的单词。第二种选择是使用字典,但我不确定是否存在包含所有姓名和姓氏的字典,并且还必须考虑俄语姓名和姓氏。
也许有一些来自“时尚”机器学习世界的现成解决方案?
例如,我们排除具有 4 个或更多连续辅音的单词:
PS。
很明显,这个算法非常简单。
如果你有一个大的 - 非常大的,大约数千或数万 - 一组真实的名字和姓氏,那么你可以尝试使用 - 正如你所说的 - “时尚”机器学习。
或多或少是这样的。
首先,我们生成另一组同样大的随机序列。然后我们混合我们的两组(“正确”和随机),不要忘记为每个单词分配一个相应的标签。然后我们尝试为分类任务训练神经网络。输入符号是序列和 n-gram 的字母(也许是别的东西,但现在我想不起来了)。希望网络能够训练。
顺便说一句,“四个辅音”的问题,但不是任意的,而是真正出现在这种语言中的那些,将在此过程中得到解决。
顺便说一句,在此过程中,您的示例中名字和姓氏后面的数字是什么意思以及它们的重要性并不完全清楚。
PS我还找到了一个链接-http://ai-news.ru/2018/11/pytorch_rnn_opredelyaem_yazyk_po_familii_cheloveka.html 任务,虽然和你的有点不同,但我认为可以收集到一些有用的想法。
其实很简单:
一般来说,如果你能提供部分套装会很好。在您的示例中,我看到带有数字的模式,但我不明白是这样,还是示例中的缺陷