组织索引和搜索作为英语转录记录的俄语单词的最佳方法是什么?例如,vision俄语版本中的一个词会写成вижн或вижен,但本质上的意思并没有改变。因此,搜索必须在输出结果丢失vision且不вижн丢失的情况下执行。据我所知,Soundex 和 Metaphone 严格使用同一种语言,没有交叉。
组织索引和搜索作为英语转录记录的俄语单词的最佳方法是什么?例如,vision俄语版本中的一个词会写成вижн或вижен,但本质上的意思并没有改变。因此,搜索必须在输出结果丢失vision且不вижн丢失的情况下执行。据我所知,Soundex 和 Metaphone 严格使用同一种语言,没有交叉。
在我看来,在大多数情况下,同义词的功能就足够了。该数据库很可能具有特定的主题重点,例如医学或电气工程。为了建立考虑到不同语言单词音译/发音的搜索,填写 500-1000 个同义词就足够了。但是使用带有同义词类型过滤器的分析器不是为了索引,而是为了分析搜索查询。
最好将同义词放在一个单独的文件中,而不是将它们存储在设置中。
synonym.txt 文件的内容示例:
愿景,愿景,愿景
如果这还不够,那么我们就会遇到一个非常困难的问题。
如果问题仅限于音译,那么看看ICU Transform Token Filter插件 。如果不是,并且你需要所有可能的单词的视觉,视觉,视觉,然后看看机器学习。这个解决方案是Rosette for Elasticsearch,显然是付费的。
有用的链接。
Soundex 和 Metaphone 是语音算法,正如您所写的那样,它们以相同的语言工作。这不是你需要的。