试图弄清楚如何比较字符串示例字符串
1. г. Москва, вн.тер.г. муниципальный округ Тверской, ул Кузнецкий Мост, д. 4/3, стр. 1, этаж МАНСАРДНЫЙ, ПОМ. I, ком. 413
2. г. Москва Тверской ул Кузнецкий Мост д. 4/3 стр. 1
3. 105005 г. Москва 2-я Бауманская ул. 5 стр. 1
4. 105005 г. Москва ул. Радио д. 20
如您所见,第 1 行和第 2 行包含基本相同的地址。第 3 行和第 4 行不同。我不知道如何让程序显示地址 1 和 2 相同。我什至不知道从哪里开始......
作为第一个近似值,它可能如下所示:
从不必要的信息中清除的地址:
比较结果:
通常某处的分数 >95 意味着数据可以被认为是匹配的。在这种情况下,第 1 个和第 2 个地址匹配,其他比较给出非常小的评级。主要问题在于从 85 到 95 的评分,但额外的数据清理/规范化会有所帮助 - 您需要查看算法失败的地方并添加更多数据转换。
但总的来说,您最终可能会淹没在这些数据转换中。在一般情况下,这是一项相当重要的任务,它可能比乍一看要困难得多。