Jarry Roxwell Asked:2022-05-15 09:25:28 +0800 CST2022-05-15 09:25:28 +0800 CST 2022-05-15 09:25:28 +0800 CST 网站搜索的工作原理 772 您如何在概念上组织站点搜索(管理系统上的站点)? 看看被问到的问题: 快速站点搜索 如何实现站点搜索 实施站点搜索 我用谷歌搜索,但并没有真正找到我可以研究这个问题的地方。对它如何工作感兴趣。 在想到的选项中: 按表格字段搜索。 让我们创建一个单独的表,让我们search遍历站点的所有页面并将其内容写入此表,在此表中进行搜索,并在更新内容时重新索引已更新内容的页面(但是如果我不知道页面上的动态内容该怎么办)。 搜索引擎(如谷歌)是如何工作的? база-данных 1 个回答 Voted Best Answer DiD 2022-05-15T14:40:10+08:002022-05-15T14:40:10+08:00 具有动态内容的页面需要一种算法来从内容中提取有用信息。对于 HTML 文本,最好的算法之一是可读性。它给每个标签一个所谓的readability score,也非常注意meta页面的数据。 Porter's Stemmer可用于查找不准确的单词形式。这是最简单的方法,但您可以在 google 上搜索表达式词法形态分析的其他方法。 要搜索所有内容格式(html、txt、doc、xls、pdf),有Sphinx软件。
具有动态内容的页面需要一种算法来从内容中提取有用信息。对于 HTML 文本,最好的算法之一是可读性。它给每个标签一个所谓的
readability score
,也非常注意meta
页面的数据。Porter's Stemmer可用于查找不准确的单词形式。这是最简单的方法,但您可以在 google 上搜索表达式词法形态分析的其他方法。
要搜索所有内容格式(html、txt、doc、xls、pdf),有Sphinx软件。