第一个问题: 在页面 https://ru.wikipedia.org/wiki/XPath上 ,获取我们当前所在站点的域。
使用 XPath 查询(谷歌浏览器开发工具中的 f12 和 ctrl+f)。
问题是怎么做?应该是什么要求?
第二个问题: 在页面 https://www.google.com/search?q=xpath上 ,收集除第一个和最后一个以外的所有奇怪搜索结果的链接。
问题是怎么做?应该是什么要求?
第一个问题: 在页面 https://ru.wikipedia.org/wiki/XPath上 ,获取我们当前所在站点的域。
使用 XPath 查询(谷歌浏览器开发工具中的 f12 和 ctrl+f)。
问题是怎么做?应该是什么要求?
第二个问题: 在页面 https://www.google.com/search?q=xpath上 ,收集除第一个和最后一个以外的所有奇怪搜索结果的链接。
问题是怎么做?应该是什么要求?
1) 站点域 - ru.wikipedia.org。如果我们在开发者控制台的 html 中搜索这个字符串,我们将得到 15 个匹配项。带有 rel='canonical' 属性的链接标签包含指向页面本身的链接,并且位于每个 Wikipedia 页面上。从此字符串中,使用 substring 函数,您可以提取域:
substring((//link[@rel='canonical']/@href),9,16)
2)我们得到搜索结果的所有链接,然后我们写条件。重要的是要记住,这种情况下的条件应该写到已经准备好的查询结果中,即在括号 - (query)[conditions] 之后。
(//div[@class='r']/a/@href)[position() mod 2 > 0 and position() > 1 and position() < last()]