究竟是什么标识了网站访问者？

Question

User New

Asked:2020-04-15 20:39:38 +0000 UTC2020-04-15 20:39:38 +0000 UTC 2020-04-15 20:39:38 +0000 UTC

python scrapy 将多个页面的数据收集到一个字典中

772

下午好，有一个网站的主页上有文章预告 - 这将是解析的起始页。从中，蜘蛛遍历文章页面并收集每篇文章的数据——作者、文章评级、出版日期等。这是我的蜘蛛做得很好。

import scrapy
from scrapy.spiders import Spider
from sxtl.items import SxtlItem
from scrapy.http.request import Request


class SxtlSpider(Spider):
    name = "sxtl"

    start_urls = ['some_site']


    def parse(self, response):

        list_of_stories = response.xpath('//div[@id and @class="storyBox"]')

        item = SxtlItem()

        for i in list_of_stories:

            pre_rating = i.xpath('div[@class="storyDetail"]/div[@class="stor\
                yDetailWrapper"]/div[@class="block rating_positive"]/span/\
                text()').extract()
            rating = float(("".join(pre_rating)).replace("+", ""))

            link = "".join(i.xpath('div[@class="wrapSLT"]/div[@class="title\
                Story"]/a/@href').extract())

            if rating > 6:
                yield Request("".join(link), meta={'item':item}, callback=\
                                                            self.parse_story)
            else:
                break

    def parse_story(self, response):

        item = response.meta['item']

        number_of_pages = response.xpath('//div[@class="pNavig"]/a[@href]\
                                        [last()-1]/text()').extract()

        if number_of_pages:
            item['number_of_pages'] = int("".join(number_of_pages))
        else:
            item['number_of_pages'] = 1

        item['date'] = "".join(response.xpath('//span[@class="date"]\
                                                /text()').extract()).strip()
        item['author'] = "".join(response.xpath('//a[@class="author"]\
                                                /text()').extract()).strip()
        item['text'] = response.xpath('//div[@id="storyText"]/div\
                [@itemprop="description"]/text() | //div[@id="storyText"]\
                        /div[@itemprop="description"]/p/text()').extract()
        item['list_of_links'] = response.xpath('//div[@class="pNavig"]\
                                            /a[@href]/@href').extract()

        yield item

在这种情况下，一切顺利，但我们只有所有文章的第一页。但是...问题是几乎每篇文章在其他页面上都有续篇，即。有指向文章第 2、3、4、5 页的链接。问题来了。我将 yield item 更改为此：

yield Request("".join(item['list_of_links'][0]), meta={'item':item}, \
                                                callback=self.get_text)


def get_text(self, response):

    item = response.meta['item']

    item['text'].extend(response.xpath('//div[@id="storyText"]/div\
        [@itemprop="description"]/text() | //div[@id="storyText"]\
                /div[@itemprop="description"]/p/text()').extract())

    yield item

蜘蛛转到文章的下一页，但他已经在随机雕刻第二页了。那些。他可以将第 1 篇文章的第 2 页添加到第 5 篇文章的第 1 页。第3条第2页，附于第9条首页。

请告诉我，如果需要在一个项目中收集的信息位于站点的多个页面上，如何解析站点？（就我而言，如何确保来自不同项目的数据不会相互混合）？

提前致谢。

1 个回答

Voted

User New · Answer 1 · 2020-04-17T10:14:23Z

Best Answer

User New

2020-04-17T10:14:23Z2020-04-17T10:14:23Z

经过多次尝试和吸烟手册后，我找到了解决方案，甚至可能是解释。)

item = SxtlItem()

这个 item'a 声明需要从 parse 函数移到 parse_story 函数的开头，而不是 item = response.meta['item'] 行。然后一切正常。

解释（如我所见）：在此之前，项目在程序中被声明一次，并且在读取一页历史后立即导出时，它以某种方式重置为零（或者更确切地说，不重置，而只是所有字段被新值覆盖，它看起来像新的正确项目）。对于多页故事 - 它保持相同的一个项目并且文本字段附加了一个新的延续与循环的每个新绕过（在深入挖掘时发现的另一个故障 - 多页故事相互重复 - 那是，它们并没有太多混合，而是一个混合，重复了几次。）一般来说，整个问题是一个项目的创建必须重复多次，因为项目计划被接收。（项目声明放在同一个循环中，或者在同一个函数中，它的填充开始的地方）。

0

python scrapy 将多个页面的数据收集到一个字典中

Python 3.6 - 安装 MySQL (Windows)

C++ 编写程序“计算单个岛屿”。填充一个二维数组 12x12 0 和 1

返回指针的函数

我使用 django 管理面板添加图像，但它没有显示

这些条目是什么意思，它们的完整等效项是什么样的

浏览器仍然缓存文件数据

在 Excel VBA 中激活工作表的问题

为什么内置类型中包含复数而小数不包含？

获得唯一途径

告诉我一个像幻灯片一样创建滚动的库

python scrapy 将多个页面的数据收集到一个字典中

1 个回答

相关问题