Android Studio 如何使用 adb 在启动时转到所需的步骤

Question

Lev145

Asked:2020-03-18 02:12:29 +0000 UTC2020-03-18 02:12:29 +0000 UTC 2020-03-18 02:12:29 +0000 UTC

脚本不适用于 BeautifulSoup 和请求 (Python3x)

772

我试图解析网站上的图片地址（https://amitego.ru/）

结果是这样的：

import requests
from bs4 import BeautifulSoup

HEADERS = {
'user-agent': '*Скрыто*',
'accept': '*/*'

}

def get_html(url):
    r = requests.get(url, headers=HEADERS)
    return r.text

def get_images(html):
    soup = BeautifulSoup(html, 'lxml')
    a = soup.find('div', class_='pp-posts-container').find_all('div', class_='pp-post-thumbnail')
    images = []

    for i in images:
        img = a.find('a').get('src')
        images.append(a)
    return images



def main():
    url = 'https://amitego.ru/'
    all_images = get_images(get_html(url))

    for i in all_images:
        print(i)

if __name__ == '__main__':
    main()

解析时，它不会产生任何东西，我不知道为什么（请告诉我我可能错在哪里。

2 个回答

Voted

nomnoms12 · Answer 1 · 2020-03-18T05:54:31Z

这些行中有几个错误：

a = soup.find('div', class_='pp-posts-container').find_all('div', class_='pp-post-thumbnail')
images = []

for i in images:
    img = a.find('a').get('src')
    images.append(a)

在一个循环中，for您正在遍历一个空列表。也就是说，根本不执行循环，函数返回一个空列表images。

但是，即使您纠正错误并迭代a，也不会产生任何结果，因为i您根本不使用该变量，而且您获得的链接不是指向图像，而是指向文章。

工作示例：

import requests
from bs4 import BeautifulSoup


def parse():
    html = requests.get('https://amitego.ru/').text
    soup = BeautifulSoup(html, 'lxml')

    div_tags = soup.find_all('div', {'class': 'pp-post-thumbnail'})
    img_tags = [div.find('img') for div in div_tags]

    image_src = [img['data-src'] for img in img_tags]
    return image_src


def main():
    links = parse()
    print(*links, sep='\n')


if __name__ == '__main__':
    main()

标准输出：

https://amitego.ru/wp-content/uploads/2020/03/gettyimages-1189261010-scaled.jpg
https://amitego.ru/wp-content/uploads/2020/02/litedesk-1.png
https://amitego.ru/wp-content/uploads/2020/02/1472905475_sd_maid_pro.jpg
https://amitego.ru/wp-content/uploads/2020/02/Z0JMHoqnCO4.jpg
https://amitego.ru/wp-content/uploads/2020/02/intel-neuromorphic-system-loihi.jpeg
https://amitego.ru/wp-content/uploads/2020/02/Windows-10-20H1.jpg

Ole Lukøje · Answer 2 · 2020-03-18T06:22:22Z

import wget
import requests
from bs4 import BeautifulSoup as Soup

if __name__ == '__main__':
    with requests.Session() as session:
        soup = Soup(session.get('https://amitego.ru/').content, 'html.parser')

        pages = int(soup.find('div', {'class': 'pp-posts-pagination-wrap'}).extract()['data-total']) + 1

        links = []

        for num in range(1, pages):
            page = Soup(session.get(f'https://amitego.ru/?page={num}').content, 'html.parser')
            links.extend([item.attrs['data-srcset'].split(',')[0].split()[0].strip()
                          for item in page.find_all('img', {'class': 'size-full'}) if 'data-srcset' in item.attrs])

        print(*links, sep='\n')

如果相反

print(*links, sep='\n')

添加

for link in links:
    wget.download(link, bar=None)

然后代码将加载图像

有6页，代码解析全部6页，下面是输出：

https://amitego.ru/wp-content/uploads/2020/03/gettyimages-1189261010-scaled.jpg
https://amitego.ru/wp-content/uploads/2020/02/litedesk-1.png
https://amitego.ru/wp-content/uploads/2020/02/1472905475_sd_maid_pro.jpg
https://amitego.ru/wp-content/uploads/2020/02/Z0JMHoqnCO4.jpg
https://amitego.ru/wp-content/uploads/2020/02/intel-neuromorphic-system-loihi.jpeg
https://amitego.ru/wp-content/uploads/2020/02/Windows-10-20H1.jpg
https://amitego.ru/wp-content/uploads/2020/01/Android-Security-Patch-September-2017.jpg
https://amitego.ru/wp-content/uploads/2020/01/Аннотация-2020-01-29-232035.png
https://amitego.ru/wp-content/uploads/2020/01/004fe181da1577c5677f662bf5d3c260.jpg
https://amitego.ru/wp-content/uploads/2020/01/i.jpg
https://amitego.ru/wp-content/uploads/2020/01/52d30b22b88a476ee5aa97bba1aa82da.jpg
https://amitego.ru/wp-content/uploads/2020/01/kisspng-television-set-download-retro-old-antenna-tv-set-5a799c8ad3ab07.109004031517919370867-1.png
https://amitego.ru/wp-content/uploads/2020/01/Без-названия.jpeg
https://amitego.ru/wp-content/uploads/2019/12/Is-It-Too-Early-to-Start-Planning-For-2020-Tech-Critic-864x576-1.jpg
https://amitego.ru/wp-content/uploads/2019/12/Dr5whIHWoAIs5sI.jpg-large.jpg
https://amitego.ru/wp-content/uploads/2019/12/1515760522_201.jpg
https://amitego.ru/wp-content/uploads/2019/12/cinnamon-mint.jpg
https://amitego.ru/wp-content/uploads/2019/12/Аннотация-2019-12-19-175211.png
https://amitego.ru/wp-content/uploads/2019/12/translate-1500x10001-1.jpg
https://amitego.ru/wp-content/uploads/2019/12/Без-названия-5.jpeg
https://amitego.ru/wp-content/uploads/2019/12/Аннотация-2019-12-06-180411.png
https://amitego.ru/wp-content/uploads/2019/12/Annotatsiya-2019-12-06-080333.png
https://amitego.ru/wp-content/uploads/2019/12/desktop.jpg
https://amitego.ru/wp-content/uploads/2019/11/razrabotchik_cms_bitrix.jpg
https://amitego.ru/wp-content/uploads/2019/11/Annotatsiya-2019-11-20-222014.png
https://amitego.ru/wp-content/uploads/2019/11/k1gegUnLhZZTK-oOdPTEPDQUuymB8o_BIBF7-vWNaImHt4Q9kVLqtU0U8HYotElRtQh9001.png
https://amitego.ru/wp-content/uploads/2019/11/orig.png
https://amitego.ru/wp-content/uploads/2019/11/1449846994_maxresdefault.jpg
https://amitego.ru/wp-content/uploads/2019/11/Bez-nazvaniya.png
https://amitego.ru/wp-content/uploads/2019/10/image-10.png
https://amitego.ru/wp-content/uploads/2019/09/Без-названия-2.jpg
https://amitego.ru/wp-content/uploads/2019/09/image-4-1.jpeg
https://amitego.ru/wp-content/uploads/2019/09/Без-названия-1.jpg
https://amitego.ru/wp-content/uploads/2019/09/2.png
https://amitego.ru/wp-content/uploads/2019/09/1.png
https://amitego.ru/wp-content/uploads/2019/08/linux-desktops-709x381.jpg

脚本不适用于 BeautifulSoup 和请求 (Python3x)

如何从列表中打印最大元素（str 类型）的长度？

如何在 PyQT5 中清除 QFrame 的内容

如何将具有特定字符的字符串拆分为两个不同的列表？

导航栏活动元素

是否可以将文本放入数组中？[关闭]

如何一次用多个分隔符拆分字符串？

如何通过 ClassPath 创建 InputStream？

在一个查询中连接多个表

对列表列表中的所有值求和

如何对齐 string.Format 中的列？

脚本不适用于 BeautifulSoup 和请求 (Python3x)

2 个回答

相关问题