这是代码python
:
import requests
from bs4 import BeautifulSoup
# переменная показывающая номер домена
a = 0
def parse_img(g):
for i in range(g):
global a
a += 1
url = 'https://www.1zoom.ru/%D0%96%D0%B8%D0%B2%D0%BE%D1%82%D0%BD%D1%8B%D0%B5/%D0%9A%D0%BE%D1%82%D1%8F%D1%82%D0%B0/t2/'
HEADERS = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'}
html = requests.get(url + str(a), headers = HEADERS )
print(html.url)
html = html.text
soup = BeautifulSoup(html, 'lxml')
div_tags = soup.find_all('div', {'id': 'suda'})
img_tags = [div.find('img') for div in div_tags]
url_img = [img['src'] for img in img_tags]
return url_img
# Парсинг первого домена
print(parse_img(1))
结果,仅从站点解析了一张图像,而不是站点上的所有图像
结论:
https://www.1zoom.ru/%D0%96%D0%B8%D0%B2%D0%BE%D1%82%D0%BD%D1%8B%D0%B5/%D0%9A%D0%BE%D1%82%D1%8F%D1%82%D0%B0/t2/1/
['https://s1.1zoom.ru/prev2/581/Ginger_color_Cute_Kittens_580356_300x214.jpg']
我有一个问题,如何解析站点域中的所有图像,而不仅仅是一个?
重写解析器:
html.parser
#suda
- 搜索一个元素id="suda"
.ph
- 元素与class="ph"
>
表示右边的元素是左边元素的直接子元素。那些。.ph > a
表示该类的元素ph
有一个嵌套元素<a>
img[src]
–<img>
将具有属性的搜索src
示例: