RError.com

RError.com Logo RError.com Logo

RError.com Navigation

  • 主页

Mobile menu

Close
  • 主页
  • 系统&网络
    • 热门问题
    • 最新问题
    • 标签
  • Ubuntu
    • 热门问题
    • 最新问题
    • 标签
  • 帮助
主页 / 问题 / 1561834
Accepted
Zoombi_89_adm
Zoombi_89_adm
Asked:2024-01-16 17:36:18 +0000 UTC2024-01-16 17:36:18 +0000 UTC 2024-01-16 17:36:18 +0000 UTC

解析 fetch/xhr 请求 Python

  • 772

大家好,在解析网站https://akniga.org/时,我首先遇到了缺少媒体内容链接的问题。 在此输入图像描述

快速谷歌让我查看页面代码,发现数据是在网络选项卡的请求中从服务器加载的。您需要获得此文件 (pl.m3u8) 的链接,在其帮助下您可以下载整个音轨并使用 ffmpeg 将其保存在您的 PC 上。

我将不胜感激任何帮助!

python
  • 1 1 个回答
  • 98 Views

1 个回答

  • Voted
  1. Best Answer
    DeNRuDi
    2024-01-16T19:10:34Z2024-01-16T19:10:34Z

    从本质上讲,您处理的不是您习惯看到的媒体文件,而是流格式,换句话说,媒体流。

    我确信有一些库可以自动执行此过程,但我只会向您展示它是如何工作的,因为我自己没有太多使用它,但我只是自己分析了它。

    在该网站上,您可以找到HLS (M3U8)一个包含有关现有子流的元数据的文件。要下载它,您只需点击浏览器中的链接即可;它可以直接在开发者控制台中看到:

    https://h7.akniga.club/b/86477/pl.m3u8?res=your_key&expires=1704007036

    输出是一个包含嵌套段的文件。以下是该文件的示例:

    #EXTM3U
    #EXT-X-VERSION:3
    #EXT-X-TARGETDURATION:30
    #EXT-X-MEDIA-SEQUENCE:0
    #EXT-X-PLAYLIST-TYPE:VOD
    #EXT-X-KEY:METHOD=AES-128,URI="https://h11.akniga.club/datakeys/enc.key",IV=your IV
    #EXTINF:30.016000,
    seq0.ts
    #EXTINF:29.994667,
    seq1.ts
    #EXTINF:29.994667,
    seq2.ts
    #EXTINF:29.994667,
    seq3.ts
    #EXTINF:30.016000,
    seq4.ts
    #EXTINF:29.994667,
    seq5.ts
    ...
    

    本质上来说,这种情况下的流是使用AES-128.

    您通过链接收到密钥https://h11.akniga.club/datakeys/enc.key,并且初始化向量(IV)已明确写入文件中。无需在文件中显式写入任何内容,因为 ffmpeg 本身将接收此密钥并解码段,但如果需要,可以手动指定它的路径。

    然后您需要下载扩展名为*.ts. 根据.M3U8我的示例中的文件 - 其中有 94 个,您可能有不同的值。但既然你说它会ffmpeg自行卸载,那么这一步就可以跳过。

    尽管如此,还是如何快速上传这些文件的一个简单示例:

    import requests
    
    
    count_of_ts = 94
    
    for count in range(0, count_of_ts + 1):
        print(f'Downloading segment {count}')
        response = requests.get(f'https://h7.akniga.club/b/86477/seq{count}.ts')
        with open(f'seg{count}.ts', 'wb') as file:
            file.write(response.content)
    
    

    您可以自动化此过程并改进代码,因为这只不过是一个简单的视觉示例,用于展示如何快速手动下载所有文件 - 我的任务是向您传达工作的概念。我确信有更好的方法,或者甚至可以ffmpeg自行下载 - 值得您研究。

    之后,用它ffmpeg来将媒体流收集到媒体文件中。

    我使用了Windows,并且没有使用ffmpeg,所以我mp3无法转换,但在mp4我的情况下,这些片段被收集到一个媒体文件中。如果我没记错的话,那么必须有一些额外的驱动程序,以便您可以重新编码为mp3. 无论如何,您可以通过其他服务mp4进行转换。mp3

    由于我只是展示如何快速组装此媒体文件的示例,因此我使用了以下命令:

    ffmpeg -protocol_whitelist "file,http,https,tcp,tls,crypto" -allowed_extensions ALL -i book.m3u8 -acodec copy output_test.mp4
    

    我建议您使用更精细的设置ffmpeg并弄清楚每个标志的含义。

    更新:

    我没有在评论中写到使用seleniumwire是一个很好的解决方案。更好的是,我写道,最好的解决方案是在常规请求上执行此操作,您只需要弄清楚 -request是如何生成的,即为您检查 -code res,但这完全取决于您的偏好。XHRjs

    但是,选项 cseleniumwire有效。正如我所写,您需要设置轻微的延迟,因为响应XHR不会立即出现。为了减少处理器的负载,您可以selenium在headless模式下打开它 - 这本质上会隐藏浏览器的图形界面。这是第一本书中最简单的例子:

    from selenium.webdriver.chrome.options import Options
    from seleniumwire import webdriver
    
    options = Options()
    options.add_argument('--headless')
    
    driver = webdriver.Chrome(options=options)
    driver.get('https://akniga.org/lansdeyl-dzho-r-dzhentlmenskiy-otel')
    driver.implicitly_wait(3)
    
    find_url = None
    for request in driver.requests:
        if '.m3u8' in request.url:
            find_url = request.url
            print(find_url)
            break
    
    driver.quit()
    # дальнейшая работа с ссылкой
    
    

    该选项并不理想,因为隐式等待概率selenium而不是精确的链接搜索,但是,出于演示目的,代码可以工作,您只需要改进它即可。

    • 2

相关问题

  • 是否可以以某种方式自定义 QTabWidget?

  • telebot.anihelper.ApiException 错误

  • Python。检查一个数字是否是 3 的幂。输出 无

  • 解析多个响应

  • 交换两个数组的元素,以便它们的新内容也反转

Sidebar

Stats

  • 问题 10021
  • Answers 30001
  • 最佳答案 8000
  • 用户 6900
  • 常问
  • 回答
  • Marko Smith

    我看不懂措辞

    • 1 个回答
  • Marko Smith

    请求的模块“del”不提供名为“default”的导出

    • 3 个回答
  • Marko Smith

    "!+tab" 在 HTML 的 vs 代码中不起作用

    • 5 个回答
  • Marko Smith

    我正在尝试解决“猜词”的问题。Python

    • 2 个回答
  • Marko Smith

    可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件?

    • 1 个回答
  • Marko Smith

    Python解析野莓

    • 1 个回答
  • Marko Smith

    问题:“警告:检查最新版本的 pip 时出错。”

    • 2 个回答
  • Marko Smith

    帮助编写一个用值填充变量的循环。解决这个问题

    • 2 个回答
  • Marko Smith

    尽管依赖数组为空,但在渲染上调用了 2 次 useEffect

    • 2 个回答
  • Marko Smith

    数据不通过 Telegram.WebApp.sendData 发送

    • 1 个回答
  • Martin Hope
    Alexandr_TT 2020年新年大赛! 2020-12-20 18:20:21 +0000 UTC
  • Martin Hope
    Alexandr_TT 圣诞树动画 2020-12-23 00:38:08 +0000 UTC
  • Martin Hope
    Air 究竟是什么标识了网站访问者? 2020-11-03 15:49:20 +0000 UTC
  • Martin Hope
    Qwertiy 号码显示 9223372036854775807 2020-07-11 18:16:49 +0000 UTC
  • Martin Hope
    user216109 如何为黑客设下陷阱,或充分击退攻击? 2020-05-10 02:22:52 +0000 UTC
  • Martin Hope
    Qwertiy 并变成3个无穷大 2020-11-06 07:15:57 +0000 UTC
  • Martin Hope
    koks_rs 什么是样板代码? 2020-10-27 15:43:19 +0000 UTC
  • Martin Hope
    Sirop4ik 向 git 提交发布的正确方法是什么? 2020-10-05 00:02:00 +0000 UTC
  • Martin Hope
    faoxis 为什么在这么多示例中函数都称为 foo? 2020-08-15 04:42:49 +0000 UTC
  • Martin Hope
    Pavel Mayorov 如何从事件或回调函数中返回值?或者至少等他们完成。 2020-08-11 16:49:28 +0000 UTC

热门标签

javascript python java php c# c++ html android jquery mysql

Explore

  • 主页
  • 问题
    • 热门问题
    • 最新问题
  • 标签
  • 帮助

Footer

RError.com

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

帮助

© 2023 RError.com All Rights Reserve   沪ICP备12040472号-5