RError.com

RError.com Logo RError.com Logo

RError.com Navigation

  • 主页

Mobile menu

Close
  • 主页
  • 系统&网络
    • 热门问题
    • 最新问题
    • 标签
  • Ubuntu
    • 热门问题
    • 最新问题
    • 标签
  • 帮助
主页 / 问题 / 863175
Accepted
XxX
XxX
Asked:2020-08-02 01:08:51 +0000 UTC2020-08-02 01:08:51 +0000 UTC 2020-08-02 01:08:51 +0000 UTC

PyQt - QWebEnginePage

  • 772

有一个解析器:

class AppWindow(QtWidgets.QMainWindow):
    def __init__(self):
        QtWidgets.QMainWindow.__init__(self)
        #...
    def start(self):
        self.thread1 = parser()
        t = threading.Thread(target=self.thread1.run)
        t.daemon = True
        t.start()
    #...

class parser(QtCore.QThread):
    def __init__(self):
        super(parser, self).__init__()
        QtCore.QThread.__init__(self)
        #...
    def run(self):
        #...
        data = [...]
        queue = mp.Queue()
        for i in data:
            queue.put(i)
        processes = [mp.Process(target = parse_data, args=(queue)) for i in range(10)]
        for process in processes:
            process.daemon = True
            process.start()
        #...

def parse_data(data):
    for elem in data:
        def parse_elem(elem):
            #...
            html = Client(elem['url'])
            #...
        p = ThreadPool(processes = 1)
        try:
            p_result = p.apply_async(parse_elem, (elem))
            res = p_result.get(timeout=60) # поток создаётся только для того, чтобы установить таймаут на выполнение
            p.terminate()
            p.close()
        except:
            #...


class Client(QWebEnginePage): # source: https://stackoverflow.com/questions/8049520/web-scraping-javascript-page-with-python#answer-51341435
    def __init__(self, url):
        global app
        print(url)
        self.app = QApplication(sys.argv)
        QWebEnginePage.__init__(self)
        self.html = ""
        self.loadFinished.connect(self.on_load_finished)
        self.load(QUrl(url))
        self.app.exec_()

    def on_load_finished(self):
        self.html = self.toHtml(self.Callable)

    def Callable(self, data):
        self.html = data
        self.app.quit()

def main():
    mp.freeze_support()
    app = QtWidgets.QApplication(sys.argv)
    appwindow = AppWindow()
    appwindow.show()
    sys.exit(app.exec_())


if __name__ == "__main__": 
    main()

但是调用Client失败,返回错误:WARNING: QApplication was not created in the main() thread.. 还没有完全弄清楚它是如何工作的。它可以Client工作吗?

python
  • 1 1 个回答
  • 10 Views

1 个回答

  • Voted
  1. Best Answer
    gil9red
    2020-08-02T02:48:11Z2020-08-02T02:48:11Z

    这就是我得到的。将 5 个文件保存到磁盘:

    from PyQt5.QtWidgets import QApplication
    from PyQt5.QtCore import QUrl
    from PyQt5.QtWebEngineWidgets import QWebEnginePage
    
    
    class Client(QWebEnginePage):
        def __init__(self, urls):
            self.app = QApplication([])
    
            super().__init__()
    
            self.response_list = []
            self.loadFinished.connect(self._on_load_finished)
    
            for url in urls:
                self.load(QUrl(url))
                self.app.exec_()
    
        def _on_load_finished(self):
            self.toHtml(self.callable)
    
        def callable(self, html_str):
            self.response_list.append(html_str)
            self.app.quit()
    
    
    def go(urls):
        client = Client(urls)
        return client.response_list
    
    
    if __name__ == '__main__':
        urls = [
            [
                'http://doc.qt.io/Qt-5/qwebenginepage.html',
                'https://yandex.ru/',
            ],
            [
                'http://doc.qt.io/Qt-5/qwebenginepage.html',
                'https://www.google.ru/',
            ],
            [
                'https://www.google.ru/',
            ]
        ]
    
        from multiprocessing import Pool
        with Pool() as p:
            results = p.map(go, urls)
            print(len(results))
    
        number = 1
    
        for result in results:
            print(len(result))
    
            for html in result:
                with open('result_{}.html'.format(number), 'w', encoding='utf-8') as f:
                    f.write(html)
    
                number += 1
    

    PS起初我在一个进程中做了一个同步版本,我想建议它,但在澄清我需要在不同进程中加载​​几个页面后,我开始挖掘QApplication在另一个进程中启动。玩过之后,我用一个子进程做了一个例子,然后用了几个. 它奏效了,而且很棒。好吧,拿同步版本并在多个进程中运行它不再困难。

    • 1

相关问题

Sidebar

Stats

  • 问题 10021
  • Answers 30001
  • 最佳答案 8000
  • 用户 6900
  • 常问
  • 回答
  • Marko Smith

    是否可以在 C++ 中继承类 <---> 结构?

    • 2 个回答
  • Marko Smith

    这种神经网络架构适合文本分类吗?

    • 1 个回答
  • Marko Smith

    为什么分配的工作方式不同?

    • 3 个回答
  • Marko Smith

    控制台中的光标坐标

    • 1 个回答
  • Marko Smith

    如何在 C++ 中删除类的实例?

    • 4 个回答
  • Marko Smith

    点是否属于线段的问题

    • 2 个回答
  • Marko Smith

    json结构错误

    • 1 个回答
  • Marko Smith

    ServiceWorker 中的“获取”事件

    • 1 个回答
  • Marko Smith

    c ++控制台应用程序exe文件[重复]

    • 1 个回答
  • Marko Smith

    按多列从sql表中选择

    • 1 个回答
  • Martin Hope
    Alexandr_TT 圣诞树动画 2020-12-23 00:38:08 +0000 UTC
  • Martin Hope
    Suvitruf - Andrei Apanasik 什么是空? 2020-08-21 01:48:09 +0000 UTC
  • Martin Hope
    Air 究竟是什么标识了网站访问者? 2020-11-03 15:49:20 +0000 UTC
  • Martin Hope
    Qwertiy 号码显示 9223372036854775807 2020-07-11 18:16:49 +0000 UTC
  • Martin Hope
    user216109 如何为黑客设下陷阱,或充分击退攻击? 2020-05-10 02:22:52 +0000 UTC
  • Martin Hope
    Qwertiy 并变成3个无穷大 2020-11-06 07:15:57 +0000 UTC
  • Martin Hope
    koks_rs 什么是样板代码? 2020-10-27 15:43:19 +0000 UTC
  • Martin Hope
    Sirop4ik 向 git 提交发布的正确方法是什么? 2020-10-05 00:02:00 +0000 UTC
  • Martin Hope
    faoxis 为什么在这么多示例中函数都称为 foo? 2020-08-15 04:42:49 +0000 UTC
  • Martin Hope
    Pavel Mayorov 如何从事件或回调函数中返回值?或者至少等他们完成。 2020-08-11 16:49:28 +0000 UTC

热门标签

javascript python java php c# c++ html android jquery mysql

Explore

  • 主页
  • 问题
    • 热门问题
    • 最新问题
  • 标签
  • 帮助

Footer

RError.com

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

帮助

© 2023 RError.com All Rights Reserve   沪ICP备12040472号-5