关于【pdf】的问题- 第1页

Max

Asked: 2022-06-19 15:09:02 +0000 UTC

将A4分成A6季度时不要保留空白页[关闭]

0

关闭。这个问题需要具体说明。目前不接受回复。

想改进这个问题？ 重新构建问题，使其只关注一个问题。

5 个月前关闭。

此邮件已在5 个月前更正并提交审核，但重新打开邮件失败：

原关闭原因未更正

改进问题

我学会了如何使用 PyPDF2 和 PyMuPDF(fitz) 进行拆分。但是拆分的时候经常会出现只有四分之一有文本的情况，但是它把4个四分之一都写到了新文件中，有文本也有空，一个有文本，其余都是空的，我需要一些东西让那个空的没有保存，我想以某种方式进行检查，但没有成功，缺乏知识。我试图读取新录制的文件并删除空白页，但是每一页都有文字，甚至在空白页上，我在acrobat reader中打开文件，但是页面是空的，我不明白如何。

这是我的代码，以防万一我怎么做：https ://paste.aiogram.dev/opiquhehus.py

这是我第一次在这里发帖，我不知道如何附加文件。pdf 文件，例如在电报频道：https ://t.me/+Tq7WpP1ImcjQXSZF 。

import copy
import logging
import random
from pathlib import Path

import PyPDF2
import fitz
from PyPDF2.filters import decodeStreamData, ASCII85Decode
from PyPDF2.generic import EncodedStreamObject, DecodedStreamObject


def from_a4_to_a6_not_sync(input_file, output_file):
    input_file = str(input_file.absolute())

    pdf_reader = PyPDF2.PdfFileReader(input_file)

    # print(f'{pdf_reader.getNumPages()=}')
    # print(f'{pdf_reader.documentInfo=}')

    first_page = pdf_reader.getPage(0)

    left_up_side = copy.deepcopy(first_page)
    right_up_side = copy.deepcopy(first_page)
    left_down_side = copy.deepcopy(first_page)
    right_down_side = copy.deepcopy(first_page)

    # print(f'{left_up_side.extractText()=}')
    # print(f'{right_up_side.extractText()=}')
    # print(f'\nДО ОБРЕЗКИ:\n{type(left_up_side)=}\n{left_up_side=}\n')
    # print(f'\nДО ОБРЕЗКИ:\n{type(right_up_side)=}\n{right_up_side=}\n')

    # second_page = pdf_reader.getPage(0)
    # print(f'{type(second_page)=}\n{second_page.extractText()=}')
    # third_page = pdf_reader.getPage(0)
    # fourth_page = pdf_reader.getPage(0)

    first_coord = first_page.mediaBox.upperRight[0]
    second_coord = first_page.mediaBox.upperRight[1]
    # print(f'{first_coord=}')
    # print(f'{second_coord=}')

    # cords_upperLeft = first_page.mediaBox.upperLeft
    # cords_lowerLeft = first_page.mediaBox.lowerLeft
    # cords_upperRight = first_page.mediaBox.upperRight
    # cords_lowerRight = first_page.mediaBox.lowerRight
    # print(f'{cords_upperLeft=}')
    # print(f'{cords_lowerLeft=}')
    # print(f'{cords_upperRight=}')
    # print(f'{cords_lowerRight=}')

    # first_page.mediaBox.lowerRight = (first_coord / 2, second_coord / 2)  # ВЕРХНЯЯ ЛЕВАЯ ЧЕТВЕРТИНКА
    # second_page.mediaBox.lowerLeft = (first_coord / 2, second_coord / 2)  #   ВЕРХНЯЯ ПРАВАЯ ЧЕТВЕРТИНКА
    # third_page.mediaBox.upperRight = (first_coord / 2, second_coord / 2)  #   НИЖНЯЯ ЛЕВАЯ ЧЕТВЕРТИНКА
    # fourth_page.mediaBox.upperLeft = (first_coord / 2, second_coord / 2)  # НИЖНЯЯ ПРАВАЯ ЧЕТВЕРТИНКА

    left_up_side.mediaBox.lowerRight = (first_coord / 2, second_coord / 2)  # ВЕРХНЯЯ ЛЕВАЯ ЧЕТВЕРТИНКА
    right_up_side.mediaBox.lowerLeft = (first_coord / 2, second_coord / 2)  # ВЕРХНЯЯ ПРАВАЯ ЧЕТВЕРТИНКА
    left_down_side.mediaBox.upperRight = (first_coord / 2, second_coord / 2)  # НИЖНЯЯ ЛЕВАЯ ЧЕТВЕРТИНКА
    right_down_side.mediaBox.upperLeft = (first_coord / 2, second_coord / 2)  # НИЖНЯЯ ПРАВАЯ ЧЕТВЕРТИНКА

    # print(f'{first_page=}\n\n')
    # one_page = left_up_side.getContents()
    # second_page = right_up_side.getContents()
    # decode_one = DecodedStreamObject()
    # print(f'{decode_one.getData()}')
    # print(f'{decodeStreamData(second_page)}')

    # print(f'ПОСЛЕ ОБРЕЗКИ:\n{type(left_up_side)=}\n{left_up_side=}\n')
    # print(f'{left_up_side.extractText().encode("utf8")=} {type(left_up_side.extractText())=}')
    # print(f'{right_up_side.extractText().encode("utf8")=} {type(right_up_side.extractText())=}')
    # print(f'{left_up_side.getContents()=} {type(left_up_side.getContents())=}')
    # print(f'{right_up_side.getContents()=} {type(right_up_side.getContents())=}')
    # print(f'\nПОСЛЕ ОБРЕЗКИ:\n{type(left_up_side)=}\n{left_up_side=}\n')
    # print(f'\nПОСЛЕ ОБРЕЗКИ:\n{type(right_up_side)=}\n{right_up_side=}\n')

    pdf_writer = PyPDF2.PdfFileWriter()
    # pdf_writer.addPage(first_page)
    pdf_writer.addPage(left_up_side)
    pdf_writer.addPage(right_up_side)

    with open(output_file, 'wb') as file:
        pdf_writer.write(file)
        file.close()


def fitz_four_piaces(input_file, output_file):
    input_file = str(input_file.absolute())

    src = fitz.open(input_file)
    doc = fitz.open()  # empty output PDF
    page = 0

    for spage in src:  # for each page in input
        r = spage.rect  # input page rectangle
        d = fitz.Rect(spage.cropbox_position,  # CropBox displacement if not
                      spage.cropbox_position)  # starting at (0, 0)

        # --------------------------------------------------------------------------
        # example: cut input page into 2 x 2 parts
        # --------------------------------------------------------------------------
        r1 = r / 2  # top left rect
        r2 = r1 + (r1.width, 0, r1.width, 0)  # top right rect
        r3 = r1 + (0, r1.height, 0, r1.height)  # bottom left rect
        r4 = fitz.Rect(r1.br, r.br)  # bottom right rect
        rect_list = [r1, r2, r3, r4]  # put them in a list

        for rx in rect_list:  # run thru rect list
            count = 0 # почему-то не считает
            rx += d  # add the CropBox displacement
            # print(f'{rx=}')
            page = doc.new_page(-1,  # new output page with rx dimensions
                                width=rx.width,
                                height=rx.height)
            page.show_pdf_page(
                page.rect,  # fill all new page with the image
                src,  # input document
                spage.number,  # input page number
                clip=rx,  # which part to use of input page
            )
            # print(f'{spage.number=}')
            # text_in_page = page.get_text("text")#.encode("utf8")
            # print(f'{text_in_page=}')
            # print(f'{count=} {doc.get_page_text(doc.page_count - 1)=}')
            # print(f'in cicle {doc.page_count - 1=}')
            count += 1

    # that's it, save output file
    # print(f'{doc.metadata=}')
    # print(f'{doc.page_count=}')
    doc.save(output_file,  #
             garbage=3,  # eliminate duplicate objects
             deflate=True,  # compress stuff where possible
             )
    # input_file2 = str(output_file.absolute())
    # src2 = fitz.open(input_file2)
    # print(f'{src2.page_count=}')
    # for page in src2:
    #     print(f'{page.get_text("words")=}')


def fitz_four_piaces_read(input_file):
    input_file = str(input_file.absolute())
    src = fitz.open(input_file)
    print(f'{src.page_count=}')
    for page in src:
        print(f'{page.get_text("text")=}')


destination = Path().joinpath("MAKETS")
destination.mkdir(parents=True, exist_ok=True)
destination_input = destination.joinpath(
    f'up_lef.pdf')  # up_lef_up_rig_low_lef_low_rig

destination_output = destination.joinpath(
    f'output_a6_{random.randint(1, 100)}_{random.randint(1, 200)}.pdf')  # f'output_a6_{random.randint(1, 100)}_{random.randint(1, 200)}.pdf'

# from_a4_to_a6_not_sync(destination_input, destination_output)

fitz_four_piaces(destination_input, destination_output)
fitz_four_piaces_read(destination_output)

Andrey

Asked: 2022-06-12 18:56:03 +0000 UTC

油漆和pdf中的图像大小

0

我无法弄清楚情况。我有一张 png 格式的图片，Paint 说它是 500x500 像素，大约 13 厘米。为什么，当我将它添加到现有或新的 pdf 文件时，它的大小会变成大约 4 厘米？

Skywave

Asked: 2022-05-14 18:00:31 +0000 UTC

获取 CryptoPro PDF 文件的电子签名数据

0

上传到网站的文件

其中一些是数字签名的

有一个确定此签名数据（序列号、作者、日期）的工作版本：

https://stackoverflow.com/questions/46430367/how-to-retrieve-digital-signature-information-from-pdf-with-php

但如果该文件由 CryptoPro 签名，则会发生未知算法异常。

实际上，脚本从文件中提取出某个签名并以某种方式对其进行解析

$seq = Sequence::fromDER($binaryData);
$signed_data = $seq->getTagged(0)->asExplicit()->asSequence();
$ecac = $signed_data->getTagged(0)->asImplicit(Element::TYPE_SET)->asSet();
$ecoc = $ecac->at($ecac->count() - 1);
$cert = Certificate::fromASN1($ecoc->asSequence());
$tbsCert = $cert->tbsCertificate();

签名看起来像这样

...
312c 302a 0603 5504 030c 23d0 9cd0 b8d0
bdd0 bad0 bed0 bcd1 81d0 b2d1 8fd0 b7d1
8c20 d0a0 d0be d181 d181 d0b8 d0b8 301e
170d 3138 3037 3036 3132 3138 3036 5a17
0d33 3630 3730 3131 3231 3830 365a 3082
0124 311e 301c 0609 2a86 4886 f70d 0109
0116 0f64 6974 406d 696e 7376 7961 7a2e
7275 310b 3009 0603 5504 0613 0252 5531
1830 1606 0355 0408 0c0f 3737 20d0 9cd0
bed1 81d0 bad0 b2d0 b031 1930 1706 0355
0407 0c10 d0b3 2e20 d09c d0be d181 d0ba
d0b2 d0b0 312e 302c 0603 5504 090c 25d1
...

这是发生异常的地方。

我在 Debian 上安装了 CryptoPro，并试图找到一个实用程序来解析这个签名。

也许有人遇到过这个？如何提取签名数据？

Ainar-G

Asked: 2020-01-25 02:20:37 +0000 UTC

如何将图像或其他 PDF 文件插入 TeX/XeTeX？

0

如何在我的文档中插入另一个PDF文档或图像？由TeX / XeTeX使用，无需任何第三方模块。不是乳胶。

Maryana Anelova

Asked: 2020-05-07 05:51:02 +0000 UTC

PDF，作为网页发行

0

有一个问题，找不到答案。当您将 PDF 文件插入网页时，搜索引擎会编制索引，然后返回 PDF 和页面。您如何将它们“合并”在一起，以便用户访问站点页面，而不仅仅是 PDF 文档？谢谢你。

将A4分成A6季度时不要保留空白页[关闭]

油漆和pdf中的图像大小

获取 CryptoPro PDF 文件的电子签名数据

如何将图像或其他 PDF 文件插入 TeX/XeTeX？

PDF，作为网页发行

我看不懂措辞

请求的模块“del”不提供名为“default”的导出

"!+tab" 在 HTML 的 vs 代码中不起作用

我正在尝试解决“猜词”的问题。Python

可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件？

Python解析野莓

问题：“警告：检查最新版本的 pip 时出错。”

帮助编写一个用值填充变量的循环。解决这个问题

尽管依赖数组为空，但在渲染上调用了 2 次 useEffect

数据不通过 Telegram.WebApp.sendData 发送

问题[pdf]