Вопросы, помеченные тегом «pypdf2»

PyPDF2 - это библиотека PDF на чистом Python, способная разделять, объединять, обрезать и преобразовывать страницы файлов PDF. Он также может добавлять пользовательские данные, параметры просмотра и пароли в файлы PDF. Он может извлекать текст и метаданные из PDF-файлов, а также объединять файлы целиком.
avatar
Huma Qureshi
9 августа 2021 в 07:16
92
1

как преобразовать формат моего файла .pdf в .txt в Django

Я работаю над веб-приложением Django, где хочу преобразовать файлы .pdf и .docx в .txt. Я написал функцию save(), в которой я хочу получить файл, а затем преобразовать его в формат .txt. Но это дает мне ошибку: FileNotFoundError в /post/new/ [Errno 2] Нет такого...
avatar
user2950920
4 августа 2021 в 18:03
205
1

Python PDF, как добавить URL-адрес закладки вместо номера страницы

Я использую python 3.6 и PyPDF2 для создания закладок в pdf. Вместо добавления закладки на страницу в pdf. Я хочу добавить URL-адрес (например, https://coderhelper.com) в качестве закладки. Что-то вроде этого? output.addBookmark('TEST', 'https://coderhelper.com',...
avatar
Simon Nasser
3 августа 2021 в 17:08
40
1

Слияние Python PyPDF2 не позволяет работать os.remove

Я не могу понять, как закрыть файлы, которые я пытаюсь удалить в python. Код: merger = PdfFileMerger() for auth in newAuths: merger.append(auth) merger.write(r"C:\stack\overflow.pdf") for i in newAuths: os.remove(i) Все работает до двух последних строк кода....
avatar
exd-as
3 августа 2021 в 13:02
142
2

Объедините PDF-файлы с определенными именами из двух разных папок, используя PyPDF2

У меня есть две папки с разными наборами PDF-файлов. Я знаю, что PDF-файл с определенным именем из первой папки нужно объединить с PDF-файлом с определенным именем из второй папки. Например, "PID-01.pdf" из первой папки нужно соединить с "FNN-PID-01.pdf" из второй...
avatar
MunSka 2002
31 июля 2021 в 13:45
324
0

Python импортирует график Excel в файл PDF

Недавно я пытался преобразовать сценарий Excel в PDF. До сих пор мне удалось успешно объединить 2 отдельных файла PDF в один, и это здорово. Однако у меня было много проблем с попыткой импортировать графики Excel из второго файла Excel. Ниже приведены мои коды: import...
avatar
Rishi N
31 июля 2021 в 09:05
47
1

Как правильно извлекать тексты с помощью pypdf2

Я пытаюсь извлечь текст из файла pdf. Я использую следующий код для этой задачи: def get_pdf_text(file): pdffile = PyPDF2.PdfFileReader(file) numpages = pdffile.getNumPages() for pages in range(0,numpages): currpage = pdffile.getPage(pages) ...
avatar
RyanH
31 июля 2021 в 01:10
55
0

Невозможно открыть файлы PyPDF2 в Adobe

При создании PDF-файла с использованием приведенной ниже методики Adobe часто не может открыть PDF-файл с ошибкой: Error 14: Expected a dict object. Есть ли обходной путь для этого, чтобы файлы могли быть открыты Adobe? Они нормально открываются в Chrome и других...
avatar
Clint Kline
28 июля 2021 в 06:17
28
0

Почему мой объект «читатель» Python PyPDF2 непреднамеренно преобразуется в строку?

давний читатель, впервые постер. Мой вопрос касается проблемы, с которой я столкнулся со сценарием, который я пишу для личного использования, чтобы разработать свой собственный инструментарий Python и просто в качестве общей практики. Он использует модули PyPDF2,...
avatar
ZMV
27 июля 2021 в 07:16
67
0

Как преобразовать документ MIME 64 в строку?

Я извлекаю данные из API, который возвращает объект JSON со следующей структурой: { "status":"OK", "text":{ "doc_id":647508, "bill_id":502329, "date":"2012-05-23", "type":"Enrolled", "mime":"application/rtf", "doc":"MIME 64 Encoded...
avatar
Michael Pandola
26 июля 2021 в 17:41
25
0

Есть ли способ контролировать, где закладка PDF добавляется с помощью python?

используя PdfFileMerger().addBookmark Я могу добавить закладку в файл PDF, но когда эта закладка добавлена, она появляется внизу панели закладок (т.е. под любой закладкой, существовавшей до добавления этой новой), когда я открываю PDF. Есть ли способ добавить закладку...
avatar
UIB
26 июля 2021 в 11:53
38
0

Как извлечь любое изображение с помощью извлечения python PDF?

Я создал программу извлечения PDF с использованием TKinter, PYPDF2 и PIL, следуя руководству. Это код извлечения изображения def extract_images(page): images = [] if '/XObject' in page['/Resources']: xObject =...
avatar
ZaraThoustra
22 июля 2021 в 17:21
195
2

Flask - PyPDF2 - Экспорт в файл pdf памяти

Я пытаюсь экспортировать pdf-файл из приложения flask, но по какой-то причине не могу записать его правильно. Это работает, когда я экспортирую в свою локальную папку, но я получаю пустой PDF-файл при экспорте через Flask. Есть идеи? pdf = PdfFileWriter() p1 =...
avatar
pcates
21 июля 2021 в 11:10
126
0

Произошло исключение: индекс списка IndexError вне диапазона, строка 5, в модуле file_path — sys.argv[1] Python & PyPDF2

Я продолжаю получать ошибки при запуске этого кода. Я писал несколько фрагментов кода в течение нескольких часов, пытаясь заставить этот PyPDF2 работать для анализа pdf. Для этого я получаю: Произошло исключение, индекс списка ошибок индекса выходит за пределы...
avatar
Leon
21 июля 2021 в 08:49
23
0

Проблемы с функцией перетаскивания в сочетании с PyPDF2

Я планировал создать инструмент расчета для своей типографии. Инструмент должен рассчитать, сколько копий pdf (желательно перетащенных на скрипт) можно разместить на листе заданного размера. Сторона вычислений уже закончена и работает без проблем, теперь мне нужно...
avatar
x89
21 июля 2021 в 06:05
57
1

пропускать защищенные паролем файлы с помощью pypdf (поддерживаются только коды алгоритмов 1 и 2)

Я запускаю функцию checkPdf для нескольких разных ссылок PDF в списке. def getResponse(url): try: response = requests.get(url) except: response = None return response def getNumberOfPages(response): with BytesIO(response.content) as...
avatar
Igor G
20 июля 2021 в 20:37
46
0

Как создать столбцы из строк в кадре данных pandas (Python 3.7)?

Я хотел бы реструктурировать фрейм данных pandas с длинного на широкий в соответствии с данными в строках фрейма данных. У меня есть кадр данных pandas следующего вида: item_type item_content meet_mins_content NaN NaN СОВЕТ ПО ОБРАЗОВАНИЮ NaN NaN ОБЪЕДИНЕННЫЙ...
avatar
Eve Pitt
18 июля 2021 в 16:22
45
0

Чтение сценария фильма в формате PDF и его отображение в правильном формате

Я пытаюсь прочитать из PDF-файла сценарий фильма и отобразить его в терминале с правильными разрывами строк, однако чтение построчно не работает... import PyPDF2 from PyPDF2 import PdfFileReader import os.path PDFInput = "Pulp-Fiction.pdf" #checking if good if "pdf"...
avatar
Carlos Paes
16 июля 2021 в 19:17
61
1

читать несколько файлов и сохранять в xls в столбцах (pypdf2 и xlsxwriterr

Мне нужно взять каталог с несколькими PDF-файлами и структурировать его в xls но я не понял как сделать список в директории сохраняя данные в xls enter import PyPDF2 import xlsxwriter #---------------------Input file-----------------------------------# pdf_file =...
avatar
ram gengadar
16 июля 2021 в 12:04
250
1

Я не могу найти способ извлечь подчеркнутый текст, нельзя ли это сделать с помощью pdfminer.six?

Я пытаюсь извлечь текст в pdf, который подчеркнут с помощью Python, но не могу найти правильное решение, кто-нибудь может помочь в этом, пожалуйста
avatar
Marrluxia
16 июля 2021 в 10:31
900
2

PyPDF2: извлечь оглавление/схемы и их номер страницы

Я пытаюсь извлечь оглавление/схемы из PDF-файлов и их номера страниц с помощью Python (PyPDF2), я знаю о reader.outlines, но он не возвращает правильный номер страницы. Пример в формате PDF:...