Разработка приложения для извлечения текста из файлов формата PDF

Разработка приложения для извлечения текста из файлов формата PDF
Только для организаций
Автор: 
Кулаков М. Д.
Вид издания: 
ВКР
Год: 
2025
Издательство: 
ИГЭУ
ISSN/ISBN: 
отсутствует
ББК: 
32.97
УДК: 
004
Кафедра:
Программного обеспечения компьютерных систем
Научные руководители (ФИО, степени, звания):
Кокин В. М.
Ключевые слова:
РАСПОЗНАВАНИЕ ТЕКСТА, OCR, PDF, ТАБЛИЦЫ, DOCX, СКАНИРОВАНИЕ, ИЗВЛЕЧЕНИЕ ДАННЫХ, МНОГОЯЗЫЧНОЕ РАСПОЗНАВАНИЕ.

Аннотация: Объектом(ами) работы является(ются): PDF-документы, изображения форматаJPEG/PNG, текстовые и табличные структуры в документах. Цель(и) работы –разработка десктопного приложения на Python для распознаваниятекста и таблиц из PDF-файлов и изображений с последующим сохранениемрезультатоввформате Word (DOCX). Методы, используемые в работе: оптическое распознавание символов (OCR) сиспользованием Tesseract, Парсинг и анализ структуры PDF с помощьюPDFMiner, PDFPlumber, PyPDF2, графический интерфейс с помощью библиотеки tkinter, сборка в исполняемый файл (exe). Результаты работы: работающее десктопное приложение с поддержкой многоязычногоOCR, выделением диапазона страниц, обработкой изображений и экспортомвDOCX. Реализован пользовательский интерфейс с прогресс-баром и ручной настройкой. Область применения результатов: оцифровка документов и архивов,работа сотсканированными учебными и деловыми материалами, помощь студентам, исследователям, архивистам, офисным сотрудникам, Подготовка текстов к редактированию и переводу.

Кулаков М. Д. Разработка приложения для извлечения текста из файлов формата PDF / М. Д. Кулаков. - Иваново, 2025. - 74 с.