Разработка приложения для извлечения текста из файлов формата PDF

Автор:

Кулаков М. Д.

Вид издания:

ВКР

Год:

2025

Издательство:

ИГЭУ

ISSN/ISBN:

отсутствует

ББК:

32.97

УДК:

004

Специализации:

Информационные технологии

Относится к ВУЗу(ам):

Ивановский государственный энергетический университет

Каталоги:

Выпускные квалификационные работы (ВКР) ИГЭУ

Кафедра:

Программного обеспечения компьютерных систем

Научные руководители (ФИО, степени, звания):

Кокин В. М.

Ключевые слова:

РАСПОЗНАВАНИЕ ТЕКСТА, OCR, PDF, ТАБЛИЦЫ, DOCX, СКАНИРОВАНИЕ, ИЗВЛЕЧЕНИЕ ДАННЫХ, МНОГОЯЗЫЧНОЕ РАСПОЗНАВАНИЕ.

Аннотация: Объектом(ами) работы является(ются): PDF-документы, изображения форматаJPEG/PNG, текстовые и табличные структуры в документах. Цель(и) работы –разработка десктопного приложения на Python для распознаваниятекста и таблиц из PDF-файлов и изображений с последующим сохранениемрезультатоввформате Word (DOCX). Методы, используемые в работе: оптическое распознавание символов (OCR) сиспользованием Tesseract, Парсинг и анализ структуры PDF с помощьюPDFMiner, PDFPlumber, PyPDF2, графический интерфейс с помощью библиотеки tkinter, сборка в исполняемый файл (exe). Результаты работы: работающее десктопное приложение с поддержкой многоязычногоOCR, выделением диапазона страниц, обработкой изображений и экспортомвDOCX. Реализован пользовательский интерфейс с прогресс-баром и ручной настройкой. Область применения результатов: оцифровка документов и архивов,работа сотсканированными учебными и деловыми материалами, помощь студентам, исследователям, архивистам, офисным сотрудникам, Подготовка текстов к редактированию и переводу.

Кулаков М. Д. Разработка приложения для извлечения текста из файлов формата PDF / М. Д. Кулаков. - Иваново, 2025. - 74 с.

Разработка приложения для извлечения текста из файлов формата PDF

Каталог КГЭУ

Каталог ИГЭУ

Связаться с нами