Аннотация: Объектом(ами) работы является(ются): PDF-документы, изображения форматаJPEG/PNG, текстовые и табличные структуры в документах. Цель(и) работы –разработка десктопного приложения на Python для распознаваниятекста и таблиц из PDF-файлов и изображений с последующим сохранениемрезультатоввформате Word (DOCX). Методы, используемые в работе: оптическое распознавание символов (OCR) сиспользованием Tesseract, Парсинг и анализ структуры PDF с помощьюPDFMiner, PDFPlumber, PyPDF2, графический интерфейс с помощью библиотеки tkinter, сборка в исполняемый файл (exe). Результаты работы: работающее десктопное приложение с поддержкой многоязычногоOCR, выделением диапазона страниц, обработкой изображений и экспортомвDOCX. Реализован пользовательский интерфейс с прогресс-баром и ручной настройкой. Область применения результатов: оцифровка документов и архивов,работа сотсканированными учебными и деловыми материалами, помощь студентам, исследователям, архивистам, офисным сотрудникам, Подготовка текстов к редактированию и переводу.
Кулаков М. Д. Разработка приложения для извлечения текста из файлов формата PDF / М. Д. Кулаков. - Иваново, 2025. - 74 с.