G
enby!

Урок 20. Запис та зчитування файлів. Скановані PDF - що з ними робити

У 20 уроці курсу "Програмування для журналістів" навчимося створювати, відкривати та читати файли. А також розширимо скрипт для парсингу pdf-файлів і ознайомимося з інструментом Tesseract. Для виконання завдань знадобиться віртуальне середовище, яке ми створювали раніше. За посиланням інструкція його створення та архів pdf-файлів з земельного кадастру: https://bit.ly/4fyOYMK
Інсталятор Tesseract: https://bit.ly/3YZttxI
Скрипт tesseract_image.py в робочому каталозі: https://bit.ly/3ZfYvCK
https://bit.ly/3B6gn9I
Телеграм-боти Nikcenter для розпізнавання тексту на зображеннях та сканованих pdf-файлах: PDF to TXT: https://bit.ly/414PPR7
IMAGE to TXT: https://bit.ly/49a0SKM
01:54 Процес читання і запису файлів 05:24 Парсинг ПДФ. Зчитуємо всі файли в каталозі 08:20 OCR Tesseract: Що це і як його застосовувати

Смотрите также