Зачем и как распознавать книги?

Дебютант

Многие до сих пор еще не знают, зачем книги распознавать (оцифровывать). Хотя, надеюсь, вопросов, зачем их сканировать, уже нет. Так как преимущество электронных книг над бумажными очевидно по многим показателям. Остановлюсь именно на разнице распознанного и нераспознанного текста, лишь упомянув программы для такого «метаморфоза».

Традиционно считается лучшим способ распознавания текста с помощью программы ABBYY FineReader. Хотя такая возможность имеется и в Acrobat Pro. Увы, обе программы платные, а бесплатные аналоги типа CuneiForm, Scan kromsator и других пока оставляют желать лучшего. Но хотелось бы верить, что уже есть или скоро появится достойный бесплатный аналог FineReader.

Чем же все-таки является распознанный и нераспознанный текст? Мне часто приходилось сталкиваться с людьми, которые далеки от понимания разницы. То ли в компьютере они используют только кнопку «ВКЛВЫКЛ», то ли книги читают исключительно глазами, ничего с ними больше не делая. А что с ними еще можно делать — возникнет резонный вопрос. Вот его и разберу ниже.

Одна из загвоздок в том, что распознанный и нераспознанный текст при взгляде на экран внешне практически ничем не отличается. И в том, и в том видны буквы, и тот, и другой иногда даже можно разными способами скопировать. Да и некоторые форматы (файлы) могут содержать одновременно как текст, так и картинку текста. Но все же разница между ними существенна.

Нераспознанный текст — это просто картинка. Буквы в которой зафиксированы, как на обычной фотографии. Что-либо дописать, а тем более, изменить, в таком тексте (без дополнительной обработки) крайне сложно. Единственным его преимуществом является то, что он безошибочно отражает все, что было сфотографировано или сканировано. Если это хорошее качество, то видны все галочки, точечки, отступы, рисунки, формулы и многое другое. Поэтому сканированный текст так важен, если в сканированной книге много разных сложных элементов.

В принципе, на этом преимущества сканированных картинок перед тем же, но распознанным текстом, заканчиваются. Дальше идут одни недостатки. Это и больший размер документа (чем распознанный), и неудобство работы с ним, и многое другое. Но опишу те же недостатки в виде преимуществ распознанного текста перед нераспознанным.

Итак, основные преимущества распознанного (так называемого OCR) текста:

1) малый размер;

2) более простая возможность редактирования;

3) удобное иногда автоматическое добавления закладок;

4) поиск по тексту (который не возможен, если текст является картинкой);

5) одно из самых главных преимуществ, которым многие пока не пользуются, возможность прослушать текст с помощью синтезаторов речи, я так переслушал массу книг.

Конечно, на этом преимущества распознанных текстов не кончаются, но это для меня 5 основных.

Таким образом, чтобы проработать книгу, мне не раз приходилось ее либо сканировать или фотографировать, либо уже сканированные скачанные из Интернета книги переводить в понятные компьютеру буквы, а не фотографии букв, которые лишь видны на экране. Хотя в Интернете все больше появляется хорошо проработанных книг, в которых есть сам текст, а не только его фотография, или изначально цифровых.

Тем не менее достаточно много людей не умеют или не хотят пользоваться данными возможностями, несмотря на все их преимущества. Но это уже другая социальная проблема…

Теги: электронные книги, возможности, книги, текст, чтение, техника