| Как сканировать (требования к результатам)
- Сканировать ВСЕ страницы, начиная с титульного листа и его обратной
стороны, заканчивая оглавлением и выходными данными
- Результат - файлы рисунков (много файлов tif или jpg) И распознанный текст
(мало файлов doc или rtf) ОДНОВРЕМЕННО!!!
- Распознанный текст - в одном или нескольких файлах формата doc, rtf или txt
- Формат рисунков - jpg или tif, желательно со сжатием, иначе не войдет на
CD. Можно использовать черно-белый формат (кодирование одного пиксела одним
битом), если на страницах только текст, нет рисунков
- Нумеровать файлы рисунков начиная с 001 или 000: 001, 002, 003 и т.д.
Нумерация 1, 2, 3,... 10, 11,... ошибочна, ибо файлы в этом случае выстроятся
в следующем порядке: 1, 10, 100, ... 11,... 2, 20, 21,... 3,
- Нумеровать последовательно страницы или файлы рисунков, т.е., допустима
последовательность 001, 002, 003 и т.д. - последовательная нумерация файлов;
допустима последовательность 001, 002, 004, 006 и т.д. - последовательная
нумерация по номеру левой страницы из пары;
допустима последовательность 001, 003, 005, 007 и т.д. - последовательная
нумерация по номеру правой страницы из пары
- Желательно сразу обрезать лишние поля, тем более - обрез и пустое место
(еще лучше - сразу не сканировать, правда, это требует более аккуратной
работы). Ни в коем случае не обрезать нумерацию страниц !!!
НЕ ОБРЕЗАТЬ БЛИЗКО К ТЕКСТУ! Текст совсем без полей очень плохо воспринимается!
Визуально рекомендую оставить белый край около 1 см
- Все файлы рисунков должны быть развернуты так, чтобы их можно было читать
или просматривать не наклоняя голову под углом 90 градусов
- CD диск должен читаться! При ошибках - перезаписать
- Нежелательно именование файлов и каталогов кириллицей! Метку тома тоже
лучше ставить без нее, например - просто дату: 20051206, т.е. 6 декабря 2005
- Не удаляйте со своего винта работу сразу. После проверки может обнаружиться,
что пропущены страницы. Тогда придется доделать и может потребоваься записать
заново.
- При записи на болванку (CD) не нужно архивировать, т.к. при достаточной
степени сжатия архивируется плохо, а при недостаточной или полном отсутствии
- не входит на болванку, но, главное, что архивированное бывает неудобно
использовать!
- Сжатие использовать надо! Хотя делать это надо осторожно. Пример диска,
который сдан мне 29.09.2005: 352 файла, всего 527097777 байт по оценке одной
из тестовых программ. Среди файлов присутствуют файлы с расширением frf,
которыми я никогда не пользуюсь. Хотя они размером меньше, чем рисунки, но
тоже место занимают. Файл 0002.tif имеет размеры 3521 x 2573 пикселей,
двухцветный (черно-белый или 2 grayscale), что обычно хорошо - если нет
хороших иллюстраций в тексте; зато 3 страницы (или кадра) в одном файле и
общий размер 2,1 Мб, что очень
плохо, тем более что размер не сжатого файла по оценке программы ACDSee равен
1,1 Мб, а степень сжатия 0,5. Увы, но данный файл занимает места в два раза
больше, чем мог бы БЕЗ СЖАТИЯ! Увы, этот файл нетипичен, т.к. многие другие
файлы имеют размер до 3 Мб и даже больше, а степень сжатия 0,4 и 0,3.
Кроме того, во всех отсканированных парах страниц оставлены большие края
слева и снизу. Они больше обычных полей книги.
Воспользуемся упомянутой программой ACDSee. Просмотр трех страниц файла
0002.tif дает то же самое изображение, визуально неотличимое от первой
страницы. Итак, внутри файла хранятся ТРИ одинаковых изображения! (?) В списке
файлов это легко видно в колонке Image Properties: 3@3521x2573x2 tiff. Часто
бывает, что в дополнительных страницах сохраняются уменьшенные изображения,
что-то вроде пиктограмм, тогда дополнительные расходы на них невелики, но не
в данном случае.
Что можно сделать? Можно воспользоваться Enhancer, в появившемя новом окне
выбрать Crop и вырезать только нужный кусок рисунка. Нумерацию страниц
оставить!
Получился новый файл с размерами 2845 x 2270 пикселей, двухцветный
(черно-белый или 2 grayscale), одна страница или кадр и общий размер 19,2 KB,
размер не сжатого файла по оценке программы ACDSee равен 788,3 KB
а степень сжатия 41,1; в колонке Image Properties: 2845x2270x2 tiff.
Использована программа ACDSee версии 3.1 и метод сжатия "CCITT Group 4".
Для установки нажать кнопку Options и выбрать метод из предложенных в
Compression.
Разумеется, можно сделать аналогичные операции и другими программами.
(To be continued)
Напоминаю, что работа такого типа может быть выбрана только по Вашему
желанию, никого не заставляю.
Напоминаю, что в отчет обязательно включать информацию о системе, на которой
выполнена работа (компутер, процессор, сканер, программа сканирующая,
программа распознающая, параметры сканирования и распознавания и т.д.),
продолжительность работы в часах, можно с делением по типам работ и т.п.
При сомнениях лучше спросить, дабы не пришлось переделывать или доделывать
|