Как формат djvu (дежавю) перегнать в doc (док).

Этот пост – своеобразное продолжение к предыдущему посту из сателлитной темы.
Как-то раз на страницах этого, блин, «высокоинформативного портала» уже поднимался вопрос о контенте.
Это было довольно давно. Точнее, вопрос этот поднимался несколько раз. Например, в статье "Уникальный контент для сайта. Каким он должен быть?" рассказывалось о том, как достать «уникальный» контент для своего хрен-знает-какого-по-счету сателлита.
Это и переводы забугорных текстов, и засовывание книжек в сканер, и всякие другие затейливости. Все это уже давно известно и по сто раз обсосано. А еще известно, что многие предприимчивые граждане в поисках этого самого «уникального» контента шарят в онлайновых библиотеках.
И вот на этом моменте давайте заострим свое внимание.
Форматы электронных книжек бывают самые разные. Это и «.pdf», и пресловутый «e-book». Еще они бывают в виде так называемых «экзешников». А еще – их выкладывают (и это для нас - оптимальный вариант) – в обычном «вордовском» формате – «.doc», предварительно засунув документ в архив.

Все это здорово, конечно.

Однако наивно было бы полагать, что одни мы такие вот ушлые. Все эти «доки» с «экзешниками» уже «содраны» ушлыми ребятами вроде нас. И не по одному разу. Удачно этак содраны и, хм, «сателлитно размножены».
Нет, если хорошенько поковыряться, то понятное дело, можно найти еще нетронутый документ. Однако ковыряться придется долго, смею вас уверить! И вот тут всплывает еще один загадочный формат, в котором хранятся электронные книги.
Зовется он «формат djvu» (дежавю).
Для тех, кто не знает, что это за зверь, поясню. В этом формате, как правило, хранят сканы самых обычных книжек. Он, можно сказать, для этого и предназначен.
Так вот.
У книжки, которая хранится в «дежавю» куда больше шансов оказаться «уникальной». Потому что книженцию такого формата не так-то легко скопировать и засунуть в сателлит. Спереть-то вы ее сопрете, а вот скопировать, так же, как это делают с форматом «док» - не выйдет. Плюс ко всему, такая книженция храниться в архиве, а туда, как известно, поисковые боты еще не научились пролезать.
И вот налицо дилемма, которая встает перед незадачливым сателлитчиком. С одной стороны - контент уникальный для очередного говносайта вроде бы найден. А с другой стороны – взять его не так-то просто, поскольку возни предстоит много.
Извечный русский вопрос, который возникает в данной ситуации, звучит так: «ЧО делать?»
Я как-то раз задался таким же вопросом. И решение, которое я нашел, привожу ниже.
Итак, рецепт.
Как перегнать электронную книжку из формата djvu (дежавю) в формат doc (док)? (C последующим впендюриванием оной книжки в сателлит).
Для начала нам потребуется разжиться кое-каким софтом.
Во-первых, надо добыть вот эту штуку - IrfanView 4.1 (она весит около 1 мб).

Далее нам потребуются плагины к ней - IrfanView 4.1 Plugins (весят 5.4 мб).

И наконец, нам нужна еще одна софтина – она зовется ABBYY PDF Transformer 2.0.

Эта радость весит порядка 50.5 мб. (Ссылку на туда не даю умышленно, так как программа, хм, «крякнутая». А у меня тут все-ж таки не варезник)
В общем, нарыть ее в гугле не составит большого труда.
Весь процесс «перегона» протекает в два этапа.
Вначале преобразуем «djvu» в «pdf». А затем – «пдф» преобразуем в формат «док», который нам до зарезу необходим.

Установка двух первых софтинок не вызовет никаких сложностей, я думаю.
Итак, запускаем IrfanView и находим в главном меню «Файл» (File) кнопочку «Открыть» (Open). В выпавшем списке находим наш «djvu» файл и открываем его. Затем следует просто сохранить этот файл в формате «pdf». Для этого лезем все в тот же «Файл» и выбираем там «Сохранить как» (Save as) и из выпавшего списка выбираем тип файла - «pdf». Жмякаем кнопочку «сохранить» и идем на перекур.

Поскольку сохраняется книжка минут 5 – 10 (Все зависит от ее объема).
Затем полученный файл надо преобразовать в «док».

Для этого запускаем вышеуказанный «трансформер» выбираем в нем «открыть пдф файл», открываем созданный нами ранее документ а затем – жмем кнопочку «конвертировать». После чего – праааально… опять идем на перекур.

Поскольку «конвертация» эта занимает в среднем 7-10 минут. Приходим с перекура. Глядим на экран. Радуемся!

UPD. 10.07.09. Активные ссылки на скачивание IrfanView 4.1 и IrfanView 4.1 Plugins - были отсюда удалены в связи с сообщением о том, что на сайте, с которого они скачивались, появился вирус. Так что искать вышеуказанные проги - вам теперь придется самостоятельно.

Вот тут есть одна неплохая контора, в которой водятся деньги.
А вот здесь - вы можете совершенно бесплатно создать свой сайт.
Поделись заметкой с друзьями:

Комментарии (30) на Как формат djvu (дежавю) перегнать в doc (док).

  1. Дина:

    Написано отлично. Спасибо. То что нужно, вдобавок весело написано.

  2. олченх:

    Ссылки IrfanView 4.1 и IrfanView 4.1 Plugins приводят к попытке заразить компьютер вирусом Afgan.
    Кому нравится этот вирус обязательно скачайте!!!

  3. merlin:

    О как!
    А раньше – ничего подобного там не наблюдалось. Щас удалю эти ссылки нафиг.

  4. олченх:

    Для скачивания IrfanView можно воспользоваться одной ссылкой:http://drgamer.ru/7904-irfanview-4.23-rus-plugins-skins.html.Там и сама программа и плагины к ней и русификатор.10.07.2009 я скачал-вирусов не обнаружил.

  5. merlin:

    олченх
    Лады, пусть повисит твоя ссылка.
    Но всплывающие окна с порнухой, которые загружаются параллельно с той страницей – если честно, надоели.

  6. олченх:

    merlin
    это не моя ссылка,просто я сам там скачивал.Мне тот сайт очень нравится(сайт тоже не мой),а про порно я уже и забыл,меня тоже тошнит когда показывают навязчиво и крайне раздражает,ведь ребенок то рядом носится.Но я уже с пол-года пользуюсь Mozilla Firefox,а там одна фишка есть Adblocks называется,в нее один раз занес ссылку с порно и больше его не будет.Сейчас в списке где-то ссылок 30 и этого безобразия я больше не вижу.

  7. Павел:

    где скачать ABBYY PDF Transformer 2.0???

  8. Павел:

    это лицензия… кое как нашел таблетку… крякнул) на перекуре..

  9. молодец. родина тебя не забудет.

  10. Юлианна:

    УРА!!! у меня получилось))) Спасибо, товарищ)
    я теперь снова не тупая блондинка)))

  11. Алексей:

    Спасибо огромное, все получилось. Очень вы помогли!

  12. На здоровье.

  13. Andrei:

    Есть альтернативный вариант конвертирования, проверенный мной. Необходимые программы:
    WinDjView – для просмотра djvu
    FreewarePrimoPDF – для печати документа djvu в PDF
    Abby FineReader 8 или выше – для распознавания PDF
    1. Открываем djvu в WinDjView
    2. Печатаем в PDF с помощью PrimoPDF
    3. Распознаем PDF с помощью FineReader

  14. Олег:

    Andrei пишет:

    Есть альтернативный вариант конвертирования, проверенный мной. Необходимые программы:
    WinDjView – для просмотра djvu
    FreewarePrimoPDF – для печати документа djvu в PDF
    Abby FineReader 8 или выше – для распознавания PDF
    1. Открываем djvu в WinDjView
    2. Печатаем в PDF с помощью PrimoPDF
    3. Распознаем PDF с помощью FineReader

    А с помощью FineReader 10 сразу конвертируешь с djvu в pdf!

  15. Полина:

    СПАСИБО ОГРОМНОЕ!!!! очень помогло!!!

  16. Валера маньяк:

    Молодцом чувак! Только в погоне за уникальностью текст получается как школьником написан, измени немного манеру писания)) А так по теме!

  17. Юля:

    Открываете книгу в дежавю. На выбранную страницу наводите мышь, левую кнопку -файл – далее экспорт ту файл. Открывается окошко предлагающее сохранить файл. Вручную меняем формат на bmp либо тот который у вас, сохраняем. Затем открываем файн ридер и через него открываем, он поддерживает этот формат. все распознал. У меня файн ридер 9.

  18. Юля:

    пардон – нажимать правую кнопку мыши для экспорта файла ))))

  19. Яхия:

    спасибо большое за информацию, долго искал… и потом нашел, что нужно

  20. Volodya:

    @ Дина:
    Если требуется распознать несколько страниц или часть текста, то очень удобно воспользоваться програмкой «ScreenshotReader», она идет с Fine Reader начиная вроде с 8-го. Сам пользуюсь ей постоянно, очень удобно распозновать и копировать текст с любых рисунков и даже просто с дисплея. если лень набивать.

  21. VoloduaV:

    Еще хочу добавить по программе «ScreenshotReader» — это то, что она, практически, сохраняет полное форматирование распознаваемого текста и даже сложные таблицы не требуют предварительной разметки и затем коррекции и то, что качество распознавания очень высокое, а также элементарная простота и скорость работы. Так, что всем советую для распознавания текста с фотографий, в том числе с формата djvu, без загрузки их в основную программу «FineReader».

  22. Amangeldy:

    Спасибо автору!!!!Я так давно искал и не мог наити! сколько пробовал всен таки не находил! и вот наконецто я нашел! теперь надеюсь что все получится!!!СПАСИБО АВТОРУ за СТАТЬЮ!!!!

  23. Артём:

    А может кто-нибудь знает, как преобразовать джву или пдф без распознования. Мне это очень нужно для преобразования математических книг. Потому что, когда прога пытается перегнать их путём распознования, то она все формулы в какую-то ерунду преобразовывает. Но в тоже время не хочется, что бы книга стала просто картинкой. А в файлах джву (не отсканированных) есть все данные: и картинки и так называемый слой OCR. Может есть какие-нибудь проги, которые перегоняют джву в другие форматы не путём их распознования, а на основе только этих данных с полным сохранением изображений, формул и тд, но без потери электронного текста?

  24. Артём пишет:

    преобразовать джву или пдф без распознования

    И как ты себе это представляешь?
    Все эти дежавю – это ж, по сути, картинки.
    С нарисованными на них буквами. И их по-любому надо прогонять через систему оптического распознавания. Распознавать формать дежавю – задача невероятно трудоемкая. И потому даже хорошая система оптического распознавания – по-любому будет время от времени косячить.

    Артём пишет:

    Может есть какие-нибудь проги, которые перегоняют джву в другие форматы не путём их распознования, а на основе только этих данных с полным сохранением изображений, формул и тд, но без потери электронного текста?

    Вряд ли.
    Во всяком случае, ничего кошернее файнридера мне до сих пор не попадалось.
    Хотя я искал.
    Вот кучка «распознавательных» прог, известных на данный момент.

  25. Volodya:

    @ Артём:
    Артём пишет:

    А может кто-нибудь знает, как преобразовать джву или пдф без распознования.

    Артем, а вы при распознавании в ФайнРидере проводите редактирование выделения областей в ФайнРидере вручную, и формулы выделяйте, как картинки, тогда прога их не будет трогать, а в распознанный текст они будут внедрены, как фото без изменения.

  26. Артём:

    Volodya, Спасибо. Ну вообще так и делаю. Просто подумал, что вдруг кто-нибудь знает, как это можно автоматизировать, чтобы не приходилось каждую страницу редактировать. Но похоже пока не придумали. Когда-то ещё раньше слышал, что где-то у Abby уже есть недоделанный пакет для нормального распознавания математических текстов, но они не хотят над ним работать, потому что считают нецелесообразным.

  27. Стас:

    Супер!!!! То Что нужно!!! за 20 минут перекура не одна неделя работы ))) Просто супер!!!! Спас жизнь!!!

  28. Денис:

    Спасибо, товарищ!!!
    завтра утром презентацию на 20 листов шефу надо показать.
    без твоего поста набивал бы врукопашную всю ночь.

  29. Дмитрий.:

    Учусь на шеф повара а тут бац! И дали нам дипломную работу,все сделал а когда коснулся товароведения тут я пришел в ужас -печатать ОЧЕНЬ много …скачал электронную книгу …думал щас скопирую сэкономлю 4 дня а тут опять незадача копировать нельзя…в общем спасибо ОГРОМНОЕ автору! Ты мне реально спас )))