Как формат djvu (дежавю) перегнать в doc (док).
Этот пост – своеобразное продолжение к предыдущему посту из сателлитной темы.
Как-то раз на страницах этого, блин, «высокоинформативного портала» уже поднимался вопрос о контенте.
Это было довольно давно. Точнее, вопрос этот поднимался несколько раз. Например, в статье "Уникальный контент для сайта. Каким он должен быть?" рассказывалось о том, как достать «уникальный» контент для своего хрен-знает-какого-по-счету сателлита.
Это и переводы забугорных текстов, и засовывание книжек в сканер, и всякие другие затейливости. Все это уже давно известно и по сто раз обсосано. А еще известно, что многие предприимчивые граждане в поисках этого самого «уникального» контента шарят в онлайновых библиотеках.
И вот на этом моменте давайте заострим свое внимание.
Форматы электронных книжек бывают самые разные. Это и «.pdf», и пресловутый «e-book». Еще они бывают в виде так называемых «экзешников». А еще – их выкладывают (и это для нас - оптимальный вариант) – в обычном «вордовском» формате – «.doc», предварительно засунув документ в архив.
Все это здорово, конечно.
Однако наивно было бы полагать, что одни мы такие вот ушлые. Все эти «доки» с «экзешниками» уже «содраны» ушлыми ребятами вроде нас. И не по одному разу. Удачно этак содраны и, хм, «сателлитно размножены».
Нет, если хорошенько поковыряться, то понятное дело, можно найти еще нетронутый документ. Однако ковыряться придется долго, смею вас уверить! И вот тут всплывает еще один загадочный формат, в котором хранятся электронные книги.
Зовется он «формат djvu» (дежавю).
Для тех, кто не знает, что это за зверь, поясню. В этом формате, как правило, хранят сканы самых обычных книжек. Он, можно сказать, для этого и предназначен.
Так вот.
У книжки, которая хранится в «дежавю» куда больше шансов оказаться «уникальной». Потому что книженцию такого формата не так-то легко скопировать и засунуть в сателлит. Спереть-то вы ее сопрете, а вот скопировать, так же, как это делают с форматом «док» - не выйдет. Плюс ко всему, такая книженция храниться в архиве, а туда, как известно, поисковые боты еще не научились пролезать.
И вот налицо дилемма, которая встает перед незадачливым сателлитчиком. С одной стороны - контент уникальный для очередного говносайта вроде бы найден. А с другой стороны – взять его не так-то просто, поскольку возни предстоит много.
Извечный русский вопрос, который возникает в данной ситуации, звучит так: «ЧО делать?»
Я как-то раз задался таким же вопросом. И решение, которое я нашел, привожу ниже.
Итак, рецепт.
Как перегнать электронную книжку из формата djvu (дежавю) в формат doc (док)? (C последующим впендюриванием оной книжки в сателлит).
Для начала нам потребуется разжиться кое-каким софтом.
Во-первых, надо добыть вот эту штуку - IrfanView 4.1 (она весит около 1 мб).
Далее нам потребуются плагины к ней - IrfanView 4.1 Plugins (весят 5.4 мб).
И наконец, нам нужна еще одна софтина – она зовется ABBYY PDF Transformer 2.0.
Эта радость весит порядка 50.5 мб. (Ссылку на туда не даю умышленно, так как программа, хм, «крякнутая». А у меня тут все-ж таки не варезник)
В общем, нарыть ее в гугле не составит большого труда.
Весь процесс «перегона» протекает в два этапа.
Вначале преобразуем «djvu» в «pdf». А затем – «пдф» преобразуем в формат «док», который нам до зарезу необходим.
Установка двух первых софтинок не вызовет никаких сложностей, я думаю.
Итак, запускаем IrfanView и находим в главном меню «Файл» (File) кнопочку «Открыть» (Open). В выпавшем списке находим наш «djvu» файл и открываем его. Затем следует просто сохранить этот файл в формате «pdf». Для этого лезем все в тот же «Файл» и выбираем там «Сохранить как» (Save as) и из выпавшего списка выбираем тип файла - «pdf». Жмякаем кнопочку «сохранить» и идем на перекур.
Поскольку сохраняется книжка минут 5 – 10 (Все зависит от ее объема).
Затем полученный файл надо преобразовать в «док».
Для этого запускаем вышеуказанный «трансформер» выбираем в нем «открыть пдф файл», открываем созданный нами ранее документ а затем – жмем кнопочку «конвертировать». После чего – праааально… опять идем на перекур.
Поскольку «конвертация» эта занимает в среднем 7-10 минут. Приходим с перекура. Глядим на экран. Радуемся!
UPD. 10.07.09. Активные ссылки на скачивание IrfanView 4.1 и IrfanView 4.1 Plugins - были отсюда удалены в связи с сообщением о том, что на сайте, с которого они скачивались, появился вирус. Так что искать вышеуказанные проги - вам теперь придется самостоятельно.
Вот тут есть одна неплохая контора, в которой водятся деньги.А вот здесь - вы можете совершенно бесплатно создать свой сайт.
Поделись заметкой с друзьями:
Написано отлично. Спасибо. То что нужно, вдобавок весело написано.
Ссылки IrfanView 4.1 и IrfanView 4.1 Plugins приводят к попытке заразить компьютер вирусом Afgan.
Кому нравится этот вирус обязательно скачайте!!!
О как!
А раньше – ничего подобного там не наблюдалось. Щас удалю эти ссылки нафиг.
Для скачивания IrfanView можно воспользоваться одной ссылкой: и сама программа и плагины к ней и русификатор.10.07.2009 я скачал-вирусов не обнаружил.
олченх
Лады, пусть повисит твоя ссылка.
Но всплывающие окна с порнухой, которые загружаются параллельно с той страницей – если честно, надоели.
merlin
это не моя ссылка,просто я сам там скачивал.Мне тот сайт очень нравится(сайт тоже не мой),а про порно я уже и забыл,меня тоже тошнит когда показывают навязчиво и крайне раздражает,ведь ребенок то рядом носится.Но я уже с пол-года пользуюсь Mozilla Firefox,а там одна фишка есть Adblocks называется,в нее один раз занес ссылку с порно и больше его не будет.Сейчас в списке где-то ссылок 30 и этого безобразия я больше не вижу.
где скачать ABBYY PDF Transformer 2.0???
pdftransformer.com
это лицензия… кое как нашел таблетку… крякнул) на перекуре..
молодец. родина тебя не забудет.
УРА!!! у меня получилось))) Спасибо, товарищ)
я теперь снова не тупая блондинка)))
Спасибо огромное, все получилось. Очень вы помогли!
На здоровье.
Есть альтернативный вариант конвертирования, проверенный мной. Необходимые программы:
WinDjView – для просмотра djvu
FreewarePrimoPDF – для печати документа djvu в PDF
Abby FineReader 8 или выше – для распознавания PDF
1. Открываем djvu в WinDjView
2. Печатаем в PDF с помощью PrimoPDF
3. Распознаем PDF с помощью FineReader
Andrei пишет:
А с помощью FineReader 10 сразу конвертируешь с djvu в pdf!
СПАСИБО ОГРОМНОЕ!!!! очень помогло!!!
Молодцом чувак! Только в погоне за уникальностью текст получается как школьником написан, измени немного манеру писания)) А так по теме!
Открываете книгу в дежавю. На выбранную страницу наводите мышь, левую кнопку -файл – далее экспорт ту файл. Открывается окошко предлагающее сохранить файл. Вручную меняем формат на bmp либо тот который у вас, сохраняем. Затем открываем файн ридер и через него открываем, он поддерживает этот формат. все распознал. У меня файн ридер 9.
пардон – нажимать правую кнопку мыши для экспорта файла ))))
спасибо большое за информацию, долго искал… и потом нашел, что нужно
@ Дина:
Если требуется распознать несколько страниц или часть текста, то очень удобно воспользоваться програмкой «ScreenshotReader», она идет с Fine Reader начиная вроде с 8-го. Сам пользуюсь ей постоянно, очень удобно распозновать и копировать текст с любых рисунков и даже просто с дисплея. если лень набивать.
Еще хочу добавить по программе «ScreenshotReader» — это то, что она, практически, сохраняет полное форматирование распознаваемого текста и даже сложные таблицы не требуют предварительной разметки и затем коррекции и то, что качество распознавания очень высокое, а также элементарная простота и скорость работы. Так, что всем советую для распознавания текста с фотографий, в том числе с формата djvu, без загрузки их в основную программу «FineReader».
Спасибо автору!!!!Я так давно искал и не мог наити! сколько пробовал всен таки не находил! и вот наконецто я нашел! теперь надеюсь что все получится!!!СПАСИБО АВТОРУ за СТАТЬЮ!!!!
А может кто-нибудь знает, как преобразовать джву или пдф без распознования. Мне это очень нужно для преобразования математических книг. Потому что, когда прога пытается перегнать их путём распознования, то она все формулы в какую-то ерунду преобразовывает. Но в тоже время не хочется, что бы книга стала просто картинкой. А в файлах джву (не отсканированных) есть все данные: и картинки и так называемый слой OCR. Может есть какие-нибудь проги, которые перегоняют джву в другие форматы не путём их распознования, а на основе только этих данных с полным сохранением изображений, формул и тд, но без потери электронного текста?
Артём пишет:
И как ты себе это представляешь?
Все эти дежавю – это ж, по сути, картинки.
С нарисованными на них буквами. И их по-любому надо прогонять через систему оптического распознавания. Распознавать формать дежавю – задача невероятно трудоемкая. И потому даже хорошая система оптического распознавания – по-любому будет время от времени косячить.
Артём пишет:
Вряд ли.
Во всяком случае, ничего кошернее файнридера мне до сих пор не попадалось.
Хотя я искал.
кучка «распознавательных» прог, известных на данный момент.
@ Артём:
Артём пишет:
Артем, а вы при распознавании в ФайнРидере проводите редактирование выделения областей в ФайнРидере вручную, и формулы выделяйте, как картинки, тогда прога их не будет трогать, а в распознанный текст они будут внедрены, как фото без изменения.
Volodya, Спасибо. Ну вообще так и делаю. Просто подумал, что вдруг кто-нибудь знает, как это можно автоматизировать, чтобы не приходилось каждую страницу редактировать. Но похоже пока не придумали. Когда-то ещё раньше слышал, что где-то у Abby уже есть недоделанный пакет для нормального распознавания математических текстов, но они не хотят над ним работать, потому что считают нецелесообразным.
Супер!!!! То Что нужно!!! за 20 минут перекура не одна неделя работы ))) Просто супер!!!! Спас жизнь!!!
Спасибо, товарищ!!!
завтра утром презентацию на 20 листов шефу надо показать.
без твоего поста набивал бы врукопашную всю ночь.
Учусь на шеф повара а тут бац! И дали нам дипломную работу,все сделал а когда коснулся товароведения тут я пришел в ужас -печатать ОЧЕНЬ много …скачал электронную книгу …думал щас скопирую сэкономлю 4 дня а тут опять незадача копировать нельзя…в общем спасибо ОГРОМНОЕ автору! Ты мне реально спас )))