Карстен Свен : другие произведения.

Dupfinder

"Самиздат": [Регистрация] [Найти] [Рейтинги] [Обсуждения] [Новинки] [Обзоры] [Помощь|Техвопросы]
Ссылки:


 Ваша оценка:
  • Аннотация:
    Программа для поиска в текстах близко расположенных одинаковых последовательностей букв (слов)

  

DupFinder v.0.1 (29.08.2007) - Text Duplicates Detector

  
  Программа DupFinder предназначена для облегчения труда литераторов и редакторов, она ищет в текстах близко расположенные повторы, ну, знаете - "масло масляное" и тому подобное. Если в предложении несколько раз повторяется слово "который" - тоже найдет и отметит красным. На скриншоте видно сколько повторов (на примере моего романа) можно найти лишь в паре абзацев. Не все из них, конечно, подлежат исправлению, но откровенных ляпов программа поможет избежать.
  
  Скриншот окна программы []
  
  Загружаете в программу текстовый ANSI-файл или RTF - главное, чтобы на экране была видна кириллица. Текстовый Unicode преобразуйте сначала в RTF. Если строки текста не форматированны и слишком длинны - выберите в меню Search команду "Wrap lines", строки будут свернуты. Алгоритм сворачивания пока несовершенен, буду еще улучшать. Потом отдаете команду "Search Dups" и наблюдаете за работой программы. Будьте терпеливы, на больших текстах это - небыстрый процесс. Мой роман в 20 глав программа прошерстила минут за пять. Лучше загружать текст по главам, так потом удобней править и результат получается быстрее.
  
  Следите за строкой статуса, там иногда возникают кое-какие сообщения. В основном - "Please wait..." -чтобы вы не думали, что программа зависла. Хотя может и зависнуть, например, при попытке открыть неподходящий файл.
  
  Если программа выделила красным только несколько букв в начале текста и все - значит, она взглюкнула, попробуйте снова. Не выйдет - тогда, возможно, текст слишком длинный, попытайтесь вводить частями. Но RTF в два мегабайта размером еще влазит, а больше - не проверял.
  
  Учитывайте пожалуйста, что DupFinder не является текстовым редактором, это программа для анализа текста. Не надо править тексты прямо в окне программы, это возможно, но неудобно. Когда программа выделит повторы, сохраните текст в RTF-файл и обрабатывайте его в стороннем редакторе. Заметьте, что сохраненный RTF-файл вы уже не сможете повторно загрузить в DupFinder. Есть обходной путь: Откройте файл в Wordpad, сохраните как Unicode TXT, снова загрузите этот TXT в Wordpad и сохраните уже в формате RTF - вот этот файл DupFinder уже поймет и откроет.
  
  Параметры поиска можно менять, задавая произвольную длину маски и глубину поиска. Стандартные установки - ищутся пятибуквенные повторы в ближайших ста буквах. Изменение параметров влияет на скорость и "аккуратность" поиска. Поле "Custom pattern" пока неактивно - там я планирую дать возможность искать не любые совпадения, а только специально заданные, например - только слово "что" или только "она". Тоже может быть полезно. Программа и сейчас способна найти эти слова, надо лишь установить "Pattern Lenght" равное трем, но тогда эти повторы утонут в море других.
  
  Программу я писал, в основном, для себя и не слишком работал над алгоритмом и внешним видом - ищет и ладно. Но если что-то будет слишком неудобно или непродуманно, дайте знать в комментариях, будем исправлять. Я хорошо погонял программу на RTF-файлах, но почти совсем не проверял кодировку Win1251, для меня это трудновато, так как у меня западноевропейская версия Windows и я не вижу кириллицы в этой кодировке. Должно тоже работать, но - кто знает? Если не получается, используйте RTF.
  
  Итак, тестируйте, исправляйте тексты, пишите комментарии. Welcome!
  
  Скачать: http://sven.karsten.googlepages.com/home
 Ваша оценка:

Связаться с программистом сайта.

Новые книги авторов СИ, вышедшие из печати:
Э.Бланк "Пленница чужого мира" О.Копылова "Невеста звездного принца" А.Позин "Меч Тамерлана.Крестьянский сын,дворянская дочь"

Как попасть в этoт список
Сайт - "Художники" .. || .. Доска об'явлений "Книги"