Автор: Евгений Яворских
Опубликовано в журнале "Домашний компьютер" №8 от 21 июля 2005 года.
Тихая революция
Российская линейка продуктов SearchInform незаменима в любом секторе, будь то корпоративная сеть предприятия или простой домашний компьютер. Десктопная версия (2,9 Мбайта) предлагается в двух модификациях: Standard (1500 руб.) и Professional (3000 руб.). Функциональные отличия обычной версии от профессиональной: нет возможности слияния и дефрагментации созданных индексов, ограничения поиска в источниках данных и отсутствие рубрикатора документов. Для особо скаредных граждан предлагается бесплатная версия, умеющая создавать только один индекс.
Фирменная технология7 позволяет работать с различными источниками информации, которая может содержаться не только в файловых форматах (включая PDF, HTM и HTML), но и в базах данных большинства распространенных информационных систем (Access, MS SQL, Oracle и SQL). Для вящей конкретизации поиска наличествует функция использования списков синонимов и выделения так называемых «важных слов».
По окончании установки и регистрации первым делом нам предложат загрузить и установить фильтр для индексации и поиска в PDF-документах вкупе с русскоязычной морфологической базой (рис. 20). Дело в том, что использование морфологии — один из важнейших приемов интеллектуального поиска текста, поскольку этот режим позволяет ввести в поисковую строку одно слово, а поиск будет осуществляться по всем его словоформам (например: ложка, ложкой, ложки, ложечки). Таким образом, жертвы на входящий трафик заумной морфологической субстанции более чем оправданны (использование морфологии включается в «Менеджере Индексов»).
Пришла пора создавать индексационные базы (программа называет их «индексами»), без которых поиск становится бессмысленным: Менеджер индексов > Создание индекса (рис. 21). SearchInform позволяет выбирать папку для баз индекса, равно как исключать из области поиска ненужные каталоги8. Не забудьте еще раз подумать о целесообразности использования морфологических баз — по умолчанию переключатель «Использовать морфологию» отключен, равно как и индексация во внешних базах данных (уже упоминавшиеся Access и MS SQL Server, попортивший мне кровь при запуске «Следопыта»).
Обратите внимание на кнопку «Настройка» диалога создания нового индекса — по умолчанию программа начнет индексацию всех дисковых разделов, что увеличивает время создания базы и ее размер. Выберем только необходимое (рис. 22). А далее остается ждать окончания процесса индексации. Разумеется, нет нужды создавать единственную базу, где будут свалены в кучу и офисные документы, и HTML-страницы. При необходимости точно так же создаются дополнительные индексы, подключаемые командой «Смонтировать индекс».
Процесс индексирования весьма нагляден и демонстрирует не только скорость, но и количество обработанных документов, и число уникальных слов, по которым будет осуществляться поиск. В конечном итоге, данный раздел, содержащий более 20 000 документов совокупным объемом около 580 Мбайт, был проиндексирован всего за 12 минут; объем проиндексированного контента составил 72 Мбайта (рис. 23). Да, SearchInform не индексировал графические и звуковые файлы, но от него это и не требовалось. Зато несколько десятков мегабайт индексационных баз смотрятся куда как выигрышно на фоне почти полугигабайта индексных файлов поисковика от Google.
Теперь заставим SearchInform отработать свою цену: обычный вариант поиска (вкладка «Поиск текста») по сочетанию «Антивирусные записки» выдал огромное количество документов, содержащих, в той или иной мере, искомые слова. Впрочем, нужные документы оказалась в первой пятерке (рис. 24). Если помните, Google Desktop Search «спекся» при запросе из 2000 знаков. Честное слово, мне надоел собственный гуманизм9 по отношению к участникам софт-ринга: даешь запрос из трех тысяч знаков! Неприметная вкладка «Поиск похожих», как выяснилось, обладает уникальной особенностью: в отличие от стандартного фразового поиска, здесь не требуется заранее подбирать ключевые слова — поиск осуществляется по всему документу в целом. Ну-с, любезный, получите три тысячи символов из начала статьи «Второе пришествие SPасителя». Предвкушая фиаско софтины, радостно потираю руки, но, увы, конфуз испытал ваш покорный слуга: программа через пару секунд выдала абсолютно точную ссылку на документ, причем без всякой дополнительной «шелухи» (рис. 25). Не испугал программу и поиск в архивах. Честно говоря, я не стал использовать секундомер для определения разницы во времени поиска среди обычных файлов и архивированных: практически один и тот же очень быстрый результат.
Дальнейшее «глумление» над софтиной порадовало старого софтверного волка: изменялся текст запроса, в который добавлялись произвольные фрагменты откровенной абракадабры, затем фразы менялись местами. Очень уж мне хотелось «убить» программу, но мой порыв остался неудовлетворенным: даже в этом случае нужный документ находился. Ко всему прочему, работа программы практически не сказывается на быстродействии системы.
Однако создание одного или нескольких индексов для действительно качественного поиска недостаточно. И чтобы максимально использовать возможности SearchInform, потребуется более подробное знакомство с синонимами, стоп-словами и «важными словами» (программные термины). Более подробно об этих «хитрых зверьках» вы сможете прочесть в программной «Справке».
Раздаем слонов
Эта процедура не вызвала бурных дебатов в силу талантов наших конкурсантов. Если вам идеологически чужда покупка программного обеспечения, и вы не мыслите поиск без участия MP3, видео и картинок, ваш выбор — бесплатный Google Desktop Search. Правда, за отсутствие материальных издержек придется расплатиться колоссальным объемом индексных файлов и весьма длительной процедурой индексации. Если вас интересует паталогическая точность поисковых результатов вкупе с возможностью создания рубрик документации, рекомендуем последнюю версию SearchInform. Немаловажным моментом станет «детское» время индексации и крайне демократичный размер созданных индексных баз.
Ищущий да обрящет.
7 Разработанная на основе математической модели анализа структуры документа и выбора похожих слов, словосочетаний и массивов текста.
8 Скажите на милость, зачем мне индексировать файлы Corel Draw и каталоги с «хозяйством» виртуальных машин?
9 Причем, совершенно неоправданный.
стр.1 | стр.2 | стр.3
Назад
|