Корректная работа с локальной сетью Информационная безопасность Поиск похожих документов Скорость индексации Разграничение прав доступа
 
 Домой   Заказать/Скачать   Продукты   Проекты   Наши Технологии   Сотрудничество   Пресса   О Компании   English 
SoftInform Search Technology - это Ваша власть над информацией.
Введение

Общее представление о поисковой программе

Закажите SearchInform прямо сейчас!
Пользовательский интерфейс
Первый запуск поисковой системы
Элементы управления SearchInform
Работа с SearchInform
Что необходимо для качественного поиска?
Фразовый поиск в программе поиска
Поиск "похожих" в поисковой программе
Менеджеры
Менеджер Индексов в поисковой системе
Создание индексов в поисковой системе
Подключение баз данных к поисковой программе
Управление индексами в поисковой системе
Менеджер Синонимов в поисковой программе
Менеджер Стоп-слов в поисковой программе
Менеджер Важных слов а поисковой программе


stretcher
 
Фразовый поиск
Главная страница программы быстрого полнотекстового поиска информации

« предыдущая страница | следующая страница »

Фразовый поиск - это стандартный вид поиска, позволяющий найти документы, содержащие ту или иную фразу. Несмотря на банальность задачи фразового поиска, поисковая система SearchInform предоставляет определенный перечень интересных настроек, с помощью которых процедура поиска информации может стать более комфортной и эффективной.
Итак, для осуществления фразового поиска необходимо выбрать вкладку "Phrase Search" в панели управления главного окна поисковой программы. Остановимся подробнее на описании каждой опции этой вкладки.

clip0018

Первое доступное поле для ввода текста - "Look for". Сюда следует вводит искомую фразу. Разумеется правильный выбор ключевых слов - это залог успешного поиска, поэтому не всегда эффективным является ввод некоторого вопроса прямым текстом. Куда эффективнее может оказаться запрос на поиск лишь ключевых (раскрывающих суть) слов из Вашего вопроса. Обратите внимание, что, если в подключенном в данный момент индексе задействована возможность использования морфологического анализа (см. Менеджер индексов), то эта возможность будет использоваться и при фразовом поиске. В этом случае нет необходимости предугадывать словоформы, в которых могут встречаться ключевые слова в искомых документах, достаточно ввести все слова, например, в начальной форме.
Следует также учитывать, что при фразовом поиске в поисковой системе также используется список стоп-слов (см. Менеджер Стоп-слов), так что даже если Вы введете в строку поиска определенные слова, которые присутствуют в списке стоп-слов (а там находятся слова, не несущие информационной нагрузки), то эти слова не будут учтены при поиске документов.

Поле "Index" позволяет выбрать один из присоединенных к системе индексов для дальнейшего поиска ключевых слов именно по выбранному индексу.

Кнопка "Search", соответственно, запускает процесс поиска документов, соответствующим всем параметрам, установленным на текущей вкладке. Т.о. нажимать ее следует лишь после того, как были установлены все опции, т.е. в конце.

Поле "Found words" автоматически заполняется после осуществления поиска. В нем отображаются все слова из строки поиска, которые были найдены, хотя бы в одном документе. Соответственно, слова в этом списке не повторяются. Двойной клик по одному из слов в этом списке автоматически осуществляет новый поиск по этому слову (т.е. аналогичная операция - набрать это слово в строке поиска и нажать кнопку "Search").

Все следующие элементы управления - это непосредственно настройки поиска информации.

clip0020

Первый блок опций позволяет выбрать один из нескольких принципов обращения с каждым словом из строки поиска:

"Start from words" - выбор этого пункта означает что каждое ключевое слово будет рассматриваться так: если в некотором документе было найдено слово, начинающееся с этого ключевого слова (т.е. первые символы найденного слова полностью совпадают с ключевым словом), то поисковая программа посчитает эти слова равносильными и учтет при поиске. Например, если в строку поиска было введено слово "авто", то найденные в документах слова, типа "авто","автомобиль", "автомат" и др. будут считаться равнозначными (подходящими к запросу "авто").

"Containing words" - выбор этого пункта означает, что ключевые слова из строки поиска должны полностью встречаться в словах из просматриваемого документа, чтобы они считались равносильными. Т.е. для того чтобы два слова были равнозначными в этом режиме необходимо, чтобы некоторая часть посматриваемого поисковой программой слова в документе совпала с ключевым словом с точностью до символа. В данном случае место совпадения не имеет значения - это может быть начало, конец или середина слова. Например, ключевое слово "кон" будет эквивалентно словам "кон", "контрабас", "закон", "окончательный и т.п.

"Terminating on words" - этот пункт фактически равносилен пересечению двух предыдущих случаев, т.е. слова будут считаться совпавшими в тогда, когда слово в документе будет оканчиваться на ключевое слово. В этом случае ключевое и найденное таким образом слова будут считаться равносильными. Например, в таком режиме, искомое слово "план" будет равносильно словам "план", "аэроплан", "параплан" и т.п.

"Conterminous to words" - выбор этого пункта по сути является пересечением всех предыдущих случаев, т.е. поиск будет осуществляться строго по заданному ключевому слову. Найденное слово должно полностью совпадать с ключевым словом или, по крайней мере быть его словоформой, в случае, когда используется морфологический анализ. Этот режим выбран в поисковой программе по умолчанию, т.к. является наиболее часто употребимым. Следует отметить также, что этот режим является и самым быстрым. Использование одного из предыдущих режимов может существенно снизить скорость поиска, т.к. в тех случаях идет обработка значительно более объемного массива информации.

Далее рассмотрим следующий блок опций:

clip0023

"All words must present in result" - включение этого пункта означает, что документ будет считаться подходящим под поисковый запрос только в том случае, когда в нем содержатся все слова, присутствующие в строке поискам (разумеется, за исключением слов из стоп-листа). При этом порядок раположения этих слов, а также расстояние между ними играют второстепенную роль.

"Fuzzy search" - включение этой опции позволяет несколько расширить область поиска. Если "Fuzzy search" включена, то поисковая система SearchInform будет искать ключевые слова в соотсветствии со всеми заданными параметрами, однако с учетом того, что в некоторых словах могут присутствовать определенные неточности (например, орфографические ошибки). Отличие "Fuzzy search" от морфологического анализа заключается в том, что "Fuzzy search" не может в полной мере рассматривать все словоформы, он лишь позволяет обнаружить вероятные небольшие ошибки или неточности в словах, позволяя тем самым распознавать их как равносильные ключевым словам. Например, в документе содержится слово "ябдоко". Наверняка, при наборе этого слова на клавиатуре случайно нажали букву "д" вместо "л". "Fuzzy Search" распознает такую неточность и определит слово как "яблоко". Морфологический поиск напротив позволяет учитывать словоформы, но он не может обнаруживать неточности в записях слов, не связанные с морфологией. Таким образом, использование морфологического анализа и "Fuzzy Search" по отдельности, а тем более вместе может существенно повысить корректность поиска. Однако следует учитывать, что такой анализ может отнимать довольно много ресурсов, поэтому поиск может оказаться несколько медленнее.

"Use synonims" - соответственно позволяет включить возможность использования синонимов при фразовом поиске. По умолчанию эта опция включена, т.к. она способна сделать поиск значительно более эффективным. Подробнее о синонимах можно прочитать в разделе "Что необходимо для качественного поиска?". Следует, однако, учитывать, что использование этой опции оправдано только в случае, когда имеется качественный список синонимов (про создание такого списка см. в разделе "Менеджер синонимов"), в противном случае включение этой опции не дает никакого эффекта.

"Phrase search" - если эта опция установлена, то поиск будет осуществляться конкретно по той фразе, которая введена в строке поиска. Каждый просматриваемый документ будет проверяться не просто на наличие слов из строки поиска, а на их расположение относительно друг друга. Можно сказать, что "Phrase search" осуществляет поиск "цитаты" (выражения из строки поиска), т.е. фразы в исходном виде. Однако при этом эта возможность имеет несколько дополнительных настроек. Если галочка "Word order" установлена, то слова в найденном выражении должны стоять точно в таком же порядке, как и в "цитате". Если же галочка не установлена, то найденная фраза в документе может отличаться от поискового запроса только лишь порядком следования слов. Пункт "Word order" становится доступным только после включения опции "Phrase search". Помимо опции "Word order", в "Phrase search" присутствует возможность установки допустимого количества посторонних слов между словами в "цитате". Это позволяет осуществлять поиск фразы с менее жесткими условиями. Установка осуществляется с помощью ползунка, а количество допустимых промежуточных слов отображается в виде: "Number of in-between words: X". Соответственно, количество промежуточных слов в каждой паре ключевых слов может быть меньше либо равно заданного значения, если их больше, то фраза считается уже неподходящей.

clip0024

Учитывая, что количество найденных документов на некоторые запросы может быть просто огромным, логично было бы ограничить максимальное количество выводимых результатов, дабы не зря тратить время на обработку лишней информации. Тем более, последние результаты обладают очень малой степенью совпадения с поисковым запросом, т.к. все результаты отсортированы по релевантности. Для ограничения количества выводимых документов необходимо высавить нужное значение в поле "Show first X result".

Зачастую, уже после осуществления поиска, нам необходимо уточнить его, применить новые критерии поиска, но, желательно, только среди уже найденных результатов. Специально для этого присутствует опция "Search through current results".
Вот небольшой пример применения этой возможности на практике. Например, мы осуществляли некоторый поиск по определенному перечню слов, галочка "All words must present in result" при этом была отключена. В результате мы получили большое количество документов. Тут мы решаем, что некоторое ключевое слово из строки поиска все же обязательно должно присутствовать в искомом документе. Тогда следует установить опцию "Search through current results" и дважды кликнуть по нужному слову в поле "Found words", в результате чего будет осуществлен поиск выбранного слова среди уже полученных ранее результатов.

« предыдущая страница | следующая страница »


Компания Лоция Софт и СофтИнформ объявляют о начале специальной акции – «Снижение на 20% цен на ПО SearchInform Lotsia Edition». Акция продлится до 15 мая 2006 года. Подробнее...
»


Большой рыночный потенциал заложен в технологии поиска, которая не зависит от языка. По словам Льва Матвеева, генерального директора "СофтИнформ" – «технология абсолютно независима от морфологии и в течение максимум двух недель настраивается на любой язык поиска». iOne.ru   Подробнее...
» Вся пресса
  stretcher