« предыдущая статья | Все статьи | следующая »
программа поиска файлов
Чемпионат по настольному поиску (программы для локального поиска)
Собачья радость
Мне до сих пор неловко за тот щенячий восторг, с коим я загружал бесплатную версию знаменитой «Ищейки 4.5» (www.isleuthhound.com/ru/): позарившись на дармовую «косточку», автор этих строк получил крайне ограниченную версию программы. Увы, мне предложили индексацию и поиск лишь в трех файловых форматах: TXT, DOC и HTM/HTML и создание единственной базы данных. Сам виноват - нужно было заранее взглянуть на программные возможности. Пришлось вызвать более продвинутого «пса» по кличке «Ищейка Проф» ($15). Четыре сотни рублей по нашим временам – не столь большие деньги. «Ищейка Проф» умеет «вынюхивать», помимо стандартных TXT и HTM/HTML, офисные расширения DOC и DOT (шаблоны MS Word) вкупе со старым добрым RTF.
На этом выучка «Ищейки Проф» заканчивается. Однако, радостно тявкнув, «собачка» поведала о своих дополнительных талантах, если «скормить» животине дополнительные модули. Тогда все станет действительно по-взрослому - это вам не глупый щенок из системного поисковика: без проблем станет индексироваться и обнаруживаться текстовая информация в файлах ASP и Adobe Acrobat (PDF), в презентациях MS PowerPoint и скучнейших документах MS Excel[6]. Ко всему прочему, «Ищейка» расправиться с архивным расширением ZIP, справочным форматом CHM, ID3-тэгами MP3-файлов и PHP-документами. Правда, за модуль с поддержкой одного формата, придется отдать дополнительные 6 долларов (20 баксов чохом за весь комплект плагинов) или заказать «Ищейку Проф Deluxe» за $29. Что же, придется пожертвовать ради объективного теста. Правда, вызывает недоумение дата выпуска оных модулей – 2002 год...
Первое, что я бы советовал сделать по окончании установки – отказаться от предложения создать новую зону поиска и выбрать заранее созданную папку для хранения базы проиндексированных документов (Опции > Индекс > Папка индексных файлов). Дело в том, что по умолчанию «Ищейка» горит желанием немедленно проиндексировать указанные ей разделы, создав индексную базу в программном каталоге. При переустановке системы гораздо проще подсунуть «Ищейке» готовую базу индексации. В моем случае использовался логический диск F:, где я отключил поиск в каталогах с рисунками и файлами, поиск в которых не имеет смысла: время индексации в этом случае уменьшится. Затем «Ищейке» следует дать команду относительно файловых расширений для индексации. Обратите внимание, что изначально отключена индексация почтовых форматов EML и MSG, ZIP-архивов и некоторых других. В этом случае выбор форматов остается за «хозяином».
После этого «Ищейка» шустро просчитала индексируемые документы (число оных составило 15968 штук суммарным объемом 1,75 Гб), после чего немедля приступила к индексации, каковая продолжалась 24 минуты. Размер индексной базы составил 144 Мб. Обратите внимание на эти цифры: эти данные и будут, в числе прочих параметров, определять нашего поискового лидера.
Что же, проверим хваленый «ищейкин нюх»: в качестве жертвы выберем название цикла статей вашего покорного слуги – «Антивирусные записки». Вводим эти словеса в поле запроса, командуем программе «Ищи!» и почти мгновенно получаем результаты поиска: название и расположение документов с этим словосочетанием, дату и время создания опусов, а также исходный текст.
Усложним задачу, и «натравим» программу на поиск ID3-тэгов в MP3-файлах. В одном из каталогов хранился альбом «Аквариума» с русскими тэгами. Поиск по русским названиям композиций, равно как по имени «Борис Гребенщиков» не дал результата. В чем дело? Пробую ввести знакомые всем буквы «BG», после чего получаю массу ссылок на документы с чужой критикой в адрес Билла Гейтса и... единственной MP3-шкой, в тэге которой содержались искомые буквы. Действительно, Гребенщиков там и вправду повествовал об экзистенции, но тэги были выполнены латиницей! Стало быть, о поиске в русских тэгах можно забыть.
Еще один «садистский» метод удался на славу: решаю запросить поиск по вступлению к своей статье «Второе пришествие SPасителя» (см. ДК # 10 2004г.): три сотни печатных знаков. Увы, «Ищейка», поджав хвост, скорбно скулила, рапортуя о нулевом результате. Расширенный поиск также не привел к успеху. Вот вам и хваленое собачье чутье. Безусловно, «Ищейка Проф Deluxe» обладает и положительными качествами: создание неограниченного количества зон поиска (Менеджер зон поиска) и отсутствие лимита на число документов в одной зоне поиска; возможность обновления поисковых баз по расписанию и вручную; возможность создания «Избранных запросов» и «Популярных запросов», что обеспечивает высокую эффективность при работе с офисными документами. Но, главным плюсом, на мой взгляд, является крайний аскетизм в отношении системных ресурсов: «Ищейка» поедает всего-навсего 3 мегабайта оперативной памяти. Однако, на сайте разработчиков вы не найдете демо-версии «Ищейки Проф», не говоря уже о «Deluxe»-модификации. Может быть, способности человека лучше собачьего нюха? Посмотрим, что скажет бывалый искатель.
SoftInform Search Technology ( программа поиска файлов ) в первую очередь корпоративный инструмент поиска информации в локальной сети предприятия (документов практически любых форматов), информационных системах, СУБД, CRM и так далее. Важным преимуществом данной разработки является консолидация под своим управлением информации из различных источников. В SoftInform Search Technology (программа поиска файлов) реализована система рубрикации (удобный и быстрый инструмент распределения любых документов по заданной тематике) и автокатегоризации документов – автоматического распределения новых документов по существующим рубрикам в соответствии с общим принципом похожести. Такой подход к организации и консолидации данных позволяет структурировать информационные составляющие любого крупного предприятия под управлением одной программы. Притом, без нужды переводить документы и данные в какой-либо единый формат. Вся информация, доступная для индексирования и дальнейшего поиска может быть распределена, структурирована и отображена в удобном виде.
« предыдущая статья | Все статьи | следующая »
Одной из важнейших задач, которую приходится решать компаниям на сегодняшний день, является быстрый поиск документов в больших объемах данных. Организация доступа к данным напрямую зависит от технологий и программ, обеспечивающих скорость и качество обработки информации. На данный момент существует много и технологий, осуществляющих фразовый поиск (Google, Hummingbird, Verity и другие), но они в отличие от технологии СофтИнформ программа поиска файлов не решают проблему поиска информации в полной мере.
Компания Лоция Софт и СофтИнформ объявляют о начале специальной акции – «Снижение на 20% цен на ПО SearchInform Lotsia Edition». Акция продлится до 15 мая 2006 года.
Подробнее...
»
Большой рыночный потенциал заложен в технологии поиска, которая не зависит от языка. По словам Льва Матвеева, генерального директора "СофтИнформ" – «технология абсолютно независима от морфологии и в течение максимум двух недель настраивается на любой язык поиска».
iOne.ru
Подробнее...
» Вся пресса программа поиска файлов
|