47
Информационные и Информационные и информационно- информационно- поисковые системы поисковые системы Интернет Интернет

информационные и информационно поисковые системы интернет

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: информационные и информационно поисковые системы интернет

Информационные и Информационные и информационно-информационно-

поисковые системы поисковые системы ИнтернетИнтернет

Page 2: информационные и информационно поисковые системы интернет

Морфологический анализМорфологический анализ Морфологический анализМорфологический анализ – это такой процесс, который – это такой процесс, который

определяется при помощи морфологического множества, определяется при помощи морфологического множества, т.е. множество структурных решений объектов, т.е. множество структурных решений объектов, принадлежащих рассматриваемому классу. Результаты принадлежащих рассматриваемому классу. Результаты морфологического анализа представляются в виде моделей морфологического анализа представляются в виде моделей морфологического множества, которые в зависимости от морфологического множества, которые в зависимости от полноты представления информации о структурах объекта полноты представления информации о структурах объекта делятся на модели морфологического множества уровня делятся на модели морфологического множества уровня идентификации и модели морфологического множества идентификации и модели морфологического множества уровня спецификации. Модели морфологического уровня спецификации. Модели морфологического множества уровня идентификации содержат все множества уровня идентификации содержат все идентификаторы структур объектов, принадлежащих идентификаторы структур объектов, принадлежащих рассматриваемому классу и могут быть представлены с рассматриваемому классу и могут быть представлены с помощью морфологических И/ИЛИ-деревьев, помощью морфологических И/ИЛИ-деревьев, морфологических таблиц, а также с помощью специальных морфологических таблиц, а также с помощью специальных языков моделирования морфологического множества, к языков моделирования морфологического множества, к которым относится Structuralist. которым относится Structuralist.

Page 3: информационные и информационно поисковые системы интернет

Модели морфологического множества уровня Модели морфологического множества уровня идентификации не содержат исчерпывающей информации идентификации не содержат исчерпывающей информации о структурах объектов и не могут непосредственно о структурах объектов и не могут непосредственно использоваться с системами компьютерного использоваться с системами компьютерного моделирования.моделирования.

Морфологический анализ предшествует этапу Морфологический анализ предшествует этапу морфологического синтеза, в процессе которого на морфологического синтеза, в процессе которого на морфологическом множестве ищется структурное морфологическом множестве ищется структурное решение, являющееся оптимальным по какому-то решение, являющееся оптимальным по какому-то заданному критерию, поэтому морфологическое заданному критерию, поэтому морфологическое множество должно обязательно содержать структурное множество должно обязательно содержать структурное решение проектируемого объекта.решение проектируемого объекта.

Page 4: информационные и информационно поисковые системы интернет

Семантические показатели Семантические показатели эффективности ИПС: релевантность и эффективности ИПС: релевантность и

пертинентность поискапертинентность поиска Одними из наиболее важных показателей эффективности Одними из наиболее важных показателей эффективности

информационных систем, содержащих текстовую информационных систем, содержащих текстовую информацию, являются семантические показатели. информацию, являются семантические показатели. Семантические показатели основаны на оценке релевантности Семантические показатели основаны на оценке релевантности между документами и запросами.между документами и запросами.

Релевантность поиска:Релевантность поиска: Релевантность (англ. relevant) — применительно к Релевантность (англ. relevant) — применительно к

результатам работы поисковой системы и экспертной системы результатам работы поисковой системы и экспертной системы — степень соответствия запроса и найденного, то есть — степень соответствия запроса и найденного, то есть уместность результата. В более общем смысле, одно из уместность результата. В более общем смысле, одно из наиболее близких понятию качества «релевантности» — наиболее близких понятию качества «релевантности» — «адекватность», то есть оценка степени соответствия, но и «адекватность», то есть оценка степени соответствия, но и степени практической применимости результата, а также степени практической применимости результата, а также степени социальной применимости варианта решения задачи.степени социальной применимости варианта решения задачи.

Page 5: информационные и информационно поисковые системы интернет

ПертинентностьПертинентность Пертинентность (в информационном поиске) — Пертинентность (в информационном поиске) —

соответствие полученной информации информационной соответствие полученной информации информационной потребности пользователя. потребности пользователя.

Пертинентность измеряется степенью соответствия между Пертинентность измеряется степенью соответствия между ожиданиями пользователя и результатами поиска, которая ожиданиями пользователя и результатами поиска, которая определяется как отношение объема полезной для определяется как отношение объема полезной для пользователя информации к общему объему полученной пользователя информации к общему объему полученной информации, найденной поисковой системой. информации, найденной поисковой системой.

Достижение высокой степени пертинентности — основное Достижение высокой степени пертинентности — основное поле конкурентной борьбы современных поисковых систем. поле конкурентной борьбы современных поисковых систем. Именно для максимального удовлетворенияИменно для максимального удовлетворения информационных потребностей пользователей в настоящее информационных потребностей пользователей в настоящее время в ИП-системах широко применяются теории и методы время в ИП-системах широко применяются теории и методы семантических сетей, контент-анализа и глубинного анализа семантических сетей, контент-анализа и глубинного анализа текстов (Text mining, интеллектуальный анализ текстов)текстов (Text mining, интеллектуальный анализ текстов)

Page 6: информационные и информационно поисковые системы интернет

Ранжирование документов в Ранжирование документов в соответствии с их релевантностью соответствии с их релевантностью

поисковым запросампоисковым запросам Внутренние факторы, влияющие на ранжирование Внутренние факторы, влияющие на ранжирование

документов в поисковых системах .документов в поисковых системах . По утверждению специалистов технических отделов По утверждению специалистов технических отделов

поисковых систем, в настоящее время алгоритма выдачи поисковых систем, в настоящее время алгоритма выдачи результатов поиска по поисковому запросу учитывают результатов поиска по поисковому запросу учитывают около сотни факторов и критериев. около сотни факторов и критериев.

Наряду с общепринятым понятием, что к внутренним Наряду с общепринятым понятием, что к внутренним факторам ранжирования относится текст, бытует и другая факторам ранжирования относится текст, бытует и другая точка зрения. Кроме текстовых критериев, к внутренним точка зрения. Кроме текстовых критериев, к внутренним факторам относят код в целом (служебные теги, структура факторам относят код в целом (служебные теги, структура кода и т. д.). кода и т. д.).

Page 7: информационные и информационно поисковые системы интернет

Текст страницы.Текст страницы. Поисковые системы оцениваю Поисковые системы оцениваютт его его по двум основным критериям – расположение фраз на по двум основным критериям – расположение фраз на странице и частота встречаемости фраз в документе. странице и частота встречаемости фраз в документе. Касаемо первого критерия, можно утверждать следующее. Касаемо первого критерия, можно утверждать следующее. Чтобы сделать страницу более релевантной поисковому Чтобы сделать страницу более релевантной поисковому запросу (или нескольким запросам), необходимо запросу (или нескольким запросам), необходимо располагать фразы, соответствующие поисковым запросам располагать фразы, соответствующие поисковым запросам как можно выше по тексту документа. Так же не утратил как можно выше по тексту документа. Так же не утратил свое значение критерий вхождения релевантных запросу свое значение критерий вхождения релевантных запросу фраз в текст заголовков (внутри тегов <h1>-<h6>), фраз в текст заголовков (внутри тегов <h1>-<h6>), выделений в тексте (внутри тегов <b>, <br> и др.) и выделений в тексте (внутри тегов <b>, <br> и др.) и некоторые другие моменты. некоторые другие моменты.

Page 8: информационные и информационно поисковые системы интернет

Относительно частоты употребления слов в документе Относительно частоты употребления слов в документе сказано немало. Существуют рекомендации об использовании сказано немало. Существуют рекомендации об использовании ключевого слова на странице в пределах 3-7%. Однако точные ключевого слова на странице в пределах 3-7%. Однако точные цифры, естественно, неизвестны. Считается, что страница со цифры, естественно, неизвестны. Считается, что страница со слишком часто встречающимся словом запроса может быть слишком часто встречающимся словом запроса может быть сочтена спамом, и ее позиция при этом в результатах поиска сочтена спамом, и ее позиция при этом в результатах поиска автоматически понижается. Это утверждение довольно автоматически понижается. Это утверждение довольно спорно. Ведь если на странице всего 3 слова и запрос спорно. Ведь если на странице всего 3 слова и запрос содержит эти же 3, то плотность составит 100%, однако такие содержит эти же 3, то плотность составит 100%, однако такие страницы прекрасно находятся в поиске. Гораздо более страницы прекрасно находятся в поиске. Гораздо более вероятно, что существуют некие пороговые значения, после вероятно, что существуют некие пороговые значения, после достижения которых дальнейшее увеличение частоты не достижения которых дальнейшее увеличение частоты не влияет на релевантность документа. влияет на релевантность документа.

Не следует так же забывать, что поисковики накладывают Не следует так же забывать, что поисковики накладывают ограничения на индексируемый объем документа. Для разных ограничения на индексируемый объем документа. Для разных поисковиков этот критерий варьирует в пределах 100-200 поисковиков этот критерий варьирует в пределах 100-200 килобайтов. килобайтов.

Page 9: информационные и информационно поисковые системы интернет

Служебные мета-тэгиСлужебные мета-тэги. Ранее мета-тэги . Ранее мета-тэги <keywords> и <description> активно <keywords> и <description> активно использовались многими поисковыми машинами. использовались многими поисковыми машинами. Но в связи с тем, что их содержимое не видно Но в связи с тем, что их содержимое не видно пользователю, они стали действенным пользователю, они стали действенным инструментом для обмана поисковых систем, что инструментом для обмана поисковых систем, что привело к тому, что в настоящее время эти мета-привело к тому, что в настоящее время эти мета-тэги либо вообще не учитываются поисковыми тэги либо вообще не учитываются поисковыми системами, либо влияние их мизерно по системами, либо влияние их мизерно по сравнению с другими факторами.сравнению с другими факторами.

Page 10: информационные и информационно поисковые системы интернет

Глубокий («невидимый») вебГлубокий («невидимый») веб

Термин Глубокий веб (deep web, иногда Термин Глубокий веб (deep web, иногда употребляются invisible web, hidden web) обычно употребляются invisible web, hidden web) обычно относится к веб-страницам, которые по тем или иным относится к веб-страницам, которые по тем или иным причинам не индексируются поисковыми роботами. причинам не индексируются поисковыми роботами. Соответственно, если вы ищете что-либо своим любимым Соответственно, если вы ищете что-либо своим любимым поисковиком, вы не сможете с его помощью найти поисковиком, вы не сможете с его помощью найти страницы, которые этот поисковик не проиндексировал.страницы, которые этот поисковик не проиндексировал.

Page 11: информационные и информационно поисковые системы интернет

Механизмы и алгоритмы поискаМеханизмы и алгоритмы поиска Средства поиска и структурирования, иногда называемые Средства поиска и структурирования, иногда называемые

поисковыми механизмами, используются для того, чтобы помочь поисковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются. Средства людям найти информацию, в которой они нуждаются. Средства поиска типа агентов, пауков, кроулеров и роботов используются поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети для сбора информации о документах, находящихся в Сети Интернет. Это специальные программы, которые занимаются Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных. Каждый которую они находят для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, поисковый механизм имеет собственный набор правил, определяющих, как собирать документы. Некоторые следуют за определяющих, как собирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; графическим и звуковым файлам, файлам мультипликации; другие игнорируют cсылки к ресурсам типа баз данных WAIS; другие игнорируют cсылки к ресурсам типа баз данных WAIS; другие проинструктированы, что нужно просматривать прежде другие проинструктированы, что нужно просматривать прежде всего наиболее популярные страницы. всего наиболее популярные страницы.

Page 12: информационные и информационно поисковые системы интернет

АгентыАгенты - самые "интеллектуальные" из поисковых - самые "интеллектуальные" из поисковых средств. Они могут делать больше, чем просто искать: они средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени. Уже могут выполнять даже транзакции от Вашего имени. Уже сейчас они могут искать cайты специфической тематики и сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть не только страницы. Они могут также быть запрограммированы для извлечения информации из уже запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе которую агенты индексируют, они передают ее обратно базе данных поискового механизма. данных поискового механизма.

Агенты извлекают и индексируют различные виды Агенты извлекают и индексируют различные виды информации. Некоторые, например, индексируют каждое информации. Некоторые, например, индексируют каждое отдельное слово во встречающемся документе, в то время как отдельное слово во встречающемся документе, в то время как другие индексируют только наиболее важных 100 слов в другие индексируют только наиболее важных 100 слов в каждом, индексируют размер документа и число слов в нем, каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее. Вид название, заголовки и подзаголовки и так далее. Вид построенного индекса определяет, какой поиск может быть построенного индекса определяет, какой поиск может быть сделан поисковым механизмом и как полученная информация сделан поисковым механизмом и как полученная информация будет интерпретирована. будет интерпретирована.

Page 13: информационные и информационно поисковые системы интернет

Общий поиск информации в Сети осуществляют Общий поиск информации в Сети осуществляют программы, известные как программы, известные как паукипауки. Пауки сообщают о . Пауки сообщают о содержании найденного документа, индексируют его и содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных проиндексированную информацию базе данных поискового механизма. поискового механизма.

КроулерыКроулеры просматривают заголовки и возвращают просматривают заголовки и возвращают только первую ссылку. только первую ссылку.

РоботыРоботы могут быть запрограммированы так, чтобы могут быть запрограммированы так, чтобы переходить по различным ссылкам различной глубины переходить по различным ссылкам различной глубины вложенности, выполнять индексацию и даже проверять вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Однако, имеются нужны значительные ресурсы Сети. Однако, имеются методы, предназначенные для того, чтобы запретить методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы. чтобы они были проиндексированы.

Page 14: информационные и информационно поисковые системы интернет

ЛюдиЛюди могут помещать информацию прямо в индекс, могут помещать информацию прямо в индекс, заполняя особую форму для того раздела, в который они заполняя особую форму для того раздела, в который они хотели бы поместить свою информацию. Эти данные хотели бы поместить свою информацию. Эти данные передаются базе данных. передаются базе данных.

Когда кто-либо хочет найти информацию, доступную в Когда кто-либо хочет найти информацию, доступную в Интернет, он посещает страницу поисковой системы и Интернет, он посещает страницу поисковой системы и заполняет форму, детализирующую информацию, которая ему заполняет форму, детализирующую информацию, которая ему необходима. Здесь могут использоваться ключевые слова, необходима. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при соответствовать критериям, используемым агентами при индексации информации, которую они нашли при индексации информации, которую они нашли при перемещении по Сети. перемещении по Сети.

База данных отыскивает предмет запроса, основанный на База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных. соответствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены релевантные пользовательскому запросу будут помещены первыми в списке. первыми в списке.

Page 15: информационные и информационно поисковые системы интернет

Различные поисковые системы используют Различные поисковые системы используют различные алгоритмы ранжирования, однако основные различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие: принципы определения релевантности следующие:

Количество слов запроса в текстовом содержимом Количество слов запроса в текстовом содержимом документа (т.е. в html-коде). документа (т.е. в html-коде).

Тэги, в которых эти слова располагаются. Тэги, в которых эти слова располагаются. Местоположение искомых слов в документе. Местоположение искомых слов в документе. Удельный вес слов, относительно которых определяется Удельный вес слов, относительно которых определяется

релевантность, в общем количестве слов документа. релевантность, в общем количестве слов документа. Эти принципы применяются всеми поисковыми Эти принципы применяются всеми поисковыми

системами. А представленные ниже используются системами. А представленные ниже используются некоторыми, но достаточно известными (вроде AltaVista, некоторыми, но достаточно известными (вроде AltaVista, HotBot). HotBot).

Page 16: информационные и информационно поисковые системы интернет

АЛГОРИТМЫ ПОИСКААЛГОРИТМЫ ПОИСКА Расширенный поиск Расширенный поиск C помощью расширенного поиска можно найти документы с заданными C помощью расширенного поиска можно найти документы с заданными

характеристиками - атрибутами. В ИС «Кодекс» выделены следующие виды характеристиками - атрибутами. В ИС «Кодекс» выделены следующие виды атрибутов:атрибутов:

Текст - форматированный текст документа, практически неограниченного Текст - форматированный текст документа, практически неограниченного размера. Каждый документ может состоять из нескольких текстовых объектов размера. Каждый документ может состоять из нескольких текстовых объектов (например, текст закона и комментарии к нему). Подсистема поиска (например, текст закона и комментарии к нему). Подсистема поиска рассматривает все тексты одного документа как единое целое.рассматривает все тексты одного документа как единое целое.

Строка с текстом - неформатированный текст длиной до 255 символов Строка с текстом - неформатированный текст длиной до 255 символов (например, наименование, место опубликования).(например, наименование, место опубликования).

Строка с номером - строка символов длиной до 255 символов. В отличие от Строка с номером - строка символов длиной до 255 символов. В отличие от «строки с текстом» в данном атрибуте система не выделяет отдельные слова.«строки с текстом» в данном атрибуте система не выделяет отдельные слова.

Дата - дата в диапазоне от 01.01.32000 до нашей эры до 01.01.32000 нашей Дата - дата в диапазоне от 01.01.32000 до нашей эры до 01.01.32000 нашей эры.эры.

Ссылка - указатель на другой объект в базе данных. С помощью ссылок в Ссылка - указатель на другой объект в базе данных. С помощью ссылок в системе реализованы классификаторы (линейные и иерархические) и деление системе реализованы классификаторы (линейные и иерархические) и деление поискового пространства на разделы.поискового пространства на разделы.

По каждому из атрибутов возможности поисковой машины различны. По каждому из атрибутов возможности поисковой машины различны.

Page 17: информационные и информационно поисковые системы интернет

Интеллектуальный поискИнтеллектуальный поиск Интеллектуальный поиск позволяет найти документ по Интеллектуальный поиск позволяет найти документ по

смыслу содержащейся в нем информации, то есть документы по смыслу содержащейся в нем информации, то есть документы по заданной теме.заданной теме.

В системе реализован алгоритм с использованием В системе реализован алгоритм с использованием компьютерной обработки документа. Согласно гипотезе Зипфа компьютерной обработки документа. Согласно гипотезе Зипфа смысл документа зависит от частоты терминов, встречающихся смысл документа зависит от частоты терминов, встречающихся в документе. Предположим, у нас есть набор документов и нас в документе. Предположим, у нас есть набор документов и нас интересуют документы на тему "земельный налог". Очевидно, интересуют документы на тему "земельный налог". Очевидно, что документы, в которых больше данных слов, с большей что документы, в которых больше данных слов, с большей вероятностью содержат интересующую нас информацию. вероятностью содержат интересующую нас информацию. Правда, здесь надо учесть, что документы бывают разного Правда, здесь надо учесть, что документы бывают разного объема. Например, в многостраничном документе, содержащем объема. Например, в многостраничном документе, содержащем 5 раз слово "налог", скорее всего меньше говорится о налогах, 5 раз слово "налог", скорее всего меньше говорится о налогах, чем в документе из трех строчек, в котором слово налог чем в документе из трех строчек, в котором слово налог встречается 2 раза. Поэтому сравнивается не количество слов, а встречается 2 раза. Поэтому сравнивается не количество слов, а частота, с которой эти слова встречаются в документе. При этом частота, с которой эти слова встречаются в документе. При этом частота слова определяется как отношение количества этих слов частота слова определяется как отношение количества этих слов в тексте к общей сумме слов в тексте.в тексте к общей сумме слов в тексте.

Page 18: информационные и информационно поисковые системы интернет

Имеется также алгоритм уточнения результатов Имеется также алгоритм уточнения результатов запроса, учитывающий дополнительную информацию о запроса, учитывающий дополнительную информацию о связях между документами. Действительно, если много связях между документами. Действительно, если много документов по конкретной теме ссылается на один документов по конкретной теме ссылается на один документ, то он, скорее всего, содержит важную документ, то он, скорее всего, содержит важную информацию по этому вопросу. Поэтому после информацию по этому вопросу. Поэтому после "взвешивания" документов по описанному выше "взвешивания" документов по описанному выше алгоритму система "Кодекс" добавляет часть его веса всем алгоритму система "Кодекс" добавляет часть его веса всем документам, на которые документ ссылается.документам, на которые документ ссылается.

Page 19: информационные и информационно поисковые системы интернет

Закономерности поиска в ИнтернетеЗакономерности поиска в Интернете

Впервые закономерности поиска в Интернете были Впервые закономерности поиска в Интернете были опубликованы в 1949г Д. Зипфом. В 1954г математик Б. опубликованы в 1949г Д. Зипфом. В 1954г математик Б. Мандельброт достиг более точного соответствия теории и Мандельброт достиг более точного соответствия теории и практики. Так, например, короткие слова встречаются в практики. Так, например, короткие слова встречаются в Интернете намного чаще длинных. Поиск слова Интернете намного чаще длинных. Поиск слова «автокниги» будет более успешным, чем поиск фразы «автокниги» будет более успешным, чем поиск фразы «книги для автолюбителей». Все поисковые системы «книги для автолюбителей». Все поисковые системы способны распознать значимые и незначимые слова, способны распознать значимые и незначимые слова, используя стоп-листы или словари бесполезных слов. В используя стоп-листы или словари бесполезных слов. В русском языке в этом словаре оказались все предлоги, русском языке в этом словаре оказались все предлоги, местоимения, частицы. Большое значение имеет местоимения, частицы. Большое значение имеет значимость терминов, определяемая на основе его значимость терминов, определяемая на основе его инверсной частоты.инверсной частоты.

Page 20: информационные и информационно поисковые системы интернет

Законы ЗипфаЗаконы Зипфа Первый закон Зипфа "ранг - частота".Первый закон Зипфа "ранг - частота". Выбирается Выбирается

любое слово и подсчитывается, сколько раз оно встречается любое слово и подсчитывается, сколько раз оно встречается в тексте. Эта величина называется частота вхождения слова. в тексте. Эта величина называется частота вхождения слова. Измеряется частота каждого слова текста. Некоторые слова Измеряется частота каждого слова текста. Некоторые слова будут иметь одинаковую частоту, то есть входить в текст будут иметь одинаковую частоту, то есть входить в текст равное количество раз. Сгруппируем их, взяв только одно равное количество раз. Сгруппируем их, взяв только одно значение из каждой группы. Расположим частоты по мере значение из каждой группы. Расположим частоты по мере их убывания и пронумеруем. Порядковый номер частоты их убывания и пронумеруем. Порядковый номер частоты называется ранг частоты. Так, наиболее часто называется ранг частоты. Так, наиболее часто встречающиеся слова будут иметь ранг 1, следующие за встречающиеся слова будут иметь ранг 1, следующие за ними -- 2 и т.д. Вероятность встретить слово путем ними -- 2 и т.д. Вероятность встретить слово путем случайного выбора, будет равна отношению частоты случайного выбора, будет равна отношению частоты вхождения этого слова к общему числу слов в тексте.вхождения этого слова к общему числу слов в тексте.

Вероятность = Частота вхождения слова / Число слов. Вероятность = Частота вхождения слова / Число слов.

Page 21: информационные и информационно поисковые системы интернет

Второй закон Зипфа "количество - частота".Второй закон Зипфа "количество - частота". Рассматривая первый закон, факта, что разные слова Рассматривая первый закон, факта, что разные слова входят в текст с одинаковой частотой не рассматривался. входят в текст с одинаковой частотой не рассматривался. Зипф установил, что частота и количество слов, входящих Зипф установил, что частота и количество слов, входящих в текст с этой частотой, тоже связаны между собой. в текст с этой частотой, тоже связаны между собой.

Законы Зипфа универсальны. В принципе, они Законы Зипфа универсальны. В принципе, они применимы не только к текстам. Характеристики применимы не только к текстам. Характеристики популярности узлов в сети Интернет - тоже отвечают популярности узлов в сети Интернет - тоже отвечают законам Зипфа. Не исключено, что в законах отражается законам Зипфа. Не исключено, что в законах отражается "человеческое" происхождение объекта. "человеческое" происхождение объекта.

Page 22: информационные и информационно поисковые системы интернет

Значимые слова, весовые коэффициенты, Значимые слова, весовые коэффициенты, стоп-словастоп-слова

От того, как будет выставлен диапазон значимых слов, зависит От того, как будет выставлен диапазон значимых слов, зависит многое. Поставив широко - нужные термины потонут в море многое. Поставив широко - нужные термины потонут в море вспомогательных слов; установив узкий диапазон - потеряются вспомогательных слов; установив узкий диапазон - потеряются смысловые термины. Каждая поисковая система решает проблему смысловые термины. Каждая поисковая система решает проблему по-своему, руководствуясь общим объемом текста, специальными по-своему, руководствуясь общим объемом текста, специальными словарями и т.п. словарями и т.п.

Если проанализировать выделенную область значимых слов, то Если проанализировать выделенную область значимых слов, то можно отметить, что не все слова, которые попали в нее, отражают можно отметить, что не все слова, которые попали в нее, отражают смысл текста. Эти слова являются "шумом", помехой, которая смысл текста. Эти слова являются "шумом", помехой, которая затрудняет правильный выбор. "Шум" можно уменьшить путем затрудняет правильный выбор. "Шум" можно уменьшить путем предварительного исключения из исследуемого текста некоторых предварительного исключения из исследуемого текста некоторых слов. Для этого создается словарь ненужных слов - стоп-слов слов. Для этого создается словарь ненужных слов - стоп-слов (словарь называется стоп-лист). Например, для английского текста (словарь называется стоп-лист). Например, для английского текста стоп-словами станут термины: the, a, an, in, to, of, and, that... и так стоп-словами станут термины: the, a, an, in, to, of, and, that... и так далее. Для русского текста в стоп-лист могли бы быть включены далее. Для русского текста в стоп-лист могли бы быть включены все предлоги, частицы, личные местоимения и т. п. Наверняка все предлоги, частицы, личные местоимения и т. п. Наверняка попали бы и слова из нашего "шума": на, не, для, это. попали бы и слова из нашего "шума": на, не, для, это.

Page 23: информационные и информационно поисковые системы интернет

Весовые коэффициентыВесовые коэффициенты Современные способы индексирования не ограничиваются Современные способы индексирования не ограничиваются

анализом перечисленных параметров текста. Поисковая анализом перечисленных параметров текста. Поисковая машина может строить весовые коэффициенты с учетом машина может строить весовые коэффициенты с учетом местоположения термина внутри документа, взаимного местоположения термина внутри документа, взаимного расположения терминов, частей речи, морфологических расположения терминов, частей речи, морфологических особенностей и т.п. особенностей и т.п.

В качестве терминов могут выступать не только В качестве терминов могут выступать не только отдельные слова, но и словосочетания. Джорж Зипф (George отдельные слова, но и словосочетания. Джорж Зипф (George K. Zipf) опубликовал свои законы в 1949 году. Пять лет K. Zipf) опубликовал свои законы в 1949 году. Пять лет спустя знаменитый математик Беноит Мандлеброт (Benoit спустя знаменитый математик Беноит Мандлеброт (Benoit Mandlebrot) внес небольшие изменения в формулы Зипфа, Mandlebrot) внес небольшие изменения в формулы Зипфа, добившись более точного соответствия теории практике. Без добившись более точного соответствия теории практике. Без этих законов сегодня не обходится ни одна система этих законов сегодня не обходится ни одна система автоматического поиска информации. Как видите, автоматического поиска информации. Как видите, математический анализ позволяет машине с хорошей математический анализ позволяет машине с хорошей точностью, без участия человека распознать суть текста.точностью, без участия человека распознать суть текста.

Page 24: информационные и информационно поисковые системы интернет

Стоп-словаСтоп-слова Для того, чтобы из миллионов гигабайт информации, Для того, чтобы из миллионов гигабайт информации,

представленной в Интернете, выдать пользователю представленной в Интернете, выдать пользователю максимально релевантные страницы, поисковые роботы максимально релевантные страницы, поисковые роботы тщательно анализируют содержание каждой их них. Большую тщательно анализируют содержание каждой их них. Большую роль в этом процессе играют ключевые слова, мета-теги, роль в этом процессе играют ключевые слова, мета-теги, дающие обзорное представление о документе и другие факторы. дающие обзорное представление о документе и другие факторы. Среди них особое значение имеют так называемые стоп-слова. Среди них особое значение имеют так называемые стоп-слова.

Это такие слова, которые не несут никакой смысловой Это такие слова, которые не несут никакой смысловой нагрузки для поисковой системы, чаще всего выполняют нагрузки для поисковой системы, чаще всего выполняют служебную роль, однако необходимы для целостного и служебную роль, однако необходимы для целостного и правильного восприятия текста читателем. правильного восприятия текста читателем.

То есть стоп-слова – это достаточно распространенные и То есть стоп-слова – это достаточно распространенные и общеупотребительные слова и символы. Роботы, осуществляя общеупотребительные слова и символы. Роботы, осуществляя поиск по введенному запросу, просто игнорируют их, сокращая поиск по введенному запросу, просто игнорируют их, сокращая таким образом время на поиск нужных страниц, при этом таким образом время на поиск нужных страниц, при этом поддерживая релевантность запроса. Кроме того, пропуск стоп-поддерживая релевантность запроса. Кроме того, пропуск стоп-слов позволяет системе сохранить больше пространства для слов позволяет системе сохранить больше пространства для хранения информации (веб-страниц), так как они помечаются хранения информации (веб-страниц), так как они помечаются роботом специальным маркером.роботом специальным маркером.

Page 25: информационные и информационно поисковые системы интернет

Каждая поисковая система обладает своим списком Каждая поисковая система обладает своим списком стоп-слов, которые варьируются, актуализируются и стоп-слов, которые варьируются, актуализируются и меняются, однако общие тенденции в них проследить меняются, однако общие тенденции в них проследить можно. К стоп-словам относятся: служебные слова – можно. К стоп-словам относятся: служебные слова – предлоги, частицы, междометия, местоимения, союзы, предлоги, частицы, междометия, местоимения, союзы, наречия, а также однозначные цифры от 0 до 9 наречия, а также однозначные цифры от 0 до 9 (двузначные и более сложные цифры фиксируются, так (двузначные и более сложные цифры фиксируются, так как они могут играть ключевую роль в запросе – например как они могут играть ключевую роль в запросе – например даты или номера телефонов). Помимо этого, поисковая даты или номера телефонов). Помимо этого, поисковая система будет пропускать знаки препинания (, . : «» и так система будет пропускать знаки препинания (, . : «» и так далее).далее).

Стоит обратить внимание, что некоторых поисковых Стоит обратить внимание, что некоторых поисковых роботов можно заставить учитывать стоп-слово при роботов можно заставить учитывать стоп-слово при анализе по запросу, для этого необходимо внести его в анализе по запросу, для этого необходимо внести его в поисковый запрос и поставить перед ним знак «+». Еще поисковый запрос и поставить перед ним знак «+». Еще один важный момент – список стоп-слов следует с один важный момент – список стоп-слов следует с осторожностью использовать в мета-тегах, так как они в осторожностью использовать в мета-тегах, так как они в любом случае будут проигнорированы системой, а, любом случае будут проигнорированы системой, а, значит, с большой долей вероятности не попадут в значит, с большой долей вероятности не попадут в результаты выдачи.результаты выдачи.

Page 26: информационные и информационно поисковые системы интернет

При контекстном поиске система предоставляет При контекстном поиске система предоставляет следующие возможности: следующие возможности:

- задание в запросе логических формул, в том числе с - задание в запросе логических формул, в том числе с операторами расстояния. В качестве «слов» могут операторами расстояния. В качестве «слов» могут выступать цифры, буквенно-цифровые выступать цифры, буквенно-цифровые последовательности, слова которые должны быть найдены последовательности, слова которые должны быть найдены в заданном виде, а также шаблоны - буквенно-цифровые в заданном виде, а также шаблоны - буквенно-цифровые последовательности с символами "*" (любая подстрока, в последовательности с символами "*" (любая подстрока, в том числе пустая) и "?" (любая буква или цифра);том числе пустая) и "?" (любая буква или цифра);

- встроенный морфологический анализатор, - встроенный морфологический анализатор, позволяющий автоматически найти все существующие позволяющий автоматически найти все существующие словоформы для большинства слов русского и английского словоформы для большинства слов русского и английского языков.языков.

Page 27: информационные и информационно поисковые системы интернет

Модели индексирования и поиска документовМодели индексирования и поиска документов Главная задача информационно-поисковой системы - Главная задача информационно-поисковой системы -

поиск информации, релевантной информационным поиск информации, релевантной информационным потребностям пользователя. Под релевантностью понимают потребностям пользователя. Под релевантностью понимают соответствие между желаемой и получаемой информацией. соответствие между желаемой и получаемой информацией.

Подавляющие большинство поисковых алгоритмов Подавляющие большинство поисковых алгоритмов основано на так называемой "Векторной модели текста", основано на так называемой "Векторной модели текста", предложенной Дж. Солтоном (Salton G.) в 1975 году. Работа предложенной Дж. Солтоном (Salton G.) в 1975 году. Работа Солтона представляет собой теоретическую основу Солтона представляет собой теоретическую основу современных ИПС в их классической реализации. современных ИПС в их классической реализации.

Разные авторы называют эту модель индексирования и Разные авторы называют эту модель индексирования и поиска по-разному: векторной, линейной, или поиска по-разному: векторной, линейной, или алгебраической. Будет справедливо, если представление алгебраической. Будет справедливо, если представление документов и поиск информации в массиве разделим на две документов и поиск информации в массиве разделим на две модели. Следуя этой логике, векторной будем называть модели. Следуя этой логике, векторной будем называть модель описания информационного массива, а линейной - модель описания информационного массива, а линейной - модель поиска информации в массиве. Такое разделение модель поиска информации в массиве. Такое разделение обусловлено тем, что документы записываются в виде обусловлено тем, что документы записываются в виде двоичных векторов, в то время как поисковые запросы - это двоичных векторов, в то время как поисковые запросы - это линейные преобразования над этими векторами. линейные преобразования над этими векторами.

Page 28: информационные и информационно поисковые системы интернет

Суть алгоритма Солтона в том, что для Суть алгоритма Солтона в том, что для индексирования используют те термины, которые имеют индексирования используют те термины, которые имеют высокую частоту встречаемости внутри документа и высокую частоту встречаемости внутри документа и низкую во всем информационном массиве. Сама низкую во всем информационном массиве. Сама характеристика вычисляется как отношение частоты характеристика вычисляется как отношение частоты встречаемости термина в документе к частоте встречаемости термина в документе к частоте встречаемости термина в массиве. Используя эту меру встречаемости термина в массиве. Используя эту меру системы индексирования, документу приписывают первые системы индексирования, документу приписывают первые 20-40 символов, которые и составляют его поисковый 20-40 символов, которые и составляют его поисковый образ. Выбор этой меры объясняется простыми образ. Выбор этой меры объясняется простыми прагматическими соображениями, которые становятся прагматическими соображениями, которые становятся очевидными при сравнении выражения с другими очевидными при сравнении выражения с другими способами взвешивания терминов. способами взвешивания терминов.

Page 29: информационные и информационно поисковые системы интернет

Lycos, и OpenText, и Altavista, и другие системы Lycos, и OpenText, и Altavista, и другие системы Интернета применяют линейную модель индексирования и Интернета применяют линейную модель индексирования и поиска, используя различительную силу термина в поиска, используя различительную силу термина в алгоритмах автоматического индексирования и поиска. алгоритмах автоматического индексирования и поиска. Следовательно, применяемые алгоритмы ограничивают Следовательно, применяемые алгоритмы ограничивают словарь, допуская его незначительный рост. словарь, допуская его незначительный рост.

Именно это и осуществляют все реально Именно это и осуществляют все реально функционирующие системы, ограничивая размер функционирующие системы, ограничивая размер поискового образа документа 20-40 наиболее "тяжелыми" поискового образа документа 20-40 наиболее "тяжелыми" терминами из содержания. При этом в словарь попадают терминами из содержания. При этом в словарь попадают только термины поисковых образов. Следует также только термины поисковых образов. Следует также отметить, что источником терминов индексирования, в отметить, что источником терминов индексирования, в большинстве случаев выступает не весь документ, а только большинстве случаев выступает не весь документ, а только отдельные его части: заголовок, гипертекстовые ссылки, отдельные его части: заголовок, гипертекстовые ссылки, подзаголовки, специальные поля. Таким образом, удается подзаголовки, специальные поля. Таким образом, удается контролировать размер словаря и оставаться в рамках контролировать размер словаря и оставаться в рамках линейной модели индексирования и поиска. линейной модели индексирования и поиска.

Page 30: информационные и информационно поисковые системы интернет

Синтаксис языка запросов( На примере ИПС Синтаксис языка запросов( На примере ИПС ««YandexYandex»)»)

Разные поисковые системы используют различные алгоритмы и Разные поисковые системы используют различные алгоритмы и формулы для вычисления веса и различные способы сопоставления формулы для вычисления веса и различные способы сопоставления всех этих факторов. Поэтому релевантность документов всех этих факторов. Поэтому релевантность документов оценивается по-разному. То есть один и тот же запрос к разным оценивается по-разному. То есть один и тот же запрос к разным поисковым системам даст разные результаты.поисковым системам даст разные результаты.

Хотя расширенный запрос и предназначен для уточнения Хотя расширенный запрос и предназначен для уточнения критериев поиска, полностью настраиваемый поиск можно критериев поиска, полностью настраиваемый поиск можно обеспечить с помощью применения языка запросов. Язык запросов обеспечить с помощью применения языка запросов. Язык запросов — это специальные символы и операторы, которые пишутся в ту же — это специальные символы и операторы, которые пишутся в ту же строку для поиска, что и ключевые слова, и обрабатываются строку для поиска, что и ключевые слова, и обрабатываются поисковой машиной. поисковой машиной.

В системе Яндекс существует специальный язык запросов, В системе Яндекс существует специальный язык запросов, использовать который более сложно, чем форму расширенного использовать который более сложно, чем форму расширенного поиска но при его использовании можно получить наилучший поиска но при его использовании можно получить наилучший результат.результат.

Поисковый запрос вводится в поисковое поле, он может Поисковый запрос вводится в поисковое поле, он может содержать ключевые слова и специальные символы, позволяющие содержать ключевые слова и специальные символы, позволяющие установить взаимосвязи между этими словами и ввести установить взаимосвязи между этими словами и ввести дополнительные параметры. дополнительные параметры.

Page 31: информационные и информационно поисковые системы интернет

Синтаксис языка запросов системы Синтаксис языка запросов системы Яндекс (Примеры)Яндекс (Примеры)

" " " " - - поиск фразы - поиск фразы - "красная шапочка« (эквивалентно красная /+1 шапочка) "красная шапочка« (эквивалентно красная /+1 шапочка)

++ - - обязательное наличие слова в найденном документе обязательное наличие слова в найденном документе - - +быть или +не быть+быть или +не быть

~~ или ~~ или -- не должно быть слова в пределах документа (И НЕ) не должно быть слова в пределах документа (И НЕ) - - путеводитель по путеводитель по ППарижу ~~ (агентство | тур)арижу ~~ (агентство | тур)

~ - не должно быть слова в пределах предложения (И НЕ) - банки ~ закон~ - не должно быть слова в пределах предложения (И НЕ) - банки ~ закон ! - искать только указанную форму слова - !Путин! - искать только указанную форму слова - !Путин пробел или & - логическое И (в пределах предложения)пробел или & - логическое И (в пределах предложения) - фабрика звезд - фабрика звезд

&&&& логическое И (в пределах документа) логическое И (в пределах документа) музыка && (фабрика звезд) музыка && (фабрика звезд)

| - логическое ИЛИ - рисунок | картинка | фото | коллаж| - логическое ИЛИ - рисунок | картинка | фото | коллаж

/(/(n mn m) - расстояние между словами (-назад +вперед) - поставщики /2 кофе , ) - расстояние между словами (-назад +вперед) - поставщики /2 кофе , музыкальное /(-2 4) образование, вакансии ~ /+1 студентовмузыкальное /(-2 4) образование, вакансии ~ /+1 студентов

&&/(&&/(n mn m) - расстояние в предложениях (-назад +вперед)) - расстояние в предложениях (-назад +вперед) - банк && /1 налоги - банк && /1 налоги ( ) - группировка слов - (технология | изготовление) (сыра | творога)( ) - группировка слов - (технология | изготовление) (сыра | творога)

Page 32: информационные и информационно поисковые системы интернет

Основные положения языка запросов:Основные положения языка запросов: Если ключевые слова являются устойчивым Если ключевые слова являются устойчивым

словосочетанием или единой фразой, то заключите их в словосочетанием или единой фразой, то заключите их в кавычки. кавычки.

Если слова не объединены кавычками, то каждое слово Если слова не объединены кавычками, то каждое слово будет само по себе и перед каждым их них можно поставить будет само по себе и перед каждым их них можно поставить знак плюс «+», если слово обязательно должно быть в знак плюс «+», если слово обязательно должно быть в найденных документах, минус «-», если слово не должно быть в найденных документах, минус «-», если слово не должно быть в найденных документах (пробел ставится перед знаком, но не найденных документах (пробел ставится перед знаком, но не после). Если перед словом поставить знак ~ (тильда), то этого после). Если перед словом поставить знак ~ (тильда), то этого слова не должно быть в пределах предложения в совокупности с слова не должно быть в пределах предложения в совокупности с рядом стоящим в запросе словом. Примечание: по умолчанию рядом стоящим в запросе словом. Примечание: по умолчанию будут найдены и те документы, которые удовлетворяют хотя бы будут найдены и те документы, которые удовлетворяют хотя бы одному из ключевых слов. Такие ссылки будут иметь низкую одному из ключевых слов. Такие ссылки будут иметь низкую релевантность и будут находиться в конце результатов запроса.релевантность и будут находиться в конце результатов запроса.

Независимо от того, в какой форме вы употребили слово в Независимо от того, в какой форме вы употребили слово в запросе, Яндекс учитывает все формы этого слова по правилам запросе, Яндекс учитывает все формы этого слова по правилам русского языка. Чтобы этого не происходило, поставьте знак русского языка. Чтобы этого не происходило, поставьте знак восклицания перед неизменяемым словом.восклицания перед неизменяемым словом.

Page 33: информационные и информационно поисковые системы интернет

Все слова, написанные через пробел или знак & Все слова, написанные через пробел или знак & (логическое И) должны одновременно находиться в (логическое И) должны одновременно находиться в найденных документах в пределах предложения. найденных документах в пределах предложения.

Все слова, написанные через && должны одновременно Все слова, написанные через && должны одновременно находиться в найденных документах, но расстояние находиться в найденных документах, но расстояние между ними не оговаривается.между ними не оговаривается.

Слова, написанные через символ | (логическое ИЛИ) Слова, написанные через символ | (логическое ИЛИ) являются заменяющими друг друга (синонимами), и будут являются заменяющими друг друга (синонимами), и будут найдены документы, удовлетворяющие хотя бы одному из найдены документы, удовлетворяющие хотя бы одному из этих слов.этих слов.

Page 34: информационные и информационно поисковые системы интернет

Можно указать расстояние между словами. Если Можно указать расстояние между словами. Если пронумеровать слова в предложении, то расстояние между пронумеровать слова в предложении, то расстояние между словами – это разность номеров слов. Например, если между словами – это разность номеров слов. Например, если между двумя словами может находиться только одно слово, то двумя словами может находиться только одно слово, то расстояние между ними равно 2 (3 минус 1). Число расстояние между ними равно 2 (3 минус 1). Число указывается после знака /, например региональный /2 центр. указывается после знака /, например региональный /2 центр. В этом случае будут найдены документы, в которых эти В этом случае будут найдены документы, в которых эти слова находятся либо вместе, либо между ними есть еще слова находятся либо вместе, либо между ними есть еще одно слово. Запись /2 эквивалентна записи /(-2 +2), в такой одно слово. Запись /2 эквивалентна записи /(-2 +2), в такой форме можно указать максимальное и минимальное форме можно указать максимальное и минимальное количество слов, например, от 3 до 5 записывается /(3 5). количество слов, например, от 3 до 5 записывается /(3 5). Минус и плюс указывают на порядок слов: минус – Минус и плюс указывают на порядок слов: минус – обратный порядок. Если перед символом / указать &&, то обратный порядок. Если перед символом / указать &&, то расстояние будет вычисляться в предложениях.расстояние будет вычисляться в предложениях.

Для группировки отдельных частей запроса используйте Для группировки отдельных частей запроса используйте круглые скобки.круглые скобки.

Page 35: информационные и информационно поисковые системы интернет

Оценка эффективности Оценка эффективности наиболее популярных наиболее популярных

поисковых системпоисковых систем "Яндекс""Яндекс" - поисковая система по русскому интернету - поисковая система по русскому интернету Учёт русской морфологии. Подсветка найденных Учёт русской морфологии. Подсветка найденных

документов, показ контекстов. Параллельный поиск в документов, показ контекстов. Параллельный поиск в "Энциклопедиях", "Новостях", "Маркете". Структурирование "Энциклопедиях", "Новостях", "Маркете". Структурирование поиска по разделам каталога и серверам.поиска по разделам каталога и серверам.

www.yandex.ru - Цитируемость: 39000www.yandex.ru - Цитируемость: 39000Регион: РоссияРегион: Россия

"Апорт""Апорт" - поисковая система - поисковая система Учёт русской морфологии. Выделение контекстов найденных Учёт русской морфологии. Выделение контекстов найденных

слов. Уточнение поиска по разделам каталога и серверам. слов. Уточнение поиска по разделам каталога и серверам. Поиск с переводом запроса на английский язык и наоборот.Поиск с переводом запроса на английский язык и наоборот.

www.aport.ru - Цитируемость: 20000www.aport.ru - Цитируемость: 20000 Регион: Россия Регион: Россия

Page 36: информационные и информационно поисковые системы интернет

"Рамблер""Рамблер" - информационно-поисковая система - информационно-поисковая система Первая российская поисковая система. Имеет возможность учета Первая российская поисковая система. Имеет возможность учета

морфологии русского языка.морфологии русского языка. www.rambler.ru - Цитируемость: 16000www.rambler.ru - Цитируемость: 16000Регион: РоссияРегион: Россия

"Google""Google" - поисковая система - поисковая система Система поиска информации в сети интернет (включая Система поиска информации в сети интернет (включая

русскоязычный интернет). Возможность поиска картинок и русскоязычный интернет). Возможность поиска картинок и новостей в конференциях Usenet.новостей в конференциях Usenet.

www.google.ru - Цитируемость: 11000www.google.ru - Цитируемость: 11000

"Yahoo!""Yahoo!" - поисковая система - поисковая система Возможен поиск на русском языке.Возможен поиск на русском языке. www.yahoo.com - Цитируемость: 5300www.yahoo.com - Цитируемость: 5300

Page 37: информационные и информационно поисковые системы интернет

Поиск программного обеспеченияПоиск программного обеспечения Удобно искать нужную программу на специальных Удобно искать нужную программу на специальных

сайтах, называемых каталогами программ. На данный сайтах, называемых каталогами программ. На данный момент в Интернете существует великое множество момент в Интернете существует великое множество каталогов программ. Довольно большую популярность каталогов программ. Довольно большую популярность среди российских пользователей снискали среди российских пользователей снискали СОФТ@СОФТ@MailMail..RuRu ( ( httphttp://://softsoft..mailmail..ruru/ ), / ), FreewareFreeware ( ( httphttp://://freewarefreeware..ruru/ ) и / ) и SoftodromSoftodrom ( ( httphttp://://wwwwww..softodromsoftodrom..ruru/ ). / ). Из зарубежных каталогов программного обеспечения Из зарубежных каталогов программного обеспечения следует отметить следует отметить DownloadDownload..comcom ((httphttp://://wwwwww..downloaddownload..comcom/ ) и / ) и Tucows DownloadsTucows Downloads ( ( httphttp://://wwwwww..tucowstucows..comcom/ )./ ).

Page 38: информационные и информационно поисковые системы интернет

Система поиска FTP файлов (FTP Search)Система поиска FTP файлов (FTP Search)

Система поиска FTP-файловСистема поиска FTP-файлов – это особый тип – это особый тип средств поиска в Internet, который позволяет средств поиска в Internet, который позволяет находить файлы, доступные на «анонимных» находить файлы, доступные на «анонимных» FTP-серверах. Протокол FTP предназначен для FTP-серверах. Протокол FTP предназначен для передачи по сети файлов, и в этом смысле он передачи по сети файлов, и в этом смысле он функционально является своеобразным аналогом функционально является своеобразным аналогом Gopher.Gopher.

Page 39: информационные и информационно поисковые системы интернет

Основным критерием поиска является название файла, Основным критерием поиска является название файла, задаваемое разными способами (точное соответствие, задаваемое разными способами (точное соответствие, подстрока, регулярное выражение и т.д.). Данный тип поиска, подстрока, регулярное выражение и т.д.). Данный тип поиска, конечно же, не может соперничать по возможностям с конечно же, не может соперничать по возможностям с поисковыми машинами, так как содержимое файлов никак не поисковыми машинами, так как содержимое файлов никак не учитывается при поиске, а файлам, как известно, можно давать учитывается при поиске, а файлам, как известно, можно давать произвольные имена. Тем не менее, если Вам требуется найти произвольные имена. Тем не менее, если Вам требуется найти какую-нибудь известную программу или описание стандарта, какую-нибудь известную программу или описание стандарта, то с большой долей вероятности файл, его содержащий, будет то с большой долей вероятности файл, его содержащий, будет иметь соответствующее имя, и Вы сможете найти его при иметь соответствующее имя, и Вы сможете найти его при помощи одного из серверов FTP Search: помощи одного из серверов FTP Search:

FileSearch ищет файлы на FTP-серверах по именам самих FileSearch ищет файлы на FTP-серверах по именам самих файлов и каталогов. Если Вы ищете какую-либо программу файлов и каталогов. Если Вы ищете какую-либо программу или еще что-то, то на WWW-серверах Вы скорее найдете их или еще что-то, то на WWW-серверах Вы скорее найдете их описание, а с FTP-серверов Вы сможете перекачать их к себе.описание, а с FTP-серверов Вы сможете перекачать их к себе.

Page 40: информационные и информационно поисковые системы интернет

Системы поиска людейСистемы поиска людей Системы поиска людей – это специальные сервера, Системы поиска людей – это специальные сервера,

которые позволяют осуществлять поиск людей в Интернет, которые позволяют осуществлять поиск людей в Интернет, пользователь может указать Ф.И.О. человека и получить пользователь может указать Ф.И.О. человека и получить его адрес электронной почты и URL-адрес. Однако, его адрес электронной почты и URL-адрес. Однако, следует отметить, что системы поиска людей, в основном, следует отметить, что системы поиска людей, в основном, берут информацию об электронных адресах из открытых берут информацию об электронных адресах из открытых источников, таких как конференции Usenet. Среди самых источников, таких как конференции Usenet. Среди самых известных систем поиска людей можно выделить: известных систем поиска людей можно выделить:

WhoWhere? - поиск адресов e-mail в специальные графы WhoWhere? - поиск адресов e-mail в специальные графы поиска контактные данные (First Name. City, Last Name, поиска контактные данные (First Name. City, Last Name, Phone number), Вы можете найти интересующую Вас Phone number), Вы можете найти интересующую Вас информацию.информацию.

Системы поиска людей - это действительно большие Системы поиска людей - это действительно большие сервера, их базы данных содержат порядка 6 000 000 сервера, их базы данных содержат порядка 6 000 000 адресов. адресов.

Page 41: информационные и информационно поисковые системы интернет

Система поиска организацийСистема поиска организаций При розыске организаций, название которых состоит из При розыске организаций, название которых состоит из

одного слова или укладывается в односложную аббревиатуру, одного слова или укладывается в односложную аббревиатуру, разумно использовать поиск Web-страниц, в URL (сетевой адрес) разумно использовать поиск Web-страниц, в URL (сетевой адрес) которых входит данный термин, поскольку, как известно, которых входит данный термин, поскольку, как известно, односложное название компании, обычно присутствует в односложное название компании, обычно присутствует в доменном имени сервера или названии каталога на нем. В этом доменном имени сервера или названии каталога на нем. В этом случае нужна поисковая машина, поддерживающая поиск по случае нужна поисковая машина, поддерживающая поиск по URL, такая как AltaVista (http://altavista.digital.com) или Рамблер URL, такая как AltaVista (http://altavista.digital.com) или Рамблер (http://rambler.ru). Если название компании двусложное (http://rambler.ru). Если название компании двусложное целесообразно искать в поисковых системах те страницы, где это целесообразно искать в поисковых системах те страницы, где это название входит в заголовок (title). В URL такое название тоже название входит в заголовок (title). В URL такое название тоже может звучать, часто как простое слияние двух слов, слияние может звучать, часто как простое слияние двух слов, слияние слов со вставкой дефиса между ними или слияние с урезанием слов со вставкой дефиса между ними или слияние с урезанием конечных частей одного из входящих в название слов или обоих. конечных частей одного из входящих в название слов или обоих. Достаточно эффективным может быть поиск в локальных базах Достаточно эффективным может быть поиск в локальных базах данных отдельных газет и журналов, но обслуживание такой данных отдельных газет и журналов, но обслуживание такой информацией все чаще становится платным.информацией все чаще становится платным.

Page 42: информационные и информационно поисковые системы интернет

Файлообменные сетиФайлообменные сети Файлообменная сетьФайлообменная сеть — собирательное название — собирательное название

одноранговых компьютерных сетей для совместного одноранговых компьютерных сетей для совместного использования файлов, основанных на равноправии использования файлов, основанных на равноправии участвующих в обмене файлами, то есть каждый участник участвующих в обмене файлами, то есть каждый участник одновременно является и клиентом, и сервером.одновременно является и клиентом, и сервером.

Принципы работыПринципы работы Основные принципы работы файлообмена заключаются в Основные принципы работы файлообмена заключаются в

следующем:следующем: пользователь скачивает программу себе на компьютер;пользователь скачивает программу себе на компьютер; разрешает доступ другим пользователям к некоторой части разрешает доступ другим пользователям к некоторой части

своих ресурсов (этот процесс называется своих ресурсов (этот процесс называется «расшариванием» англ. sharing);«расшариванием» англ. sharing);

в каждой такой программе присутствует поиск, который в каждой такой программе присутствует поиск, который ищет ресурсы, выложенные на компьютерах других ищет ресурсы, выложенные на компьютерах других пользователей для свободного скачивания.пользователей для свободного скачивания.

Page 43: информационные и информационно поисковые системы интернет

Любой пользователь, используя поиск, может найти Любой пользователь, используя поиск, может найти на компьютере любого другого пользователя те ресурсы, на компьютере любого другого пользователя те ресурсы, которые тот выложил в свободный доступ, и бесплатно которые тот выложил в свободный доступ, и бесплатно скачать их. А так, как количество пользователей таких скачать их. А так, как количество пользователей таких файлообменных программ исчисляется сотнями тысяч, а файлообменных программ исчисляется сотнями тысяч, а иногда даже миллионами, пользователь скорее всего иногда даже миллионами, пользователь скорее всего найдет нужный ему файл.найдет нужный ему файл.

Page 44: информационные и информационно поисковые системы интернет

Тематические поисковые системы по Тематические поисковые системы по

науке, культуре и искусствунауке, культуре и искусству Тематические поисковые системы по науке:Тематические поисковые системы по науке: http://bukinist.agava.ru Поисковая система "Букинист" http://bukinist.agava.ru Поисковая система "Букинист"

предназначена для поиска книг и других электронных предназначена для поиска книг и других электронных текстов, имеющихся в свободном доступе в Интернет.текстов, имеющихся в свободном доступе в Интернет.

http://www.scirus.com/srsapphttp://www.scirus.com/srsapp http://www.scholar.ru - Поиск научных публикаций на http://www.scholar.ru - Поиск научных публикаций на

русском языкерусском языке http://www.allreferats.narod.ru - Поиск рефератовhttp://www.allreferats.narod.ru - Поиск рефератов http://www.referat.ru - Поиск рефератовhttp://www.referat.ru - Поиск рефератов http://www.dialogus.ru - Автоматический поиск прямых http://www.dialogus.ru - Автоматический поиск прямых

ответов на вопросы пользователейответов на вопросы пользователей http://megalib.com - Поиск в электронных учебниках, http://megalib.com - Поиск в электронных учебниках,

журналах, исходниках и даже софтежурналах, исходниках и даже софте

Page 45: информационные и информационно поисковые системы интернет

Тематические поисковые системы по Тематические поисковые системы по культурекультуре и искусству:и искусству:

http://www.culturefinder.com/ - http://www.culturefinder.com/ - Aнглоязычная информационная Aнглоязычная информационная база данных в области культуры;база данных в области культуры;

http://infomine.ucr.edu/search/http://infomine.ucr.edu/search/artssearch.phtml - База данных по artssearch.phtml - База данных по различным видам искусстваразличным видам искусства

Page 46: информационные и информационно поисковые системы интернет

СПАСИБО СПАСИБО

ЗАЗА

ВНИМАНИЕ!ВНИМАНИЕ!

Page 47: информационные и информационно поисковые системы интернет

Выполнила: Студентка Выполнила: Студентка 508 группы ФКиСКД 508 группы ФКиСКД

Покладок ИннаПокладок Инна