14
1 1. Поисковые службы Интернет. Поиско ́ вая систе ́ ма (англ. search engine) это компьютерная система, предназначенная для поиска информации. Одно из наиболее известных применений поисковых систем веб-сервисы для поиска текстовой или графической информации во Всемирной паутине. Существуют также системы, способные искать файлы на FTP- серверах, товары в интернет- магазинах, информацию в группах новостей Usenet. Для поиска информации с помощью поисковой системы пользователь формулирует поисковый запрос. Работа поисковой системы заключается в том, чтобы по запросу пользователя найти документы, содержащие либо указанные ключевые слова, либо слова, как - либо связанные с ключевыми словами. При этом поисковая система генерирует страницу результатов поиска. Такая поисковая выдача может содержать различные типы результатов, например: веб- страницы, изображения, аудиофайлы. Некоторые поисковые системы также извлекают информацию из подходящих баз данных и каталогов ресурсов в Интернете. Поисковая система тем лучше, чем больше документов, релевантных запросу пользователя, она будет возвращать. Результаты поиска могут становиться менее релевантными из- за особенностей алгоритмов или вследствие человеческого фактора. По состоянию на 2015 год самой популярной поисковой системой в мире является Google, однако есть страны, где пользователи отдали предпочтение другим поисковикам. Так, например, в России «Яндекс» обгоняет Google больше, чем на 10 %. По методам поиска и обслуживания разделяют четыре типа поисковых систем: системы, использующие поисковых роботов, системы, управляемые человеком, гибридные системы и мета - системы. В архитектуру поисковой системы обычно входят: поисковый робот, собирающий информацию с сайтов сети Интернет или из других документов, индексатор, обеспечивающий быстрый поиск по накопленной информации, и поисковик графический интерфейс для работы пользователя Поиско ́ вая систе ́ ма веб- сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp- серверах, товары в интернет- магазинах, а также информацию в группах новостей Usenet . Как правило, основной частью поисковой системы является поиско ́ вая маши ́ на ( поиско ́ вый движо ́ к ) - комплекс программ, обеспечивающий функциональность поисковой системы. Основными критериями качества работы поисковой машины являются ревалентность(степень соответствия запроса и найденного, т.е. уместность результата), полнота базы, учѐт морфологии языка.

1. Поисковые службы Интернет.labmedic.ru/kiseleva/LD-praktika/2/lekcija_12.pdf · 2016-11-27 · Поисковые службы Интернет. ... либо

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 1. Поисковые службы Интернет.labmedic.ru/kiseleva/LD-praktika/2/lekcija_12.pdf · 2016-11-27 · Поисковые службы Интернет. ... либо

1

1. Поисковые службы Интернет.

Поиско́вая систе́ма (англ. search engine) — это компьютерная система,

предназначенная для поиска информации. Одно из наиболее известных применений поисковых систем — веб-сервисы для поиска текстовой или графической

информации во Всемирной паутине. Существуют также системы, способные

искать файлы на FTP-серверах, товары в интернет-магазинах, информацию в группах новостей Usenet.

Для поиска информации с помощью поисковой системы пользователь формулирует поисковый запрос. Работа поисковой системы заключается в том,

чтобы по запросу пользователя найти документы, содержащие либо

указанные ключевые слова, либо слова, как-либо связанные с ключевыми словами.

При этом поисковая система генерирует страницу результатов поиска. Такая поисковая выдача может содержать различные типы результатов, например: веб-

страницы, изображения, аудиофайлы. Некоторые поисковые системы также

извлекают информацию из подходящих баз данных и каталогов ресурсов в

Интернете.

Поисковая система тем лучше, чем больше документов, релевантных запросу

пользователя, она будет возвращать. Результаты поиска могут становиться менее релевантными из-за особенностей алгоритмов или вследствие человеческого

фактора. По состоянию на 2015 год самой популярной поисковой системой в мире

является Google, однако есть страны, где пользователи отдали предпочтение другим

поисковикам. Так, например, в России «Яндекс» обгоняет Google больше, чем на 10 %.

По методам поиска и обслуживания разделяют четыре типа поисковых систем: системы, использующие поисковых роботов, системы, управляемые

человеком, гибридные системы и мета-системы. В архитектуру поисковой системы

обычно входят:

поисковый робот, собирающий информацию с сайтов сети Интернет или из

других документов,

индексатор, обеспечивающий быстрый поиск по накопленной информации, и

поисковик — графический интерфейс для работы пользователя

Поиско́вая систе́ма — веб-сайт, предоставляющий возможность поиска

информации в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать

файлы на ftp-серверах, товары в интернет-магазинах, а также информацию в

группах новостей Usenet.

Как правило, основной частью поисковой системы является поиско́вая

маши́на (поиско́вый движо́к ) - комплекс программ, обеспечивающий

функциональность поисковой системы. Основными критериями качества работы поисковой машины являются ревалентность(степень соответствия запроса и

найденного, т.е. уместность результата), полнота базы, учѐт морфологии языка.

Page 2: 1. Поисковые службы Интернет.labmedic.ru/kiseleva/LD-praktika/2/lekcija_12.pdf · 2016-11-27 · Поисковые службы Интернет. ... либо

2

Индексация информации осуществляется специальными поисковыми роботами. В последнее время появился новый тип поисковых движков, основанных на

технологии RSS, а также среди XML-данных разного типа.

Улучшение работы поисковых систем — это одна из приоритетных задач

сегодняшнего Интернета (см. про основные проблемы в работе поисковых систем в Глубокая паутина).

Основные составляющие поисковой системы: поисковый

робот, индексатор, поисковик.

Как правило, системы работают поэтапно. Сначала поисковый робот получает контент, затем индексатор генерирует доступный для поиска индекс, и наконец,

поисковик обеспечивает функциональность для поиска индексируемых данных.

Чтобы обновить поисковую систему, этот цикл индексации выполняется повторно.

Поисковые системы работают, храня информацию о многих веб-страницах,

которые они получают из HTML страниц. Поисковый робот или «краулер»

(англ. Crawler) — программа, которая автоматически проходит по всем ссылкам, найденным на странице, и выделяет их. Краулер, основываясь на ссылках или

исходя из заранее заданного списка адресов, осуществляет поиск новых документов,

ещѐ не известных поисковой системе. Владелец сайта может исключить определѐнные страницы при помощи robots.txt, используя который можно запретить

индексацию файлов, страниц или каталогов сайта.

Поисковая система анализирует содержание каждой страницы для дальнейшего индексирования. Слова могут быть извлечены из заголовков, текста

страницы или специальных полей — метатегов. Индексатор — это модуль, который

анализирует страницу, предварительно разбив еѐ на части, применяя собственные лексические и морфологические алгоритмы. Все элементы веб-страницы

Page 3: 1. Поисковые службы Интернет.labmedic.ru/kiseleva/LD-praktika/2/lekcija_12.pdf · 2016-11-27 · Поисковые службы Интернет. ... либо

3

вычленяются и анализируются отдельно. Данные о веб-страницах хранятся в индексной базе данных для использования в последующих запросах. Индекс

позволяет быстро находить информацию по запросу пользователя. Ряд поисковых

систем, подобных Google, хранят исходную страницу целиком или еѐ часть, так

называемый кэш, а также различную информацию о веб-странице. Другие системы, подобные системе AltaVista, хранят каждое слово каждой найденной страницы.

Использование кэша помогает ускорить извлечение информации с уже посещѐнных

страниц. Кэшированные страницы всегда содержат тот текст, который пользователь задал в поисковом запросе. Это может быть полезно в том случае, когда веб-

страница обновилась, то есть уже не содержит текст запроса пользователя, а

страница в кэше ещѐ старая. Эта ситуация связана с потерей ссылок (англ. linkrot) и

дружественным по отношению к пользователю (юзабилити) подходом Google. Это предполагает выдачу из кэша коротких фрагментов текста, содержащих текст

запроса. Действует принцип наименьшего удивления, пользователь обычно ожидает

увидеть искомые слова в текстах полученных страниц. Кроме того, что

использование кэшированных страниц ускоряет поиск, страницы в кэше могут содержать такую информацию, которая уже нигде более не доступна.

Поисковик работает с выходными файлами, полученными от индексатора. Поисковик принимает пользовательские запросы, обрабатывает их при помощи

индекса и возвращает результаты поиска.

yandex.ru – Пожалуй самая популярная поисковая система в России. Имеется

расширенный поиск.

rambler.ru – Тоже одна из популярных русскоязычных поисковых систем.

google.ru – Также одна из популярных систем в России. И по всему миру (google.com)

www.yahoo.com– Еще один из крупных поисковых систем в мире.

www.apport.ru – Довольно распространенная поисковая система в Россия, имеется два языка.

msn.com — Также довольно популярная поисковая система по новостям и по

сайтам.

www.altavista.com – Без сравнения самая крупная система в мире. astalavista.box.sk — Поисковая система по поиску бесплатного программного

обеспечения.

www.bigfoot.com – Социальная сеть, поиск людей.

www.excite.com – Удобный поиск. www.filez.com — Поиск сайтов и бесплатного программного обеспечения.

www.hotbot.com – Одна из самых быстрых систем индексация сайтов.

infoseek.go.com – Проиндексировано более 60 мил. страниц. www.Jassan.com – Поиск по фондовым биржам, корпорациям.

www.lycos.com – Удобный поиск музыки, видео, изображений и фотографий.

www.moneysearch.com — Поиск по сайтам финансового рынка, а также посайтам компаний связанные с бизнесом.

www.travel-finder.com – Поиск по сайтом сосредоточенные на спорте, туризме.

www.atrus.ru – Поиск, каталоги.

www.list.ru – Каталог ресурсов.

Page 4: 1. Поисковые службы Интернет.labmedic.ru/kiseleva/LD-praktika/2/lekcija_12.pdf · 2016-11-27 · Поисковые службы Интернет. ... либо

4

www.ru – Поиск, также имеется каталог. www.strars.ru — Поиск по сайтам, также имеется каталог.

sel.alfainter.net – Каталог, но индексации сайтов нет.

www.anet.donetsk.ua – Каталог сайтов сети интернет.

www.a-counter.kiev.ua – Каталог сайтов. el.visti.net — Поиск по рефератам, дипломным работам.

www.internetri.net – Украинский каталог.

www.qp.dp.ua – Каталог по сайтам. www.meta.kharkiv.net – Еще один поисковик

www.topping.com.ua – Каталог по сайтам. Поиск в интернете, имеется рейтинг.

poshuk.dnepr.net – Сравнительно молодой каталог.

sesna.kharkiv.org – Еще один поисковик www.susanin.com Сусанин – Довольно известный каталог.

uahoo.gu.net UA – Каталог по сайтам в интернете

www.ukrainet.lviv.ua – Украинский каталог.

www.echo.com.ua — Регистрация в системах www.allonesearch.com — Поиск по сайтам.

www.beaucoup.com – Поиск по сайтам в интернете. Имеется шесть языков.

www.deja.com – Одна из мощных поисковых систем по поиску новостей. Поиск может проводится по авторам, дате добавления итд…

www.dogpile.com – Имеется логический поиск по сайтам.

2. Поисковые серверы WWW.

Page 5: 1. Поисковые службы Интернет.labmedic.ru/kiseleva/LD-praktika/2/lekcija_12.pdf · 2016-11-27 · Поисковые службы Интернет. ... либо

5

Page 6: 1. Поисковые службы Интернет.labmedic.ru/kiseleva/LD-praktika/2/lekcija_12.pdf · 2016-11-27 · Поисковые службы Интернет. ... либо

6

Page 7: 1. Поисковые службы Интернет.labmedic.ru/kiseleva/LD-praktika/2/lekcija_12.pdf · 2016-11-27 · Поисковые службы Интернет. ... либо

7

3. Работа с поисковыми серверами.

3.1. Поисковые cистемы обычно состоят из трех компонент:

агент (паук или кроулер), который перемещается по Сети и собирает информацию;

база данных, которая содержит всю информацию, собираемую пауками;

поисковый механизм, который люди используют как интерфейс для

взаимодействия с базой данных.

3.2. Как работают механизмы поиска

Cредства поиска и структурирования, иногда называемые поисковыми

механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются. Cредства поиска типа агентов, пауков, кроулеров и роботов

используются для сбора информации о документах, находящихся в Сети Интернет.

Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют

информацию, которую они находят для построения базы данных. Каждый

поисковый механизм имеет собственный набор правил, определяющих, как

cобирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых

страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим

Page 8: 1. Поисковые службы Интернет.labmedic.ru/kiseleva/LD-praktika/2/lekcija_12.pdf · 2016-11-27 · Поисковые службы Интернет. ... либо

8

и звуковым файлам, файлам мультипликации; другие игнорируют cсылки к ресурсам типа баз данных WAIS; другие проинструктирова-ны, что нужно

просматривать прежде всего наиболее популярные страницы.

Агенты - самые "интеллектуальные" из поисковых средств. Они могут делать

больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени. Уже сейчас они могут искать cайты специфической тематики и

возвращать списки cайтов, отсортированных по их посещаемости. Агенты

могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть

запрограммированы для извлечения информации из уже существующих баз

данных. Независимо от информации, которую агенты индексируют, они

передают ее обратно базе данных поискового механизма. Общий поиск информации в Сети осуществляют программы, известные как

пауки. Пауки сообщают о содержании найденного документа, индексируют

его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе

данных поискового механизма.

Кроулеры просматривают заголовки и возращают только первую ссылку.

Роботы могут быть запрограммированы так, чтобы переходить по различным cсылкам различной глубины вложенности, выполнять индексацию и даже

проверять ссылки в документе. Из-за их природы они могут застревать в

циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Однако, имеются методы, предназначенные для того, чтобы запретить

роботам поиск по сайтам, владельцы которых не желают, чтобы они были

проиндексированы.

Агенты извлекают и индексируют различные виды информации. Некоторые,

например, индексируют каждое отдельное слово во встречающемся документе, в то

время как другие индексируют только наиболее важных 100 слов в каждом,

индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее. Вид построенного индекса определяет, какой поиск может

быть сделан поисковым механизмом и как полученная информация будет

интерпретирована.

Агенты могут также перемещаться по Интернет и находить информацию,

после чего помещать ее в базу данных поискового механизма. Администраторы

поисковых систем могут определить, какие сайты или типы сайтов агенты должны

посетить и проиндексировать. Проиндексированная информация отсылается базе данных поискового механизма так же, как было описано выше.

Люди могут помещать информацию прямо в индекс, заполняя особую форму

для того раздела, в который они хотели бы поместить свою информацию. Эти данные передаются базе данных.

Когда кто-либо хочет найти информацию, доступную в Интернет, он посещает

страницу поисковой системы и заполняет форму, детализирующую информацию,

Page 9: 1. Поисковые службы Интернет.labmedic.ru/kiseleva/LD-praktika/2/lekcija_12.pdf · 2016-11-27 · Поисковые службы Интернет. ... либо

9

которая ему необходима. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям,

используемым агентами при индексации информации, которую они нашли при

перемещении по Сети.

База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы,

подготовленные базой данных. Чтобы определить порядок, в котором список

документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу

будут помещены первыми в списке. Различные поисковые системы используют

различные алгоритмы ранжирования, однако основные принципы определения

релевантности следующие:

1. Количество слов запроса в текстовом содержимом документа (т.е. в html-

коде).

2. Тэги, в которых эти слова располагаются. 3. Местоположение искомых слов в документе.

4. Удельный вес слов, относительно которых определяется релевантность, в

общем количестве слов документа.

Эти принципы применяются всеми поисковыми системами. А

представленные ниже используются некоторыми, но достаточно известными

(вроде AltaVista, HotBot).

5. Время - как долго страница находится в базе поискового сервера. Поначалу

кажется, что это довольно бессмысленный принцип. Но, если задуматься, как

много существует в Интернете сайтов, которые живут максимум месяц! Если

же сайт существует довольно долго, это означает, что владелец весьма опытен в данной теме и пользователю больше подойдет сайт, который пару лет

вещает миру о правилах поведения за столом, чем тот, который появился

неделю назад с этой же темой. 6. Индекс цитируемости - как много ссылок на данную страницу ведет с других

страниц, зарегистрированных в базе поисковика.

База данных выводит ранжированный подобным образом список документов с HTML и возвращает его человеку, сделавшему запрос. Различные поисковые

механизмы также выбирают различные способы показа полученного списка -

некоторые показывают только ссылки; другие выводят cсылки c первыми

несколькими предложениями, содержащимися в документе или заголовок документа вместе с ccылкой.

Когда Вы щелкаете на ссылке к одному из документов, который вас

интересует, этот документ запрашивается у того сервера, на котором он находится.

3.3. Сравнительный обзор поисковых систем

Lycos. В Lycos используется следующий механизм индексации:

Page 10: 1. Поисковые службы Интернет.labmedic.ru/kiseleva/LD-praktika/2/lekcija_12.pdf · 2016-11-27 · Поисковые службы Интернет. ... либо

10

слова в <title> заголовке имеют высший приоритет; слова в начале страницы;

слова в ссылках;

если в его базе индекса есть сайты, ссылка с которых указывает на

индексируемый документ - релевантность этого документа возрастает.

Как и большинство систем, Lycos дает возможность применять простой запрос

и более изощренный метод поиска. В простом запросе в качестве поискового

критерия вводится предложение на естественном языке, после чего Lycos производит нормализацию запроса, удаляя из него так называемые stop-слова, и

только после этого приступает к его выполнению. Почти сразу выдается

информация о количестве документов на каждое слово, а позже и список ссылок на

формально релевантные документы. В списке против каждого документа указывается его мера близости запросу, количество слов из запроса, попавших в

документ, и оценочная мера близости, которая может быть больше или меньше

формально вычисленной. Пока нельзя вводить логические операторы в строке вместе с терминами, но использовать логику через систему меню Lycos позволяет.

Такая возможность применяется для построения расширенной формы запроса,

предназначенной для искушенных пользователей, уже научившихся работать с этим

механизмом. Таким образом, видно, что Lycos относится к системе с языком запросов типа "Like this", но намечается его расширение и на другие способы

организации поисковых предписаний.

AltaVista. Индексирование в этой системе осуществляется при помощи робота. При этом робот имеет следующие приоритеты:

слова содержащиеся в теге <title> имеют высший приоритет; ключевые фразы

в <Meta> тэгах; ключевые фразы, находящиеся в начале странички;

ключевые фразы в ALT - ссылках

ключевые фразы по количеству вхождений\присутствия слов\фраз;

Если тэгов на странице нет, использует первые 30 слов, которые индексирует

и показывает вместо описания (tag description)

Наиболее интересная возможность AltaVista - это расширенный поиск. Здесь стоит сразу оговориться, что, в отличие от многих других систем AltaVista

поддерживает одноместный оператор NOT. Кроме этого, имеется еще и оператор

NEAR, который реализует возможность контекстного поиска, когда термины

должны располагаться рядом в тексте документа. AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой фразеологический

словарь. Кроме всего прочего, при поиске в AltaVista можно задать имя поля, где

должно встретиться слово: гипертекстовая ссылка, applet, название образа, заголовок и ряд других полей. К сожалению, подробно процедура ранжирования в

документации по системе не описана, но видно, что ранжирование применяется как

при простом поиске, так и при расширенном запросе. Реально эту систему можно

отнести к системе с расширенным булевым поиском.

Page 11: 1. Поисковые службы Интернет.labmedic.ru/kiseleva/LD-praktika/2/lekcija_12.pdf · 2016-11-27 · Поисковые службы Интернет. ... либо

11

Yahoo. Данная система появилась в Сети одной из первых, и сегодня Yahoo сотрудничает со многими производителями средств информационного поиска, а на

различных ее серверах используется различное программное обеспечение. Язык

Yahoo достаточно прост: все слова следует вводить через пробел, они соединяются

связкой AND либо OR. При выдаче не указывается степень соответствия документа запросу, а только подчеркиваются слова из запроса, которые встретились в

документе. При этом не производится нормализация лексики и не проводится

анализ на "общие" слова. Хорошие результаты поиска получаются только тогда, когда пользователь знает, что в базе данных Yahoo информация есть наверняка.

Ранжирование производится по числу терминов запроса в документе. Yahoo

относится к классу простых традиционных систем с ограниченными возможностями

поиска.

OpenText. Информационная система OpenText представляет собой самый

коммерциализированный информационный продукт в Сети. Все описания больше

похожи на рекламу, чем на информативное руководство по работе. Система позволяет провести поиск с использованием логических коннекторов, однако размер

запроса ограничен тремя терминами или фразами. В данном случае речь идет о

расширенном поиске. При выдаче результатов сообщается степень соответствия

документа запросу и размер документа. Система позволяет также улучшить результаты поиска в стиле традиционного булевого поиска. OpenText можно было

бы отнести к разряду традиционных информационно-поисковых систем, если бы не

механизм ранжирования.

Infoseek. В этой системе индекс создает робот, но он индексирует не весь

сайт, а только указанную страницу. При этом робот имеет такие приоритеты:

слова в заголовке <title> имеют наивысший приоритет; слова в теге keywords, description и частота вхождений\повторений в самом

тексте;

при повторении одинаковых слов рядом выбрасывает из индекса

Допускает до 1024 символов для тега keywords, 200 символов для тэга description;

Если тэги не использовались, индексирует первые 200 слов на странице и

использует как описание;

Система Infoseek обладает довольно развитым информационно-поисковым

языком, позволяющим не просто указывать, какие термины должны встречаться в

документах, но и своеобразно взвешивать их. Достигается это при помощи специальных знаков "+" - термин обязан быть в документе, и "-" - термин должен

отсутствовать в документе. Кроме этого, Infoseek позволяет проводить то, что

называется контекстным поиском. Это значит, что используя специальную форму

запроса, можно потребовать последовательной совместной встречаемости слов. Также можно указать, что некоторые слова должны совместно встречаться не

только в одном документе, а даже в отдельном параграфе или заголовке. Имеется

возможность указания ключевых фраз, представляющих собой единое целое, вплоть до порядка слов. Ранжирование при выдаче осуществляется по числу терминов

Page 12: 1. Поисковые службы Интернет.labmedic.ru/kiseleva/LD-praktika/2/lekcija_12.pdf · 2016-11-27 · Поисковые службы Интернет. ... либо

12

запроса в документе, по числу фраз запроса за вычетом общих слов. Все эти факторы используются как вложенные процедуры. Подводя краткое резюме, можно

сказать, что Infoseek относится к традиционным системам с элементом взвешивания

терминов при поиске.

WAIS. WAIS является одной из наиболее изощренных поисковых систем Internet. В ней не реализованы лишь поиск по нечетким множествам и

вероятностный поиск. В отличие от многих поисковых машин, система позволяет

строить не только вложенные булевые запросы, считать формальную релевантность по различным мерам близости, взвешивать термины запроса и документа, но и

осуществлять коррекцию запроса по релевантности. Система также позволяет

использовать усечения терминов, разбиение документов на поля и ведение

распределенных индексов. Не случайно именно эта система была выбрана в качестве основной поисковой машины для реализации энциклопедии "Британика"

на Internet.

3.4. Поисковые роботы

За последние годы Всемирная паутина стала настолько популярной, что

сейчас Интернет является одним из основных средств публикации информации.

Когда размер Сети вырос из нескольких серверов и небольшого числа документов до огромных пределов, стало ясно, что ручная навигация по значительной части

структуры гипертекстовых ссылок больше не представляется возможной, не говоря

уже об эффективном методе исследования ресурсов.

Эта проблема побудила исследователей Интернет на проведение

экспериментов с автоматизированной навигацией по Сети, названной "роботами".

Веб-робот - это программа, которая перемещается по гипертекстовой структуре

Сети, запрашивает документ и рекурсивно возвращает все документы, на которые данный документ ссылается. Эти программы также иногда называют "пауками", "

странниками", или " червями" и эти названия, возможно, более привлекательны,

однако, могут ввести в заблуждение, поскольку термин "паук" и "странник" cоздает ложное представление, что робот сам перемещается, а термин "червь" мог бы

подразумевать, что робот еще и размножается подобно интернетовскому вирусу-

червю. В действительности, роботы реализованы как простая программная система,

которая запрашивает информацию из удаленных участков Интернет, используя стандартные cетевые протоколы.

3.4.1. Использование поисковых роботов

Роботы могут использоваться для выполнения множества полезных задач, таких как статистический анализ, обслуживание гипертекстов, исследования

ресурсов или зазеркаливания страниц. Рассмотрим эти задачи подробнее.

3.4.2. Статистический Анализ

Первый робот был создан для того, чтобы обнаружить и посчитать количество

веб-серверов в Сети. Другие статистические вычисления могут включать среднее

Page 13: 1. Поисковые службы Интернет.labmedic.ru/kiseleva/LD-praktika/2/lekcija_12.pdf · 2016-11-27 · Поисковые службы Интернет. ... либо

13

число документов, приходящихся на один сервер в Сети, пропорции определенных типов файлов на сервере, средний размер страницы, степень связанности ссылок и

т.д.

3.4.3. Обслуживание гипертекстов

Одной из главных трудностей в поддержании гипертекстовой структуры является то, что ссылки на другие страницы могут становиться " мертвыми

ссылками" в случае, когда страница переносится на другой сервер или cовсем

удаляется. На сегодняшний день не существует общего механизма, который смог бы уведомить обслуживающий персонал сервера, на котором содержится документ с

сылками на подобную страницу, о том, что она изменилась или вобще удалена.

Некоторые серверы, например, CERN HTTPD, будут регистрировать неудачные запросы, вызванные мертвыми ссылками наряду с рекомендацией относительно

страницы, где обнаружена мертвая cсылка, предусматривая что данная проблема

будет решаться вручную. Это не очень практично, и в действительности авторы

документов обнаруживают, что их документы содержат мертвые ссылки лишь тогда, когда их извещают непосредственно, или, что бывает очень редко, когда

пользователь cам уведомляет их по электронной почте.

Робот типа MOMSPIDER, который проверяет ссылки, может помочь автору документа в обнаружении подобных мертвых ссылок, и также может помогать в

обслуживании гипертекстовой структуры. Также роботы могут помочь в

поддержании содержания и самой структуры, проверяя соответствующий HTML-

документ, его соответствие принятым правилам, регулярные модернизации, и т.д., но это обычно не используется. Возможно, данные функциональные возможности

должны были бы быть встроены при написании окружающей среды HTML-

документа, поскольку эти проверки могут повторяться в тех случаях, когда документ изменяется, и любые проблемы при этом могут быть решены немедленно.

3.4.4. Зазеркаливание

Зазеркаливание - популярный механизм поддержания FTP архивов. Зеркало рекурсивно копирует полное дерево каталогов по FTP, и затем регулярно

перезапрашивает те документы, которые изменились. Это позволяет распределить

загрузку между несколькими серверами, успешно справиться с отказами сервера и обеспечить более быстрый и более дешевый локальный доступ, так же как и

автономный доступ к архивам. В Сети Интернет зазеркаливание может быть

осуществлено с помощью робота, однако на время написания этой статьи никаких

сложных средств для этого не существовало. Конечно, существует несколько роботов, которые восстанавливают поддерево страниц и сохраняют его на

локальном сервере, но они не имеют средств для обновления именно тех страниц,

которые изменились. Вторая проблема - это уникальность страниц, которая состоит в том, что ссылки в скопированных страницах должны быть перезаписаны там, где

они ссылаются на страницы, которые также были зазеркалены и могут нуждаться в

обновлении. Они должны быть измененены на копии, а там, где относительные

ссылки указывают на страницы, которые не были зазеркалены, они должны быть

Page 14: 1. Поисковые службы Интернет.labmedic.ru/kiseleva/LD-praktika/2/lekcija_12.pdf · 2016-11-27 · Поисковые службы Интернет. ... либо

14

расширены до абсолютных ссылок. Потребность в механизмах зазеркаливания по причинам показателей производительности намного уменьшается применением

сложных кэширующих серверов, которые предлагают выборочную модернизацию,

что может гарантировать, что кэшированный документ не обновился, и в

значительной степени самообслуживается. Однако, ожидается, что cредства зазеркаливания в будущем будут развиваться должным образом.

3.4.5. Исследование ресурсов

Возможно, наиболее захватывающее применение роботов - использование их при исследовании ресурсов. Там, где люди не могут справиться с огромным

количеством информации, довольно возможность переложить всю работу на

компьютер выглядит довольно привлекательно. Существует несколько роботов, которые собирают информацию в большей части Интернет и передают полученные

результаты базе данных. Это означает, что пользователь, который ранее полагался

исключительно на ручную навигацию в Сети, теперь может объединить поиск с

просмотром страниц для нахождения нужной ему информации. Даже если база данных не содержит именно того, что ему нужно, велика вероятность того, что в

результате этого поиска будет найдено немало ссылок на страницы, которые, в свою

очередь, могут ссылаться на предмет его поиска.

Второе преимущество состоит в том, что эти базы данных могут

автоматически обновляться за определенный период времени так, чтобы мертвые

ссылки в базе данных были обнаружены и удалены, в отличие от обслуживания

документов вручную, когда проверка часто является спонтанной и не полной. Использование роботов для исследования ресурсов будет обсуждаться ниже.

3.4.6. Комбинированное использование

Простой робот может выполнять более чем одну из вышеупомянутых задач. Например робот RBSE Spider выполняет статистический анализ запрошенных

документов и обеспечивает ведение базы данных ресурсов. Однако, подобное

комбинированное использование встречается, к сожалению, весьма редко.