11
Национальный аэрокосмический университет им. Н.Е.Жуковского «ХАИ» ОСНОВЫ РАБОТЫ В ИНТЕРНЕТ. ЛЕКЦИЯ №5. Поисковые системы. Принцип работы поисковой системы. Фурманов Алексей Аркадиевич

Лекция 5. Поисковые системы

Embed Size (px)

DESCRIPTION

Основы работы в интернет

Citation preview

Page 1: Лекция 5. Поисковые системы

Национальный аэрокосмический университет им. Н.Е.Жуковского «ХАИ»

ОСНОВЫ РАБОТЫ В ИНТЕРНЕТ.ЛЕКЦИЯ №5.Поисковые системы.Принцип работы поисковой системы.

Фурманов Алексей Аркадиевич

Page 2: Лекция 5. Поисковые системы

Популярные поисковые системыАнглоязычные:

1. http://google.com

2. http:// yahoo.com

3. http:// bing.com (msn.com)

4. первая была – http://altavista.com

Русскоязычные:

1. http:// yandex.ru

2. http:// rambler.ru

Украиноязычные:

1. http:// meta.ua

Page 3: Лекция 5. Поисковые системы

Поисковые системы FTPАнглоязычные:

1. http://globalfilesearch.com

2. http://www.filesearching.com/

Русскоязычные:

1. http://www.mmnt.ru

2. http://files.ru

Page 4: Лекция 5. Поисковые системы

Структурируемые тематические каталоги

Каталог — «собрание сайтов, сгруппированных по различным тематикам, вся информация в каталогах обрабатывается вручную. Для добавления нового сайта в раздел каталога необходимо отправить заявку, после обработки которой сотрудник решает вопрос о его добавлении в каталог.

Page 5: Лекция 5. Поисковые системы

Поисковая система

Поисковая система — полностью автоматизированная структура, состоящая из поисковой машины (робот, паук) и базы данных ссылок.

Page 6: Лекция 5. Поисковые системы

Основные понятия поисковых систем

Индексация — это процесс сбора информации в интернете поисковой машиной, путём перехода между ссылками, указывающими на сайты.

Релевантность – это уровень логического соответствия каждой найденной страницы поисковому запросу.

Page 7: Лекция 5. Поисковые системы

Недостатки поисковых систем

Основной недостаток — частое нахождение информации неверное по логическому смыслу. Этот недостаток связан с автоматизированным подходом к вычислению релевантности.

Page 8: Лекция 5. Поисковые системы

Регистрация в поисковых машинах

У большинства поисковых систем существует страница добавления сайта на индексацию.

Срок индексации зависит от поисковой машины (Яндекс ~ 1 неделя).

Google не позволяет добавлять сайт на идексацию, а начинает индексировать сайт только при условии, что на него есть хотя бы одна ссылка на сайте, присутствующем в базе данных сайтов.

Page 9: Лекция 5. Поисковые системы

Устройство ПС Google

(4)

Серверы индексов

Web-клиент

Web-серверы

Серверы документов

РоботыСайты в Интернет

(2)(1)

(8)

(5)(2)

(3)

(3)

(1)

(6)(7)

Page 10: Лекция 5. Поисковые системы

Алгоритм работы ПС Google : 1

I. Сбор информации

1) Роботы сканируют содержимое сайтов в Интернет (1)

2) И затем размещают собранную информацию на серверах индексов (2)…

3) и серверах документов (3)

Page 11: Лекция 5. Поисковые системы

Алгоритм работы ПС Google : 2I. Выдача результатов поискового запроса

1) Web-клиент посылает запрос на один из Web-серверов Google (4)

2) Web-сервер трансформирует запрос в вид, пригодный для сервера индекса и посылает его (5)

3) Сервер индексов формирует запрос для сервера документов пользуясь алгоритмами вычисления релевантности и собственными базами индексов

4) По полученным результатам сервер индексов обращается к серверам документов (6) для получения фрагментов документов, после чего отдаёт готовый результат Web-серверу (7)

5) Web-сервер отдаёт результат Web-клиенту (8)