40
ПОИСК ИНФОРМАЦИИ В ИНТЕРНЕТЕ ПРИ ПОМОЩИ ПОИСКОВЫХ СИСТЕМ, КАТАЛОГОВ И ПОРТАЛОВ В. Рогалевич, Информационный поиск: источники и методы 2012

Поиск информации в интернете при помощи поисковых систем

  • Upload
    werro33

  • View
    5.575

  • Download
    10

Embed Size (px)

Citation preview

Page 1: Поиск информации в интернете при помощи поисковых систем

ПОИСК ИНФОРМАЦИИ В ИНТЕРНЕТЕ ПРИ ПОМОЩИ ПОИСКОВЫХ СИСТЕМ, КАТАЛОГОВ И ПОРТАЛОВ

В. Рогалевич, Информационный поиск: источники и методы 2012

Page 2: Поиск информации в интернете при помощи поисковых систем

АВТОМАТИЗАЦИЯ ПОИСКА Большие массивы информации и системы ее

поиска существовали задолго до появления интернета

Чтобы отыскать нужное, требовалась помощь специалиста

Первые автоматизированные поисковые системы появились в 50-60-е годы 20 века (искали только текст)

В начале 1990-х стали появляться первые поисковые системы в сети интернет

Интернет - неструктурированный источник информации, за которым отсутствует общий контроль,не обязательно выявлена орфография.

Тем не менее и здесь возможен эффективный поиск нужной информации при помощи различных механизмов и методов.

2

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и м

ето

ды

, 2

01

2

Page 3: Поиск информации в интернете при помощи поисковых систем

СРЕДСТВА ПОИСКА ИНФОРМАЦИИ В ИНТЕРНЕТЕ

Средства поиска информации в интернете

Средства поиска информации в интернете

Индексирующие поисковые системы (Google, Yahoo)

Индексирующие поисковые системы (Google, Yahoo)

Тематические каталоги

(http://www.dmoz.org/ )

Тематические каталоги

(http://www.dmoz.org/ ) ПорталыПорталы

3

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и м

ето

ды

, 2

01

2

Page 4: Поиск информации в интернете при помощи поисковых систем

ИНДЕКСИРУЮЩИЕ ПОИСКОВЫЕ СИСТЕМЫ ИЛИ ПОИСКОВИКИ

Поисковые системы (information retrieval systems, search engines) - основные средства поиска информации в интернете

в индексирующей поисковой системе нет структурированного списка ссылок или рубрикаций

огромные базы данных, состоящие из различных веб-страниц, которые индексируются только при помощи компьютеров (программ-роботов, «пауков») 4

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и м

ето

ды

, 2

01

2

Page 5: Поиск информации в интернете при помощи поисковых систем

«Пауки» постоянно ищут в интернете новые веб-сайты, отправляют их индексаторам, затем продолжают поиск, двигаясь по ссылкам этих сайтов все глубже и дальше;

Программы-индексаторы определяют основные признаки, ссылки и тематику сайтов и сохраняют их в файлы;

Ключевые слова берутся из URL-адреса страницы, из названия страницы, из заголовков в HTML-коде страницы из основного текста

Поиск проводится в базе данных конкретного поисковика

5

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и м

ето

ды

, 2

01

2

Page 6: Поиск информации в интернете при помощи поисковых систем

ПОИСКОВЫЙ ЗАПРОС

Запрос - слово или фраза, по которй поисковая система будет искать требующиеся веб-сайты (ключевые слова),

Запрос вводится в строку поиска поисковика,

Затем содержимое запроса сопоставляется с веб-страницами, находящимися в базе данных поисковой системы,

При наличии там нужного или фразы, эти страницы добавляются в список результатов поиска

! В список результатов попадают не сами веб-сайты, а их немного устаревшие копии, находящиеся в сервере поисковика

6

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и

мето

ды

, 20

12

Page 7: Поиск информации в интернете при помощи поисковых систем

ИТАК:

Паук (spider)

Индексатор (index)

Программное обеспечение search engine

software

Интерфейс поисковика (user

interface)

7

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и м

ето

ды

, 2

01

2

Page 8: Поиск информации в интернете при помощи поисковых систем

ИНДЕКСИРУЮЩИЕ ПОИСКОВЫЕ СИСТЕМЫ ИСПОЛЬЗУЮТСЯ КОГДА:

пользователь может точно сформулировать свой запрос;

нужно сэкономить время, нужное для поиска информации;

нужна свежая и актуальная информация, касающаяся какого-либо события или явления;

нужно, чтобы информация искалась во всех доступных местах интернета (форумы, блоги, группы новостей);

есть время и желание выбирать нужную информацию из огромного массива найденных материалов;

пользователь гогтов сам оценивать качество найденных веб-страниц.

8

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и м

ето

ды

, 2

01

2

Page 9: Поиск информации в интернете при помощи поисковых систем

ПОИСКОВЫЕ СИСТЕМЫ НЕ ИЩУТ:

информацию во внутренних сетях Интранет,

сайты, предлагающие узкий круг услуг, сайты, требующие регистрирования и

динамические сайты (базы данных), быстро стареющие и теряющие

актуальность сайты (новости), сайты, в HTML-заглавиях которых имеется

запрет на индексирование, а также сайты с отдаленными, непрямыми

адресами. 9

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и м

ето

ды

, 2

01

2

Page 10: Поиск информации в интернете при помощи поисковых систем

НЕГАТИВНЫЕ СТОРОНЫ

Составление наиболее точного запроса, чтобы количество ответов было минимальным;

Отсутствует контроль за качеством информации;

Не слишком частое обновление базы данных; Разные поисковые системы используют

разные методы индексации и потому дают разные результаты запроса;

Мало информации касательно найденного документа;

Базы данных поисковых систем содержат лишь малую часть ресурсов интернета.

10

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и м

ето

ды

, 20

12

Page 11: Поиск информации в интернете при помощи поисковых систем

КЛАССИФИКАЦИЯ ПОИСКОВЫХ СИСТЕМSEARCHENGINEWATCH.COM

Основные или универсальные системы, например Google, Bing, Yahoo, Altavista, Ask.com, AOL

Детские системы, http://kids.yahoo.com/, http://www.askkids.com, http://www.agakids.ru, http://kids.quintura.ru

Поисковые системы новостей, Yahoo News, Google News, http://www.topix.net/

Мультимедийные системы (аудио/видео/иллюстрации): http://www.findsounds.com/, http://www.blinkx.com/

Специализированные системы: http://www.scirus.com Скачиваемые программы, Copernic, Quintura Метапоисковые системы, Metacrawler, Dogpile, Mamma Региональные системы, Neti.ee, www.ee, www.yandex.ru 11

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и м

ето

ды

, 2

01

2

Page 12: Поиск информации в интернете при помощи поисковых систем

НЕМНОГО СТАТИСТИКИ: ИСПОЛЬЗОВАНИЕ ПОИСКОВЫХ СИСТЕМ В ЕВРОПЕ В 2011Г

12

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и м

ето

ды

, 2

01

2

Page 13: Поиск информации в интернете при помощи поисковых систем

В РОССИИ

13

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и м

ето

ды

, 20

12

Page 14: Поиск информации в интернете при помощи поисковых систем

В МИРЕ

14

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и м

ето

ды

, 20

12

Page 15: Поиск информации в интернете при помощи поисковых систем

ПОИСКОВЫЕ СИСТЕМЫ СЕМАНТИЧЕСКОГО ПОИСКА

Такие системы зачастую имеют людей-редакторов.

Система дает ответы на запрос на естественном языке, причем вопрос должен быть на английском языке.

Запрос может простым словом, вопросом или предложением, не нужно точно знать правила составления запроса

Если программа правильно интерпретирует вопрос, то результат будет более релевантным и точным, чем в других поисковых системах.

http://www.lexxe.com/ , http://www.wolframalpha.com/ , http://www.hakia.com , http://asknet.ru/

15

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и м

ето

ды

, 2

01

2

Page 16: Поиск информации в интернете при помощи поисковых систем

RSS-АГРЕГАТОРЫ

Приложения, собирающие и обрабатывающие информацию RSS-каналов

Веб-агрегаторы, - сайты по сбору и отображению RSS-потоков, такие как Яндекс.Лента (http://lenta.yandex.ru/) , Google Reader, Netvibes, Pageflakes, Bloglines

Некоторые поисковые системы уже включают в себе RSS-агрегаторы, например http://www.webalta.ru/ , http://www.aol.com/

Многие современные браузеры и почтовые клиенты также умеют работать с RSS-лентами

16

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и м

ето

ды

, 20

12

Page 17: Поиск информации в интернете при помощи поисковых систем

ГЛУБОКАЯ ПАУТИНА

также известна как невидимая паутина (англ. invisible web, - множество веб-страниц Всемирной паутины, неиндексируемых поисковыми системами.

Наиболее значительной частью глубокой паутины является глубинный веб (от англ. deep web, hidden web), состоящий из веб-страниц, динамически-генерируемых по запросам к онлайн базам данных

также сайты, доступ к которым открыт только для зарегистрированных пользователей 17

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и м

ето

ды

, 2

01

2

Page 18: Поиск информации в интернете при помощи поисковых систем

ГЛУБОКАЯ ПАУТИНА

значительная часть Всемирной паутины оказывается скрыта от поисковых роботов

Доступная информация –всего лишь верхушка айсберга все информации, имющейся в сети

http://www.deeppeep.org/ http://www.incywincy.com/ http://www.management.com.

ua/ims/ims172.html (статья )

http://rus.ruvr.ru/2009/01/14/910608.html (Подкаст)

18

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и

мето

ды

, 20

12

Page 19: Поиск информации в интернете при помощи поисковых систем

КАК ИСКАТЬ: ТАКТИКА И СТРАТЕГИЯ ПОИСКА

Поисковый запрос нужно формулировать достаточно четко и конкретно, чаще всего это словосочетание (например: клеить обои, биография Пушкина).

Обязательно проверяйте орфографию поисковых слов!

Для более конкретного поиска информации поисковые системы предлагают расширенные возможности поиска (Advanced Search, Täpsustatud otsing)

У каждой системы свой выбор параметров 19

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и м

ето

ды

, 2

01

2

Page 20: Поиск информации в интернете при помощи поисковых систем

ЛОГИЧЕСКИЙ ЯЗЫК ЗАПРОСОВ

Для быстрого нахождения нужной информации специалисты советуют пользоваться логическим языком запроса

Это допольнительные служебные команды, уточняющие требования запроса

Например: нужно искать веб-страницы, в которых есть слово «деньги» или «долги»

искать страницы, где есть слово «деньги», но не встречается «долги».

Логические операции И, ИЛИ, НО НЕ ВСТРЕЧАЕТСЯ в каждой системе выполняются по определенным командам. Список находится в справочном разделе поисковой системы. (&, ~ , !)

20

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и м

ето

ды

, 2

01

2

Page 21: Поиск информации в интернете при помощи поисковых систем

ЛОГИЧЕСКИЕ ОПЕРАТОРЫ БУЛЯ

При поиске в БД часто используются англоязычные логические операторы: AND, OR, NOT, NEAR.

http://lib.colostate.edu/tutorials/advboolean.html

http://guides.rusarchives.ru/help/query.html;jsessionid=lMmrN8gtjtaclz73

В настоящее время они уже встроены в систему поиска и их следует просто выбрать

George Boole

21

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и м

ето

ды

, 2

01

2

Page 22: Поиск информации в интернете при помощи поисковых систем

ФОРМИРОВАНИЕ ЗАПРОСА В РАСШИРЕННОМ ПОИСКЕ GOOGLE

22

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и

мето

ды

, 20

12

Операторы Буля в встроенном виде

Page 23: Поиск информации в интернете при помощи поисковых систем

ДОПОЛНИТЕЛЬНЫЕ УСЛУГИ

У многих поисковых систем имеется целый ряд дополнительных услуг и возможностей

Поиск мультимедийных файлов, перевод и тд в Google: http://www.google.ee/about/products/

Доп. услуги Google http://www.google.ee/intl/et/help/features.html

Поиск материалов, защищенных лицензией Creative Commons: http://search.creativecommons.org/

В Google – в расширенном поиске можно также указать лицензию веб-документов 23

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и м

ето

ды

, 2

01

2

Page 24: Поиск информации в интернете при помощи поисковых систем

ПОИСК ЧЕРЕЗ САЙТ CREATIVE COMMONS

24

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и

мето

ды

, 20

12

Page 25: Поиск информации в интернете при помощи поисковых систем

25

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и

мето

ды

, 20

12

Page 26: Поиск информации в интернете при помощи поисковых систем

МЕТАПОИСКОВЫЕ СИСТЕМЫ

Поисковые механизмы, которые посылают запрос пользователя другим поисковым системам и базам данных

У метапоисковых систем обычно нет собственной базы данных

Результаты запроса обьединяются, повторяющиеся материалы исключаются из списка найденных страниц.

Время, затраченное на поиск информации значительно сокращается, но ответы на запрос очень похожи и повторяются.

довольно гибкие системы, т.к. ищут информацию и в каталогах и в индексрующих системах.

26

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и

мето

ды

20

12

13

.4.2

02

3

Page 27: Поиск информации в интернете при помощи поисковых систем

СТРУКТУРА МЕТАПОИСКОВЫХ СИСТЕМ

27

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и

мето

ды

20

12

13

.4.2

02

3

Page 28: Поиск информации в интернете при помощи поисковых систем

ПРИМЕР МЕТАПОИСКОВОЙ СИСТЕМЫ

28

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и

мето

ды

, 20

12

Page 29: Поиск информации в интернете при помощи поисковых систем

КОГДА ИСПОЛЬЗОВАТЬ?

когда нужно быстро узнать, есть ли в интернете информация, касающаяся какой-нибудь специфической темы,

результаты запроса таким системам в основном общие и поверхностные

для сокращения времени поиска просматривается всего 10% результатов.

при уточнении запроса система может прийти в замешательство, поскольу у разных поисковых систем разные языки запроса

29

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и

мето

ды

20

12

13

.4.2

02

3

Page 30: Поиск информации в интернете при помощи поисковых систем

ПРИМЕРЫ

http://www.exactus.ru/ метапоиск и интеллектуальный (семантический) поиск + поиск в Википедии

http://nigma.ru/ интеллектуальная поисковая система, первая кластеризирующая и метапоисковая система в Рунете, создана при поддержке МГУ им. М. В. Ломоносова и Stanford University

http://www.dogpile.com/ http://www.ixquick.com/ (не сохраняет

информацию о пользователе) http://www.mamma.com/ http://www.webcrawler.com/

30

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и

мето

ды

20

12

13

.4.2

02

3

Page 31: Поиск информации в интернете при помощи поисковых систем

«УМНЫЕ» МЕТАПОИСКОВЫЕ МЕХАНИЗМЫ (SMART METASEARCH ENGINES) Выполняют кластерный и

лингвистический анализ результатов темы запроса, также анализ текста

Позволяют заглянуть чуть глубже в полученные результаты

Однако, ни одна из этих технологий не превосходит качество БД поисковых систем, откуда они берут информацию

Поэтому метапоиск советуется, когда нужно проводить более широкий поиск, искать общую информацию

Примеры «умных» систем: http://www.surfwax.com/, nigma.ru , http://search.yippy.com/

31

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и

мето

ды

20

12

13

.4.2

02

3

Page 32: Поиск информации в интернете при помощи поисковых систем

ТЕМАТИЧЕСКИЕ КАТАЛОГИ схожи по принципу своей работы с

традиционными бумажными каталогами Чтобы найти сайт по определенной

тематике, необходимо ознакомиться с содержанием каталога

Иерархическая система организации информации: основные рубрики (напр. Экономика, Отдых, Спорт), подтемы и тд

составляются специалистами в области информационной науки или в области конкретной тематики

все выбранные в каталог страницы заранее оценены и сравнительно релевантны 32

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и

мето

ды

20

12

13

.4.2

02

3

Page 33: Поиск информации в интернете при помощи поисковых систем

ПРИМЕР ТЕМАТИЧЕСКОГО КАТАЛОГА

33

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и

мето

ды

, 20

12

Page 34: Поиск информации в интернете при помощи поисковых систем

ТЕМАТИЧЕСКИЕ КАТАЛОГИ

Каталоги составляются на основе предложений, советов и оценок пользователей

База данных у каталогов намного меньше , чем у поисковых систем

Многие тематические каталоги оснащены поисковыми системами, которые проводят поиск вне каталога (в случае, если в базе данных каталога не было найдено достаточное количество ответов на запрос)

советуют использовать на самом первом этапе поиска информации для общего ознакомления с конкретной тематикой

34

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и

мето

ды

20

12

13

.4.2

02

3

Page 35: Поиск информации в интернете при помощи поисковых систем

КОГДА ИСПОЛЬЗОВАТЬ?

когда нужно найти качественную и предварительно оцененную специалистами информацию;

когда ищется информация на какую-либо общую, широкую тему;

когда надо уточнить какую-то тему и получить общий, систематический обзор;

в случае, если пользователь владеет некоторыми иностранными языками;

когда пользователь желает получить разумное (т.е. не очень большое) количество ответов.

Отрицательные черты: большое количество устаревшей информации и выборочность информации.

35

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и

мето

ды

20

12

13

.4.2

02

3

Page 36: Поиск информации в интернете при помощи поисковых систем

ПРИМЕРЫ

http://www.dmoz.org/ (Open Directory Project, самый популярный и обширный каталог, мультиязыковой)

http://botw.org/ (Best of the Web Directory ) http://www.stpt.com/directory/ http://dir.yahoo.com/ , http://yaca.yandex.ru/

36

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и

мето

ды

20

12

13

.4.2

02

3

Page 37: Поиск информации в интернете при помощи поисковых систем

ИНТЕРНЕТ-ПОРТАЛЫ (WEB PORTALS)

Портал – в переводе означает «двери», «ворота».

веб-сайт, предоставляющий пользователю Интернета различные интерактивные сервисы, работающие в рамках одного веб-сайта, такие как почта, поиск, погода, новости, форумы, обсуждения, голосования и т.д (iGoogle, MSN)

Горизонтальные порталы: охватывающие много тем и услуг , в т.ч. поиск — Yahoo, Яндекс;

Вертикальные порталы: специализированные тематические порталы (портал альпинистов, образовательный портал, филологический портал: http://www.philology.ru/ ) 37

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и

мето

ды

20

12

13

.4.2

02

3

Page 38: Поиск информации в интернете при помощи поисковых систем

ПРИМЕР ПОРТАЛА

38

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и

мето

ды

, 20

12

Page 39: Поиск информации в интернете при помощи поисковых систем

КАРТЫ И АТЛАСЫ В ИНТЕРНЕТЕ Атласы в интернете позволяют с легкостью

найти нужный населенный пункт или объект при помощи строки поиска

Также можно проложить маршрут из пункта А в пункт Б (на автомобиле)

http://maps.google.com/ (Возможность трехмерного просмотра Google Street View)

http://maps.yandex.ru/ (есть т.н. Народная карта, где пользователи сами добавляют места и обьекты)

http://www.bing.com/maps/ (карты NASA) http://maps.yahoo.com (использует карты Nokia) Интерактивная карта Таллинна

39

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и

мето

ды

20

12

13

.4.2

02

3

Page 40: Поиск информации в интернете при помощи поисковых систем

GOOGLE STREET VIEW ПО АДРЕСУ ТАЛЛИННСКОГО УНИВЕРСИТЕТА

40

Ин

форм

ац

ион

ны

й п

ои

ск: и

сточн

ики

и

мето

ды

, 20

12