25
Методы и средства обработки информации, 6 октября 2009 г. Перспективы развития технологий управления данными С.Д. Кузнецов [email protected] Институт системного программирования РАН

Перспективы развития технологий управления данными

  • Upload
    leal

  • View
    53

  • Download
    0

Embed Size (px)

DESCRIPTION

Перспективы развития технологий управления данными. С.Д. Кузнецов [email protected] Институт системного программирования РАН. Методы и средства обработки информации, 6 октября 2009 г. План доклада. Недавняя предыстория MapReduce и параллельные системы баз данных - PowerPoint PPT Presentation

Citation preview

Page 1: Перспективы развития технологий управления данными

Методы и средства обработки информации, 6 октября 2009 г.

Перспективы развития технологий управления данными

С.Д. Кузнецов[email protected] Институт системного программирования РАН

Page 2: Перспективы развития технологий управления данными

2Методы и средства обработки информации, 6 октября 2009 г.

План доклада

Недавняя предыстория MapReduce и параллельные системы

баз данных Cloud Computing и новая архитектура

СУБД «Большие» данные Новый взгляд на место аналитиков в

системе баз данных Научные базы данных и проект SciDB

Page 3: Перспективы развития технологий управления данными

3Методы и средства обработки информации, 6 октября 2009 г.

Недавняя предыстория (1)

Один размер не пригоден для всех Статьи из окружения Майкла Стоунбрейкера (2007

г.) «One Size Fits All»: An Idea Whose Time Has Come and

Gone, http://citforum.ru/database/articles/one_size_fits_all/ One Size Fits All? – Part 2: Benchmarking Results,

http://citforum.ru/database/articles/one_size_fits_all_2/ The End of an Architectural Era (It's Time for a

Complete Rewrite), http://citforum.ru/database/articles/end_of_arch_era/

Моя статья «Универсальность и специализация: время разбивать камни?», http://citforum.ru/database/articles/time_to_break_stones/

Page 4: Перспективы развития технологий управления данными

4Методы и средства обработки информации, 6 октября 2009 г.

Недавняя предыстория (2)

Архитектура современных SQL-ориентированных СУБД появилась более 30 лет тому назад, когда рынок систем управления данными был единым, не фрагментированным на специализированные секторы

СУБД вынужденно делались «безразмерными», пригодными для использования в любой области приложений баз данных

Эта «безразмерность» присутствует сегодня в продуктах основных поставщиков

Плюсами основных SQL-ориентированных СУБД является надежность и общая высокая производительность

Минусы – сложность, объемность и высокие накладные расходы, свойственные универсальности

Page 5: Перспективы развития технологий управления данными

5Методы и средства обработки информации, 6 октября 2009 г.

Недавняя предыстория (3)

За прошедшие 30 с лишним лет рынок систем управления данными сильно фрагментировался

Стали известными большие секторы рынка, для которых очень существенна высокая производительность приложений, которая не достигается или достигается с недопустимо большими затратами при использовании «безразмерных» СУБД

Экономически целесообразной стала разработка специализированных систем, которые ориентируются на эффективную поддержку заранее известных сценариев использования

В связи с быстро меняющимися требованиями рынка успешными могут быть только такие новые продукты, которые можно вывести на рынок достаточно быстро – через год или два после начала разработки

Page 6: Перспективы развития технологий управления данными

6Методы и средства обработки информации, 6 октября 2009 г.

Недавняя предыстория (4)

На основе исследований и разработок, выполненных в ряде университетов США, была создана компания и промышленная система StreamBase, которая была хорошо принята финансовыми компаниями с Уолл-Стрит

Следующая попытка Стоунбрейкера состояла в создании нового SQL-ориентированного средства поддержки хранилищ данных с хранением данных по столбцам

Созданная компания и промышленная система Vertica основывается на предыдущих университетских исследованиях и разработках, которые, в свою очередь, опираются на многолетние работы других исследователей

В некоторых сценариях использования приложение, основанное на использовании Vertica, демонстрирует производительность, на два порядка более высокую, чем при использовании «безразмерной» коммерческой СУБД

Page 7: Перспективы развития технологий управления данными

7Методы и средства обработки информации, 6 октября 2009 г.

Недавняя предыстория (5)

Университетский проект H-Store демонстрирует превосходство над «безразмерной» коммерческой СУБД почти на два порядка на эталонном тестовом наборе TPC-C (OLTP!)

Экспериментальная система ASAP, ориентированная на поддержку научных баз данных

Имелся (и имеется) ряд сомнений относительно того, что они, как это предсказывает Стоунбрейкер, приведут к новой революции в области баз данных

Page 8: Перспективы развития технологий управления данными

8Методы и средства обработки информации, 6 октября 2009 г.

Недавняя предыстория (6)

Клермонтский отчет (2008 г.) The Claremont Report on Database Research,

http://www.citforum.ru/database/articles/claremont_report/ Вслед за отчетами:

Лагуна Бич, 1988 г. : Будущие направления исследований в области баз данных: десять лет спустя, http://www.citforum.ru/database/articles/future_01.shtml

Пало-Альто, 1990 г.: http://infolab.stanford.edu/~hector/lagi.ps Пало-Альто, 1995 г.: Базы данных: достижения и

перспективы на пороге 21-го столетия, http://citforum.ru/database/classics/nfs_report/

Кембридж, шт. Массачусетс, 1996 г.: Стратегические направления в системах баз данных, http://citforum.ru/database/classics/nsf_report2/

Асиломар, 1998 г.: http://citforum.ru/database/digest/asil_01.shtml

Лоуэлл, шт. Массачусетс, 2003 г.: Крупные проблемы и текущие задачи исследований в области баз данных, http://www.citforum.ru/database/articles/problems/

Page 9: Перспективы развития технологий управления данными

9Методы и средства обработки информации, 6 октября 2009 г.

Недавняя предыстория (7)

Пересмотр архитектуры серверов баз данных разработка систем для кластеров многоядерных процессоров, в

которых имеется ограниченный и неоднородный доступ к памяти вне кристалла;

использование удаленной основной и флэш-памяти в качестве среды персистентного хранения данных в дополнение к памяти на магнитных дисках;

Гоц Грейф. Правило пяти минут двадцать лет спустя, и как флэш-память изменяет правила. http://citforum.ru/database/articles/five_minute_rule/

разработка унифицированного подхода к постоянно выполняемой адаптации и самонастройке оптимизации запросов и физических структур хранения данных;

сжатие и шифрование данных на уровне хранения, интегрированное со структурой хранения и оптимизацией запросов;

разработка систем, опирающихся на нереляционные модели данных, вместо того, чтобы «впихивать» эти данные в таблицы;

нахождение компромиссов между согласованностью и доступностью для достижения лучшей производительности и масштабности уровня тысяч машин;

разработка СУБД, учитывающих потребление энергии, которые ограничивают энергопотребление без ущерба для масштабируемости

Page 10: Перспективы развития технологий управления данными

10

Методы и средства обработки информации, 6 октября 2009 г.

Недавняя предыстория (8)

Декларативное программирование для новых платформ

Map-Reduce Datalog Ruby on Rails, LINQ XQuery

Взаимосвязь структурированных и неструктурированных данных

переход от управления традиционными базами данных к намного более сложной задаче управления обширными коллекциями структурированных, полуструктурированных и неструктурированных данных, распределенных по многих репозиториям предприятий и Web

пространства данных От баз данных к пространствам данных: новая абстракция

управления информацией, http://www.citforum.ru/database/articles/from_db_to_ds/

Page 11: Перспективы развития технологий управления данными

11

Методы и средства обработки информации, 6 октября 2009 г.

Недавняя предыстория (9)

Облачные службы данных В облачных средах особенно важным качеством является

управляемость Потребность в управляемости делает более срочной разработку

технологий самоуправления баз данных, которые исследовались в последнее десятилетие

Отдельной проблемой является абсолютный масштаб облачного компьютинга

Сегодняшние SQL-ориентированные системы баз данных просто не могут масштабироваться на тысячи узлов при размещении в облачном контексте

При совместном использовании физических ресурсов в облачной инфраструктуре требуется обеспечение безопасности и конфиденциальности данных, которые не могут гарантироваться за счет наличия физического разграничения машин или сетей

Следовательно, облачные сервисы обеспечивают плодородную почву для усилий по объединению и ускорению исследований, выполняемых сообществом баз данных в этих областях

Page 12: Перспективы развития технологий управления данными

12

Методы и средства обработки информации, 6 октября 2009 г.

MapReduce и параллельные системы баз данных (1)

Майкл Стоунбрейкер и др. (2009 г.) A Comparison of Approaches to Large-Scale Data

Analysis, http://citforum.ru/database/articles/mr_vs_dbms/

До поры до времени представители старшего и среднего поколений сообщества баз данных ограничивались ворчанием в адрес MapReduce

Ворчание «стариков» больше других ворчали Майкл Стоунбрейкер и

Дэвид Девитт выразилось в инициировании ими чрезвычайно

интересного проекта по практическому сравнению технологии MapReduce с технологиями параллельных СУБД категории sharing nothing

Page 13: Перспективы развития технологий управления данными

13

Методы и средства обработки информации, 6 октября 2009 г.

MapReduce и параллельные системы баз данных (2)

Статья написана предельно объективно В ней подчеркивается ряд достоинств

MapReduce Некоторые из них кажутся мне сомнительными

например, то, что написание явного кода приложений оказывается проще использования функционально эквивалентных конструкций SQL

но это уже вопросы вкуса Но основной итог статьи состоит в том, что на

простых аналитических задачах параллельные СУБД просто кладут на лопатки Hadoop

И авторы показывают, что здесь дело совсем не в убогости этой реализации (хотя и отмечаются пути ее совершенствования), а в архитектурных недостатках MapReduce

Page 14: Перспективы развития технологий управления данными

14

Методы и средства обработки информации, 6 октября 2009 г.

Cloud Computing и новая архитектура СУБД (1)

Даниела Флореску, Дональд Коссман (2009 г.) Rethinking Cost and Performance of Database

Systems, http://citforum.ru/database/articles/rethinking/

Предлагаеся начать с критериев, на которые должна опираться архитектура "облачных" систем управления данными

В качестве основного такого критерия они выставляют минимизацию расходов при заданных требованиях к производительности приложений баз данных

Для сервис-ориентированной архитектуры, на которую опирается cloud computing в целом, это очень естественно

Page 15: Перспективы развития технологий управления данными

15

Методы и средства обработки информации, 6 октября 2009 г.

Cloud Computing и новая архитектура СУБД (2)

Традиционная архитектура Новая архитектура

Page 16: Перспективы развития технологий управления данными

16

Методы и средства обработки информации, 6 октября 2009 г.

Cloud Computing и новая архитектура СУБД (3)

Статья написана очень последовательно и логично Несколько смущает сходство предлагаемой архитектуры

приложений баз данных с архитектурами файл-серверных СУБД Amazon S3 выполняет роль файл-сервера, а вынесение службы

запросов и других функций СУБД на уровень приложения до боли напоминает организацию, например, Informix SE.

Некоторые сомнения вызывает передача по Internet от узлов Amazon S3 в узлы серверов приложений, как минимум, XML-документов целиком (а может быть, и коллекций XML-документов)

Непонятно, как при этом удается гарантировать, что время ответа на запрос не превышает заданные ограничения (если, конечно, не считать, что пользователи могут спокойно подождать и несколько минут).

Не уверен, что разработчики приложений придут в полный восторг от необходимости использования XQuery не только для запросов XML-данных, но и для написания логики приложений

На месте разработчиков я бы, пожалуй, предпочел использовать для программирования что-нибудь более привычное

Page 17: Перспективы развития технологий управления данными

17

Методы и средства обработки информации, 6 октября 2009 г.

«Большие» данные (1)

Адам Якобс (2009) The Pathologies of Big Data,

http://citforum.ru/database/articles/pathology/ Эффектный пример аналитического приложения с фиктивными

данными "всемирной переписи« Автор убедительно демонстрирует, что для опытного

программиста создание эффективно работающего кода такого приложения не составляет труда

Далее он хочет показать, что современные SQL-ориентированные СУБД с этой задачей не справляются, и выбирает в качестве жертвы PostgreSQL

Он утверждает, что запрос с группировкой по всем трем столбцам таблицы с миллиардом строк и тремя столбцами (общим объемом в 40 гигабайт) на машине с 20 гигабайтами основной памяти эта система выполняла в течение суток

По его мнению, основной проблемой является то, что система выполняла запрос с использованием предварительной полной сортировки этой таблицы

Page 18: Перспективы развития технологий управления данными

18

Методы и средства обработки информации, 6 октября 2009 г.

«Большие» данные (2)

Большие данные следует понимать как «данные, размер которых вынуждает нас выходить за пределы проверенных временем методов, широко распространенных в данное время»

В начале 1980-х имелся набор данных, который был настолько крупным, что для установки и снятия тысяч магнитных лент требовалась роботизированная «ленточная обезьяна» («tape monkey»)

В 1990-е гг., вероятно, имелись данные, размер которых не укладывался в ограничения Microsoft Excel и настольных персональных компьютеров, и для их анализа требовалось серьезное программное обеспечение на рабочих станциях с Unix

Теперь этот термин может означать данные, являющиеся слишком большими, чтобы можно было размещать их в реляционной базе данных и анализировать с помощью настольных пакетов статистики/визуализации, данные. В любом случае, по мере того как в повседневную практику будет входить анализ наборов данных все большего размера, это определение будет продолжать изменяться

Но одно останется неизменным: успеха на переднем крае будут добиваться те разработчики, которые не ограничиваются стандартными, типовыми методами и понимают истинную природу аппаратных ресурсов и все многообразие доступных им алгоритмов

Page 19: Перспективы развития технологий управления данными

19

Методы и средства обработки информации, 6 октября 2009 г.

Новый взгляд на место аналитиков в системе баз данных (1)

Джозеф Хеллерстейн и др. (2009 г.) MAD Skills: New Analysis Practices for Big Data,

http://db.cs.berkeley.edu/jmh/papers/madskills-032009.pdf На русском пока нет Новые приемы магнетичного, основательного,

гибкого анализа данных (Magnetic, Agile, Deep (MAD) data analysis)

как радикального отхода от корпоративных хранилищ данных (Enterprise Data Warehouses) и интеллектуального анализа данных (Business Intelligence)

Система Greenplum Database Fox Audience Network – рекламная сеть

Page 20: Перспективы развития технологий управления данными

20

Методы и средства обработки информации, 6 октября 2009 г.

Новый взгляд на место аналитиков в системе баз данных (2)

Во многих ситуациях продолжает применяться ортодоксальный подход EWD, но ряд факторов способствует продвижению совсем другой философии управления крупномасштабными данными на предприятиях

Небольшие подразделения предприятия могут разработать изолированную базу данных астрономического масштаба в пределах своего собственного бюджета

Число внутрикорпоративных крупномасштабных источников данных значительно возрастает

Общепризнанной стала значимость анализа данных, и многочисленные компании демонстрируют, что сложный анализ данных способствует сокращению расходов и даже прямому росту доходов

Page 21: Перспективы развития технологий управления данными

21

Методы и средства обработки информации, 6 октября 2009 г.

Новый взгляд на место аналитиков в системе баз данных (3)

Магнетичность сегодняшнее хранилище данных может идти в

ногу с аналитическими потребностями организации только будучи магнетичным, притягивая все источники данных, появляющиеся в организации, независимо от их качества

Гибкость Требуется база данных, логическое и

физическое содержимое которой может постоянно и быстро изменяться

Основательность Современное хранилище данных должно

служить и основательным (глубоким) репозиторием данных, и механизмом поддержки выполнения сложных алгоритмов

Page 22: Перспективы развития технологий управления данными

22

Методы и средства обработки информации, 6 октября 2009 г.

Научные базы данных и проект SciDB (1)

Майкл Стоунбрейкер и др. (2009 г.) Requirements for Science Data Bases and

SciDB, http://www-db.cs.wisc.edu/cidr/cidr2009/Paper_26.pdf

A Demonstration of SciDB: A Science-Oriented DBMS, http://scidb.org/Documents/SciDB-VLDB09-paper.pdf

http://scidb.org Главные проектировщики: Дэвид Девитт, Дэвид

Майер, Майкл Стоунбрейкер, Дженифер Вайдом, Стенли Здоник и др.

Российские разработчики: Павел Велихов, Роман Симаков и др.

Page 23: Перспективы развития технологий управления данными

23

Методы и средства обработки информации, 6 октября 2009 г.

Научные базы данных и проект SciDB (2)

Модель данных вложенных многомерных массивов

Ориентированные на научные расчеты примитивные операции, такие как смещение координатной сетки

Поддержка информации об источниках данных

Возможность обработки данных без их загрузки в базу данных

Именованные версии Поддержка неточных данных

Page 24: Перспективы развития технологий управления данными

24

Методы и средства обработки информации, 6 октября 2009 г.

Научные базы данных и проект SciDB (3)

Проект рассчитан на два года Разрабатывается на основе подхода

open source Источники финансирования туманны Сейчас спонсорами являются eBay,

Vertica, MicroArts Старшие руководители надеются на

поддержку NSF Будет ли помогать Россия?

Page 25: Перспективы развития технологий управления данными

25

Методы и средства обработки информации, 6 октября 2009 г.

Заключение

Хотим мы или не хотим, создается новый мир баз данных

Сменит ли он старый мир, или они будут сосуществовать, пока неясно

Посмотрим, что будет после конца кризиса