30
Современные СУБД и статистические пакеты, рекомендуемые для работы с генетическими ресурсами растений Л.Новикова, канд. техн. наук Зав. отд. информационно-технического обеспечения ВИР им. Н.И.Вавилова Санкт-Петербург [email protected] 1

Современные СУБД и статистические пакеты, рекомендуемые для работы с

  • Upload
    majed

  • View
    77

  • Download
    1

Embed Size (px)

DESCRIPTION

Современные СУБД и статистические пакеты, рекомендуемые для работы с генетическими ресурсами растений. Л.Новикова, канд. техн. наук Зав. отд. информационно-технического обеспечения ВИР им. Н.И.Вавилова Санкт-Петербург [email protected]. СУБД. - PowerPoint PPT Presentation

Citation preview

Page 1: Современные  СУБД и  статистические пакеты,  рекомендуемые для работы с

Современные СУБД и статистические пакеты, рекомендуемые для работы с генетическими ресурсами растений

Л.Новикова, канд. техн. наук Зав. отд. информационно-технического обеспеченияВИР им. Н.И.ВавиловаСанкт-Петербург

[email protected]

1

Page 2: Современные  СУБД и  статистические пакеты,  рекомендуемые для работы с

Система управления базами данных - программное обеспечение, с помощью которого пользователи могут определять, создавать и поддерживать базу данных, а также осуществлять к ней контролируемый доступ

2

СУБДСУБД

Тип используемой СУБД определяется:типом используемой операционной системы; масштабом информационной системы: малые информационные системы могут использовать локальные СУБД (MS Excel (строго говоря, табличный процессор), MS Access, Corel Paradox, FoxPro)крупным требуется мощная клиент-серверная (или многоуровневая с использованием сервера приложений) СУБД, поддерживающая многопользовательскую работу. В настоящее время наиболее широко распространены реляционные СУБД (Oracle, MS SQL Server, MySQL, PostgreSQL). Они позволяют строить СУБД в виде системы взаимосвязанных двумерных таблиц. наблюдается тенденция к замещению локальных СУБД клиент-серверными и использующими Интернет – технологииновинка последних лет – облачные технологии

Page 3: Современные  СУБД и  статистические пакеты,  рекомендуемые для работы с

1.СУБД первого поколения – иерархические или сетевые, развивались на больших вычислительных машинах – мэйнфреймах семейства IBM-360/370 (отечественные аналоги серии ЕС, производившиеся странами СЭВ) и мини-ЭВМ типа DEC PDP-11 (у которых также был отечественный аналог — СМ-4/СМ-1420) . Для связи записей из различных файлов использовались физические указатели или адреса на диске.

2.Реляционные СУБД появились в 70-х гг., с появлением персональных компьютеров. В середине 80-х годов практически вытеснили с мирового рынка ранние СУБД и наиболее популярны сейчас. Представляют собой множество прямоугольных таблиц с данными.

3.Объектно-ориентированные СУБД хранят данные, не раскладывая их по таблицам

3

Эволюция СУБДЭволюция СУБД

Page 4: Современные  СУБД и  статистические пакеты,  рекомендуемые для работы с

 

MS AccessMS Access

4

Microsoft Access —реляционная СУБД корпорации Microsoft Среди причин популярности следует отметить: рассчитан на работу с пользователями самой различной

квалификации, в том числе начинающими

популярности достиг после включения в состав Microsoft Office богатый набор визуальных средств разработки Имеет широкий спектр функций, включая связанные запросы,

связь с внешними таблицами и базами данных Благодаря встроенному языку VBA, в самом Access можно писать

приложения, работающие с базами данных. Может быть использован в качестве клиента Microsoft SQL Server

Но: MS Access является файл-серверной СУБД и потому применима

лишь к маленьким приложениям. Отсутствует ряд механизмов, необходимых в

многопользовательских БД. Использовать защиту на уровне пользователя можно на отдельном

компьютере и при коллективной работе - в составе локальной сети.

Page 5: Современные  СУБД и  статистические пакеты,  рекомендуемые для работы с

 

ParadoxParadox

5

Paradox– персональная реляционная СУБД фирмы Corel (разработка была начата фирмой Borland).

 Особенности Paradox:простота и доступность для новичков была очень популярна в конце 80-х – начале 90-химеет сетевую версию с элементами многопользовательского режимаориентирован на корпоративных пользователей, которые работают с

автономными базами данных, а также на пользователей, работающих дома или же в малом бизнесе

Но: для баз среднего размера – плохо работает при больших объемах

данныхмногопользовательский режим не рассчитан на большое число

пользователейс покупкой Corel динамика обновления снизилась

Page 6: Современные  СУБД и  статистические пакеты,  рекомендуемые для работы с

ORACLEORACLE

Объектно-реляционная система управления базами данных компании Oracle

Кроссплатформенное ПО (Windows, Linux, Mac)

Oracle была первой коммерческой реляционной СУБД, поддерживающей ставший ныне индустриальным стандартом язык SQL

на базе Oracle следует особо отметить несколько крупных систем управления предприятием, в частности SAP/R3.

Имеет бесплатную версию Express Edition с ограниченными возможностями для небольших баз

Page 7: Современные  СУБД и  статистические пакеты,  рекомендуемые для работы с

MICROSOFT SQL SERVERMICROSOFT SQL SERVER

Система управления реляционными базами данных, разработанная корпорацией Microsoft.

Только Microsoft Windows

Для больших массивов

Имеет бесплатно распространяемую версию Microsoft SQL Server Express. Непригодна для развертывания больших баз данных.

Page 8: Современные  СУБД и  статистические пакеты,  рекомендуемые для работы с

 

PostgreSQLPostgreSQL

8

Свободная объектно-реляционная СУБД.

Одна из самых старых СУБД, адаптированных в Linux. Курирует разработку известный проф. Стоунбрейкер из Калифорнийского университета в Беркли. Была выведена за пределы университета и передана команде энтузиастов.

Кроссплатформенная (Windows, Linux, Mac)

Реляционная модель с возможностью наследования свойств объектов (кортежей).

Система многопользовательская. Клиент-сервер. Есть транзакционная защита.Отличная документация в формате Postscript. Объем достаточный.Разработана для больших баз

Page 9: Современные  СУБД и  статистические пакеты,  рекомендуемые для работы с

 

MySQLMySQL

9

Свободная реляционная система управления базами данных

Широко используется из-за удобства, простоты и многофункциональности

MySQL является собственностью компании Oracle Corporation, Распространяется под GNU General Public License или под собственной коммерческой лицензией.

MySQL является решением для малых и средних приложений.

Page 10: Современные  СУБД и  статистические пакеты,  рекомендуемые для работы с

DELPHIDELPHI

http://www.embarcadero.com/products/delphi

Быстрота разработки приложения.

Использование языка Object Pascal , одного из традиционно изучаемых в России языков программирования.

Hизкие требования разработанного приложения к ресурсам компьютера.

Hаращиваемость за счет встраивания новых компонент и инструментов в среду Delphi.

Возможность разработки новых компонент и инструментов собственными средствами Delphi (существующие компоненты и инструменты доступны в исходниках)

Удачная проработка иерархии объектов 

Возможность создавать приложения как для персональных компьютеров, так и в среде клиент/сервер.

В настоящее время Borland поддерживает все ведущие платформы: Java, Microsoft Windows, Microsoft .NET, Linux, Web-сервисы

Возможность работы с различными типами баз данных: Acsess, DBASE, Paradox, Foxpro, Oracle и др.

Page 11: Современные  СУБД и  статистические пакеты,  рекомендуемые для работы с

Visual FoxProVisual FoxProhttp://msdn.microsoft.com/ru-ru/vfoxpro/

объектно-ориентированный и процедурный язык программирования систем управления реляционными базами данных, разработанный корпорацией Microsoft

интегрирован с другими продуктами Microsoft, в частности с Microsoft SQL Server

Разработка продукта прекращена с выходом SP2 для версии 9.0, поддержка продукта MS будет осуществляться до 2015 года

В конце марта 2007 началось организовалось движение испаноязычного FoxPro-сообщества, целью которого стало написание петиции в Microsoft с предложением продолжить работу по обновлению Visual FoxPro или выпустить его в сообщество с открытым исходным кодом.

Page 12: Современные  СУБД и  статистические пакеты,  рекомендуемые для работы с

PHPPHP

Personal Home Page Tools

http://www.php.net/

скриптовый язык программирования общего назначения, интенсивно применяемый для разработки веб-приложений. В настоящее время поддерживается подавляющим большинством хостинг-провайдеров и является одним из лидеров среди языков программирования, применяющихся для создания динамических веб-сайтов

простой

богатая функциональность

кроссплатформенность

свободное программное обеспечение

Page 13: Современные  СУБД и  статистические пакеты,  рекомендуемые для работы с

За основу взят дескриптор EURISCO, трансформирован для возможности последующего внедрения в GRIN-Global. 26 полей. Например:

ДескрипторДескриптор

13

Паспортная база ГРР ВИРПаспортная база ГРР ВИР

Page 14: Современные  СУБД и  статистические пакеты,  рекомендуемые для работы с

14

ПАСПОРТНАЯ БАЗЫ ДАННЫХ ВИР ПАСПОРТНАЯ БАЗЫ ДАННЫХ ВИР http://vir.nw.ru/data/dbf_r.htmhttp://vir.nw.ru/data/dbf_r.htm

В настоящее время в Интернет представлено 223617 записей паспортных баз данных коллекции ВИР по 147 культурам. Всего в базе 11 полей. Поиск информации по 9 полям.

Карточка образца

Поисковая форма

Page 15: Современные  СУБД и  статистические пакеты,  рекомендуемые для работы с

15

ПАСПОРТНАЯ БАЗА ДАННЫХ ВИРПАСПОРТНАЯ БАЗА ДАННЫХ ВИРhttp://vir.nw.ru/data/dbf_r.htm

Пользователю предлагается:

паспортный дескриптор,

база данных географических сокращений.

Page 16: Современные  СУБД и  статистические пакеты,  рекомендуемые для работы с

ЕВРОПЕЙСКАЯ БАЗА СОИЕВРОПЕЙСКАЯ БАЗА СОИ

 На сайте ВИР размещена европейская база сои, содержащая 11915 записей, базы 11 институтов.

http://vir.nw.ru/glycine/glycin/find1.php

СУБД PostgreSQLPHP

Page 17: Современные  СУБД и  статистические пакеты,  рекомендуемые для работы с

ПРОЕКТ ПРОЕКТ GRINGRIN--GLOBALGLOBAL http://www.grin-global.org/

•Разрабатывается несколькими международными организациями и правительственными организациями США

•На основе Североамериканской системы управления ГРР GRIN•Современные технологии: работа с координатами, картами, различными СУБД, легкость

импорта-экспорта данных•Объединяет различные типы данных: паспортные, оценочные, молекулярные, данные

инвентаризации (в каких коллекциях находится образец)•1752 поля, 115 таблиц•Открытый код. бесплатное ПО: MS SQL Server, C#

Iowa State UniversitySunday, November 14, 2010Presenter: Pete Cyr

User Guide

Page 18: Современные  СУБД и  статистические пакеты,  рекомендуемые для работы с

ПРОЕКТ ПРОЕКТ GRINGRIN--GLOBALGLOBAL http://www.grin-global.org/

Page 19: Современные  СУБД и  статистические пакеты,  рекомендуемые для работы с

19

Разработан тренинг для куратора коллекции ГРР на русском языке http://ru.grin-global.org/index.php/Documentation (ссылка находится на сайте GRIN-Global, документация на сайте ВИР)

ПРОЕКТ ПРОЕКТ GRINGRIN--GLOBALGLOBALhttp://vir.nw.ru/data/dbf_r.htm Написан практикум по элементарным основам работы в системе GRIN-Global, на сайте ВИР обучающий ролик

Page 20: Современные  СУБД и  статистические пакеты,  рекомендуемые для работы с

СТАТИ

СТИЧЕСКИЕ

МЕТОДЫ

20

Page 21: Современные  СУБД и  статистические пакеты,  рекомендуемые для работы с

Ресурсы по статистикеРесурсы по статистике

1.Электронный учебник по статистике от компании StatSoft (Statistica) http://www.statsoft.ru/home/portal http://www.statsoft.ru/home/download/textbook/default.htm

2.Сайт «Биометрика» http://www.biometrica.tomsk.ru/annot1.htm

3.http://www.hr-portal.ru/tool (Statistica, SPSS)

4.Дубров А.М., Мхитарян В.С.,Трошин Л.И. Многомерные статистические методы. М. 2003

5.Боровиков В. Statistica. Искусство анализа данных на компьютере. Для профессионалов. 2-е изд. Изд-во Питер, 2003, 688 стр.

6.Халафян А.А. Statistica 6. Статистический анализ данных. М, 2010.- 528 с.

7.Резник А.Д. Книга для тех, кто не любит статистику, но вынужден ею пользоваться. Непараметрическая статистика в примерах, упражнениях и рисунках. СПб: Речь. 2008

21

Page 22: Современные  СУБД и  статистические пакеты,  рекомендуемые для работы с

MS ExcelMS Excel

22

Наиболее распространенная программа для создания оценочных и характеристических баз – табличный процессор MS Excel.

Плюс: распространенность, дружественный интерфейс, хорошая help-поддержкаМинус: не является специализированной статистической программой , некоторые зарубежные издания не признают стат. обработки в Excelограниченный набор возможностей .

MS Excel хорошо подходит для накопления данных, промежуточного преобразования, предварительных статистических прикидок, для построения некоторых видов диаграмм.

Существует макрос-дополнение XLSTAT-Pro http://www.xlstat.com для MS Excel который, включает в себя около 100 статистических функций, которых достаточно для обычного применения.

Цена: Annual licenses start as low as $50 USD for students, $165 USD for academics and $275 USD for other users

Page 23: Современные  СУБД и  статистические пакеты,  рекомендуемые для работы с

SPSSSPSS

23

SPSS (Statistical Package for Social Science).

http://www.spss.ru

традиционные пользователи - ученые, работающие в академических институтах и университетах

англоязычна я free-trial http://www.spss.com/software/statistics/

Отличается гибкостью, мощностью применим для всех видов статистических расчетов применяемых в биомедицине.

Большой выбор расстояний между бинарными переменными (Dice, Jaccard)

Русскоязычные версии (с документацией)

«SPSS 10: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей», Киев, Диасофт,  2002

Платформа: Windows, MacOSX, Linux

Цена:SPSS Named Use Base, пожизненная лицензия, электронная версия 53 900 рублей SPSS Named Use Base, подписка на 1 год 13189 рублей

Page 24: Современные  СУБД и  статистические пакеты,  рекомендуемые для работы с

STATISTICASTATISTICA

24

http://www.statsoft.com

мощный пакет компании StatSoft, более 250 встроенных функций

http://www.statsoft.com/support/free-statistica-10-trial/ Trial-версия 10,0

http://www.statsoft.ru/ Российское представительство компании предлагает полностью русифицированную 6-ю (должна выйти 9) версию программы  Высокий уровень сервиса, дружественный и интуитивно понятный интерфейс

информационная поддержка, учебник на сайте

совместимость с программами MS Offices быстрая визуализация , сотни типов 2D, 3D графиков

может быть рекомендован для биомедицинских исследований любой сложности

пакет STATISTICA/w устойчиво занимает лидирующее положение на рынке прикладного программного обеспечение

Цена: 45000р для государственных учреждений (базовая статистика + разведочный анализ)

Page 25: Современные  СУБД и  статистические пакеты,  рекомендуемые для работы с

STATGRAPHICSSTATGRAPHICS

25

http://www.statgraphics.com

Довольно мощная статистическая программа. Содержит более 250 статистических функций

Данный пакет популярен, благодаря легкости использования при большой функциональности.

Обновляется: Statgraphics Centurion XVI, was released in October of 2009Есть возможность скачать демо-версию.

Есть бесплатная online-версия для обсчета маленьких базhttp://www.statgraphics.com/statgraphics_online.htm

Цена: $1,495/$1,795

Минус: Англоязычнаяограниченный объем переменных для анализа (64 в кластерном)Некоторые виды анализа не работают с пропусками в данных

sgwin.exe.lnk

Page 26: Современные  СУБД и  статистические пакеты,  рекомендуемые для работы с

Движение «Свободное Программное Обеспечение» (Free software movement)

Four basic freedoms: the freedom to run it, to study and change it, and to redistribute copies with or without changes

R использует в основном командный интерфейс, однако для наиболее популярных приложений создан графический интерфейс

Dap свободное замещение SAS PSPP свободное замещение программы SPSS SOFA Statistics (Statistics Open For All). Графический интерфейс (Microsoft

Windows, Ubuntu, Linux Mint, and Mac OS X (Leopard and Snow Leopard))

Английский язык Интерфейс командной строкой

требует специальной подготовки

26

Статистические продукты Статистические продукты GNU Project GNU Project

Page 27: Современные  СУБД и  статистические пакеты,  рекомендуемые для работы с

STRUCTUREDARwinNTSysARLEQUIN v3.5 BEASTFSTAT 2.9.3GENEPOP v4.0MrBayesMSVAR v1.3PhyML 3.0Network 4.201

 

Специализированные программы и Специализированные программы и методы обработки результатов методы обработки результатов молекулярных исследованиймолекулярных исследований

27

Page 28: Современные  СУБД и  статистические пакеты,  рекомендуемые для работы с

Программа Программа NTSysNTSys

28

Numerical Taxonomy System http://www.exetersoftware.com/cat/ntsyspc/

ntsyspc.html Позволяет работать с генетическими и

фенетическими данными и сравнивать их. Обрабатывает пропуски

Есть учебник Windows Минус: низкий сервис.

Цена: $350 ($250 for educational and governmental institutions).

Mantel t-test для сравнения расстояний между образцами по различным характеристикам: близости результатов генетического и фенетического, географического изучения

 Matrix correlation: r = 0.48

Page 29: Современные  СУБД и  статистические пакеты,  рекомендуемые для работы с

Программа Программа DARwinDARwin

29

http://darwin.cirad.fr/darwin/Download.php

Предназначен для обработки генетической информации.

Широкий диапазон возможностей для определения генетических расстояний между образцами, кластерный анализ с бутстреп-оценкой, факторный анализ, позволяет работать с цветом.

Современные методы кластеризации дли определения филогенетических связей - Neighbor Joining

Распространяется бесплатно

Минусы: низкий уровень интерфейса

Page 30: Современные  СУБД и  статистические пакеты,  рекомендуемые для работы с

СПАСИБО

СПАСИБО

ЗА В

НИМАНИЕ

ЗА В

НИМАНИЕ

30