Upload
-
View
203
Download
0
Embed Size (px)
Citation preview
Облачная система интеллектуального анализа данных
Вязьмина А.Н.*, Жилин С.И.*,Киргизов С.С.**, Ледомский П.А.*,
Мусиенко Н.П.*, Нуждин П.В.*,Пятков В.Д.*
* Алтайский Государственный Университет, Барнаул, Россия** Университет Пьера и Мари Кюри, Париж, Франция
Декабрь 2012г. Санкт-Петербург
«НЕДЕЛЯ НАУКИ СПбГПУ»3-8 декабря 2012 года
2
Формулировка проблемы
• Потребность в интеллектуальной обработке данных:– бизнес аналитика;– финансовая аналитика;– наука (медицина, гномика, биология).
• Аппаратная и программная поддержка:– наличие ресурсов у конкретного аналитика;– обработка больших объёмов данных;– обмен результатами анализа.
3
Потоковая модель представления сценария используется в продуктах: RapidMiner, KNIME, Weka, Taverna и др.
Интерфейс и потоковая модель
5
Функциональные требования
• Проектирования сценария анализа данных в виде графа.
• Параллельное вычисление сценария.• Интеграции библиотек решения задач большого
объёма данных.• Групповая работа.• Расширение функционала сервиса
пользовательскимипрограммамиобработки данных.
6
Функциональные требования
• Обработка данных на любом оборудовании из любой точки мира.
• Хранение и обработка данных предоставленных пользователем
Service
7
Устройство
Client side Core
Strorage Calculation Manager
Calculation Server
Server side
HTML5
HTTP(Rest) HTTP(Rest)
HTTP(Rest)
HTTP(Rest)
HTTP(Rest)
Socket
Calculation Node
Hadoop
8
Веб-интерфейс
Сценарий
Список программ
Список сценариев
Выполнение
Core
9
Calculation Manager
Планировщик потокового сценария
Направление потока вычислений
http
http http
httphtt
p
10
Подсистема вычисления
Sockets
R ВычислителиScala Вычислители
Python ВычислителиJava Вычислители
http http(задача) (статус решения)
Calculation Server
Strorage
11
Хранение данных
• Бинарные данные с возможностью произвольного доступа.
• Табличные данные с объявленной структурой с возможностью быстрого доступа к записи по порядковому номеру.
FS
Binary Data
Data Table
Binary Data(Spec)
Binary Data(Data Table)
12
Пример решения задачи
Набор данных Iris
Набор данных Iris
Расширение функциональностиpublic class CustomNode extends TemplateLocal {
@Override public Properties makeProperties() {…}@Override
public Ports makePorts() {…}@Overridepublic TaskPropertyNotValidEx validateProperty(name, property) {…}
@Override
public TaskConnectionNotValidEx validateConnection(connection, workflow) {…}@Override
public Status calculate(Properties properties,
Map<String, DataReadable> dataByProperty,
Map<String, DataTableReadable> inputData,
Map<String, ModelReadable> inputModel,
Map<String, DataTableWritable> outputData,
Map<String, ModelWritable> outputModel,
StatusCalculating status) {…}}
<root><mainClass>
my.namespace.CustomNode</mainClass>
</root>
13
ModuleMetaData.xmlCustomNode.java
14
Результаты и перспективы
• Поддержка любых устройств в любой точке мира.
• Открытое API для доступа к сервису.• Предоставление доступа к данным любому
пользователю.• Простое потоковое представление сценария.• Возможность расширения функциональными
модулями на любом популярном языке (Java, R, Python).
15
Спасибо за внимание[email protected]