Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache Spark"

Пайплайн машинного обучения наApache Spark

A long time ago in a galaxy far, far away

Отдел машинного обучения AdTech 1/40


Поставку данных сложномониторить и отлаживать



Со стримингом сложновообще все...



Со стримингом сложно вообще все...

INSERT OVERWRITE TABLE predictSELECT TRANSFORM(line)FROM features_tableUSING 'umworld_caller.py apply -f model.vw'AS ruid, label, probability;




Мониторить тоже сложно


Joblocker


Интерфейс мониторинга


Программироватьнепросто


+ Эксперименты в Jupyter notebook ипродакшен код разделены

+ Отлаживать стриминг очень сложно+ Трейны готовятся на лету, поэтомуэкспериментировать с новыми фичамидолго

+ Тесты написать практически невозможно+ Деплоить код на кластер непросто(внешние библиотеки)


Наше решение

+ Kafka+ Camus+ Spark+ Hive+ Airflow+ Graphite

+ Aerospike+ Jenkins+ Slack+ XGBoost+ Vowpal Wabbit+ Keras


Новая архитектура


Кафка + мониторинг


Так почему Spark?


Speed

Run programs up to 100xfaster than Hadoop

MapReduce in memory, or10x faster on disk


Ease of use

text_file = spark.textFile("hdfs://...")

text_file.flatMap(lambda line: line.split()).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a+b)


Generality


Runs everywhere


Витрина фич

+ Разнести обучение и напил фич+ Фичи пилятся независимо (если что-тоупало, остальное работает)

+ Эксперимент: просто набираешь фич какв магазине


Витрина фич


ML. Мы поддержали интерфейс spark.ml и sklearn

from pyspark.ml.pipeline import Transformer

class BaseTransformer(Transformer):def __init__(self, day=None)def fit(self, df)def _transform(self, df)def load(self, timestamp)def save(self, timestamp)


Зачем нужны load и save?

+ Есть трансформеры, состояние которыхнадо сохранять (напр. LDA)

+ Pyspark поддерживает сериализациютолько pickle

+ Кастомная сериализация позволяетподдержать версионирование витриныфич


Как выглядит обучение?

class SparkXGBoostClassifier(SparkSklearnClassifier):def _fit(self, X_train, y_train, weight_train,

X_validate, y_validate, weight_validate):

xgb_options = self.model.get_xgb_params()n_classes = len(np.unique(y_train)...self.model.fit(X_train, y_train, **fit_params)


Сериализация модели - боль

+ XGBoost сериализуется из коробки+ Vowpal Wabbit сериализуется черезуникальный :) механизм записи бинарноймодели в байтовый массив


Как выглядит применение?

class SparkXGBoostClassifier(SparkSklearnClassifier):def predict_proba(self, df):

rdd = df.map(self._create_dataset)df = rdd.toDF()[['uid', 'feature']]v_model = df._sc.broadcast(self.model)res = df.rdd.mapPartitionsWithIndex(

partial(apply_model, v_model=v_model))return res


В Airflow все видно


В Airflow все видно


Timing (100 executors: 8gb, 2 vcores)

Подзадача Время вычисленийData load and merge 0:08:49Conversion to Pandas 0:07:43Local fit 0:01:44Evaluation 0:04:44Apply 0:46:07Transform to class 0:02:24Total 1:13:05


А деплой в Jenkins


А Jenkins пишет в Slack


И Airflow тоже


В сухом остатке

- C Airflow постоянно возникают проблемы- Python API Spark отстает от Scala API- Python API заметно медленней внекоторых задачах (конвертацияобъектов)

- Частые проблемы с сериализациейобъектов

- Требуется время на подбор ресурсовSpark-задач



- Spark не поддерживает бакеты Hive- Память драйвера инициализируетсятолько через конфиг

- Большой Spark DataFrame можносохранить локально только через HDFS

- При чтении из Hive число партиций Sparkопределяется числом бакетов

- persist - неявный сборщик мусора?



+ Единая шина данных (Kafka)+ Единый мониторинг для всего (Graphite)+ Удобный и красивый интерфейсмониторинга (Grafana + Airflow)

+ Удобный workflow-менеджер с мощнымвизуальным интерфейсом (Airflow)

+ Витрина фич+ Эксперименты и продакшен в Jupyternotebook



+ Число и скорость проведенияэкспериментов возросли значительно

+ Простое и удобное тестирование(текущее покрытие кода 60%)

+ Простая и удобная отладка (Airflow +Sentry)

+ Деплой одной кнопкой (Jenkins +SaltStack)

+ Своевременные оповещения опроблемах (Airflow + Jenkins + Slack)


Вопросы?


Data & Analytics

Data Science Week 2016. Rambler & Co. "Пайплайн машинного обучения на Apache Spark"