39

Физика в Яндексе: опыт сотрудничества с ЦЕРНом

Embed Size (px)

Citation preview

Физика в Яндексе -опыт сотрудничества сЦЕРНом

Никита Казеев

Яндекс

Нерешенныепроблемы физики

Преобладание материи надантиматерией

› Почти вся наблюдаемаяВселенная состоит изматерии

› Большинство законовCP-инвариантны

Иллюстрация: http://thesciencenewss.blogspot.ru/2012/03/atom-of-antimatter-was-measured-for.html 4

Тёмная материя

› Наблюдаемыегравитационные эффекты несогласуются с наблюдаемымво Вселенной количествомматерии.

› Предположительно, этостабильные, массивные,электрически нейтральныечастицы.

Иллюстрация: http://naukas.com/2011/06/07/confirmada-la-existencia-de-energia-oscura/ 5

Масса нейтрино

› Нейтрино осциллируют,следовательно массивны(Нобелевская премия 2015)

› Являются ли онимайорановскимифермионами?

› Существуют ли стерильныенейтрино?

Иллюстрация: Нобелевский комитет 6

ЦЕРН

ЦЕРН - уникальная организация

› Крупнейшая в мирелаборатория по физикечастиц

› Институты из более 100стран

› Дипломатический иммунитету сотрудников (не у меня)

› Лучшая столовая из всех, гдея бывал

Фотография: http://www.mapio.cz/a/55438126/?page=3 8

LHCb - вчера исполнилось 20 лет

Никита Казеев 10

LHCb

Никита Казеев 11

Физика в LHCb

Никита Казеев 12

Физика в LHCb

LHCb is a dedicated b and c - physics precision experiment at theLHC that will search for New Physics (NP) beyond the StandardModel (SM) through the study of very rare decays of charm andbeauty - flavoured hadrons and precision measurements of CP -violating observables.

”B physics at LHCb” Monica Pepe Altarelli and Frederic Teubert

Никита Казеев 13

Анализ - отколлайдера к статье

Идея анализа

1. Выбрать распад для изучения

2. Теоретически оценить его вероятность в рамках Стандартноймодели

3. Посчитать его частоту в коллайдере

4. Принять или отвергнуть гипотезу, что они одинаковы

Никита Казеев 15

Раньше

Данные Анализ данных

Иллюстрации: Fermilab 16

Схема анализа

Детектор Ферма GRID

Workstation

107

cобытий/с103-104

cобытий/с Хранит1011 в Run 1

Триггеры

Селекция Анализ

Никита Казеев 18

Машинное обучение

› Идея: построить модель, описывающую данные

› Проблема: сложные модели сложно найти, рассчитать,применить к данным и проверить (Вы пробовали решитьуравнение Шредингера для 100 частиц? Как Вы будетепроверять результат такого расчёта? Какому законуподчиняются клики в поиске Яндекса?)

› Выход: взять класс моделей, априори не имеющих отношенияк реальности, но достаточно гибких, чтобы описыватьтребуемые характеристики, но при этом удобных для расчёта.Простейший пример: сплайны.

Никита Казеев 19

Машинное обучение

› Идея: построить модель, описывающую данные

› Проблема: сложные модели сложно найти, рассчитать,применить к данным и проверить (Вы пробовали решитьуравнение Шредингера для 100 частиц? Как Вы будетепроверять результат такого расчёта? Какому законуподчиняются клики в поиске Яндекса?)

› Выход: взять класс моделей, априори не имеющих отношенияк реальности, но достаточно гибких, чтобы описыватьтребуемые характеристики, но при этом удобных для расчёта.Простейший пример: сплайны.

Никита Казеев 19

Машинное обучение

› Идея: построить модель, описывающую данные

› Проблема: сложные модели сложно найти, рассчитать,применить к данным и проверить (Вы пробовали решитьуравнение Шредингера для 100 частиц? Как Вы будетепроверять результат такого расчёта? Какому законуподчиняются клики в поиске Яндекса?)

› Выход: взять класс моделей, априори не имеющих отношенияк реальности, но достаточно гибких, чтобы описыватьтребуемые характеристики, но при этом удобных для расчёта.Простейший пример: сплайны.

Никита Казеев 19

Машинное обучение в анализе

Детектор Ферма GRID

Workstation

107

cобытий/с103-104

cобытий/с Хранит1011 в Run 1

Триггеры ML

Селекция ML Анализ ML

Никита Казеев 20

Яндекс

CERN mission

Established by a convention in 1954, the mission of CERN has fourstrands:

› Research. Seeking and finding answers to questions about theuniverse.

› Technology. Advancing the frontiers of technology.

› Collaborating. Bringing nations together through science.

› Education. Training the scientists of tomorrow.

Никита Казеев 22

Миссия Яндекса (выдержка)› Яндекс — технологическая компания. В основе нашихсервисов лежат сложные, уникальные, трудновоспроизводимые технологии. Именно они позволяют намделать то, что еще некоторое время назад люди приняли бы заволшебство.

› Наука. Нам удалось собрать команду специалистов во многихобластях науки — в математике, анализе данных,программировании, лингвистике и других дисциплинах.Вычислительные возможности и алгоритмы Яндексаиспользуют и наши партнеры для проведения своих научныхисследований — например, в области ядерных исследованийи геологоразведки.

Никита Казеев 23

Tier 2 GRID site

Иллюстрация: https://sciencenode.org/visualization/big-data-big-grid.php 24

Топологический триггер

› Отбирает всевозможныераспады b-адрона.

› Использовался в 60%публикаций по Run 1.

› Эффективность - процентнужных событий, которыйбудет отобран триггером.

Никита Казеев 25

Эффективность с MatrixNet

1 2 3 4 5 60

10

20

30

40

50

60

70

80

90

Run-I (Before optimization) MatrixNet

Никита Казеев 26

𝜏− → 𝜇−𝜇+𝜇−

› Распад нарушает сохранение лептонного аромата

› Не нашли: 𝑝 < 4.6 ⋅ 10−8, 90% значимость.

› Использовали MatrixNet в составе иерархии классификаторов(+6%)

Published: JHEP 02 (2015) 121 27

Оптимизация хранения данных

› Данные можно хранить на жестких дисках (дорого и быстро) имагнитных кассетах (дёшево и медленно)

› Мы использовали машинное обучение, чтобы предсказать,какие файлы не буду востребованы.

› Экономит около 40% данных LHCb, из них ошибочно около1% файлов.

Никита Казеев 28

Event Index - поиск по событиям

› Быстрый (15-60с) поиск по высокоуровневым критериям по1010 событиям.

› Построение гистограмм по высокоуровневым переменным.

› Интегрированная визуализация событий by ChristophLangenbruch.

› Построен на технологиях с открытым кодом (Apache Lucene).

Никита Казеев 31

Поиск аномалий в работе детектора

› В ближайших планах

› Проблема: части детектора выходят из строя

› Сейчас люди 24/7 смотрят на гистограммы

› Хотим сделать автоматический поиск

Никита Казеев 32

CRAYFIS

› Детектор космических лучей,построенный из смартфонов

› На стадии тестированияидеи

› Чтобы сравняться с PierreAuger Observatory,необходима плотностьустройств 400/км2 наплощади 3000 км2

Иллюстрация: http://www.scifun.ed.ac.uk/card/images/left/cosmic-rays.jpg 33

Образование

› Summer school on Machine Learning in High Energy Physicshttp://www.hse.ru/mlhep2015/

› 𝜏− → 𝜇−𝜇+𝜇− соревнование на Kaggle.https://www.kaggle.com/c/flavours-of-physics

› School in Imperial College Londonhttps://github.com/arogozhnikov/YSDA_ICL

Никита Казеев 34

Образование - приглашаем

› Machine Learning for the LHC Distributed Data Placement andTrack Finding 7.12.15-9.12.15, Kurchatov Institutehttps://indico.cern.ch/event/452159/

› ALEPH Workshop @ NIPS 2015 7.12.15-12.12.15, Montrealhttps://yandexdataschool.github.io/aleph2015/

› Flavours of Physics; Machine Learning workshop, February 2016,University of Zurichhttps://indico.cern.ch/event/433556 (page WiP)

› Summer school on Machine Learning in High Energy Physics,Summer 2016, somewhere in Europe

Никита Казеев 35

Заключение

› Современная фундаментальная физика немыслима безкомпьютеризированного анализа данных.

› ШАДу это интересно, а Вам?

› Мы с радостью рассмотрим расширение сферы деятельностиза пределы физики в ЦЕРНе.

Никита Казеев 36

КонтактыНикита Казеев

[email protected]

37