11

Сергей Шельпук-«Эффективный поиск похожих объектов на больших данных при помощи офисного ноутбука»

Download PPTX Report

Upload
tanya-denisyuk
View
7.037
Download
2

Embed Size (px)

Citation preview

Efficient Similarity Search on Big Datawith office laptopSergii ShelpukHead of Data Science, V.I.Tech

The ProblemYou have a database of 30M patients with all medical records. Each patient described by 250K of binary features.

You need a system for finding N most similar patients to a given one.Jesus Christ, its Big Data, get Hadoop!

Jesus Christ, its Big Data, get Hadoop!

Can we do better?Two main ideas:we dont need the meaning of each feature, we only care about similarity of the patients;we dont want to compare very different patients, we want to compare only the most similar ones.

Step 1: Reduce dimensionalityDecrease dimensionality of the data while preserving similaritiesLocality-sensitive hashing and minhashing

K-Means clusteringK-Means clustering groups similar patients in one group

Step 2: Group similarGroup similar patients and store groups as separate filesStore centroids of each cluster in a separate file, too

ApproachTo find N similar patients:Load a patientReduce dimensionality with minhashingLoad centroid fileCompare patient to every centroidLoad cluster file of the closest centroidCompare patient with patients in the clusterShow top N similar

Results50000 clusters up to ~1000 patients per cluster~500Kb-1Mb of every cluster file~18Mb centroid file

To do similarity search you need:~20Gb HDD~20Mb RAMSearch works in ~100 milliseconds on a regular office laptop

Thank you?

UA10533 Перше видання Вересень 2015€¦ · asus Ноутбук. 2 Електронний посібник користувача ноутбука Інформація

UA10533 Перше видання Вересень 2015€¦ · asus Ноутбук. 2 Електронний посібник користувача ноутбука Інформація

Documents

Использование сервиса яндексschool39.tgl.ru/sp/pic/File/Svedenia_ob_OO/Obrazovanie/... · 2020. 3. 27. · интернета, ноутбука) ПЛЮСЫ

Использование сервиса яндексschool39.tgl.ru/sp/pic/File/Svedenia_ob_OO/Obrazovanie/... · 2020. 3. 27. · интернета, ноутбука) ПЛЮСЫ

Documents

Cloud Исследование gaming облачногоPwC различных материалах можно встретить несколько определений, похожих

Cloud Исследование gaming облачногоPwC различных материалах можно встретить несколько определений, похожих

Documents

Ноутбук - dlsvr04.asus.com.cn · 2 Електронний посібник користувача ноутбука Інформація про авторські права

Ноутбук - dlsvr04.asus.com.cn · 2 Електронний посібник користувача ноутбука Інформація про авторські права

Documents

Предложение о покупке офисного помещения

Предложение о покупке офисного помещения

Documents

UA17020 Перше видання / Серпень 2020 · 2020. 9. 7. · відео за допомогою ноутбука. Мікрофон Вбудованим мікрофоном

UA17020 Перше видання / Серпень 2020 · 2020. 9. 7. · відео за допомогою ноутбука. Мікрофон Вбудованим мікрофоном

Documents

Аренда офисного здания, Минск, Беларусь

Аренда офисного здания, Минск, Беларусь

Documents

Ноутбук - Asusdlcdnet.asus.com/pub/ASUS/nb/UX305FA/0419_R10292_UX305_V...Март 2015 R10292 2 Руководство пользователя ноутбука ИНФОРМАЦИЯ

Ноутбук - Asusdlcdnet.asus.com/pub/ASUS/nb/UX305FA/0419_R10292_UX305_V...Март 2015 R10292 2 Руководство пользователя ноутбука ИНФОРМАЦИЯ

Documents

R13605 Первое издание/Февраль 2018dlcdnet.asus.com/pub/ASUS/nb/X530UA_UF_UN/0419_R13605_X557_X530_A.pdf2 Руководство пользователя ноутбука

R13605 Первое издание/Февраль 2018dlcdnet.asus.com/pub/ASUS/nb/X530UA_UF_UN/0419_R13605_X557_X530_A.pdf2 Руководство пользователя ноутбука

Documents

Смарт Компани_создание экологичного офисного пространства

Смарт Компани_создание экологичного офисного пространства

Real Estate

Отделение для ноутбука большего размера (до 17 ” )

Отделение для ноутбука большего размера (до 17 ” )

Documents

Экран для ноутбука производства · PDF fileперевод, пополнение карты VISA, WebMoney, Яндекс деньги, а также наложенный

Экран для ноутбука производства · PDF fileперевод, пополнение карты VISA, WebMoney, Яндекс деньги, а также наложенный

Documents

Ноутбук - Asus€¦ · березень 2015. 2 Електронний посібник користувача ноутбука Інформація про авторські

Ноутбук - Asus€¦ · березень 2015. 2 Електронний посібник користувача ноутбука Інформація про авторські

Documents

Презентация PowerPoint · - Пишут о проектах на kickstarter по вашей теме. - Ищем их на похожих проектах. - Пишем

Презентация PowerPoint · - Пишут о проектах на kickstarter по вашей теме. - Ищем их на похожих проектах. - Пишем

Documents

ДЛЯ ОФИСНОГО ПРОСТРАНСТВАglcon.ru/assets/images/pdf/glasscon-catalog-min.pdf · ГЛАССКОН, показаны примеры реализованных

ДЛЯ ОФИСНОГО ПРОСТРАНСТВАglcon.ru/assets/images/pdf/glasscon-catalog-min.pdf · ГЛАССКОН, показаны примеры реализованных

Documents

Поиск похожих изображений при помощи нейросетей. Виктор Лемпицкий, Артем Бабенко

Поиск похожих изображений при помощи нейросетей. Виктор Лемпицкий, Артем Бабенко

Technology

UA11734 Перше видання Липень 2016...20 Електронний посібник користувача ноутбука Вентиляційні отвори Вентиляційні

UA11734 Перше видання Липень 2016...20 Електронний посібник користувача ноутбука Вентиляційні отвори Вентиляційні

Documents

Розбирання ноутбука Lenovo G550

Розбирання ноутбука Lenovo G550

Education

Брендинг офисного пространства – как создать «продающий офис»

Брендинг офисного пространства – как создать «продающий офис»

Documents

› electronicresources › uch-metod › ... · Качемцева А.А. Интерьер офисного пространства2016-06-01 · Пояснительная записка

› electronicresources › uch-metod › ... · Качемцева А.А. Интерьер офисного пространства2016-06-01 · Пояснительная записка

Documents

CSBI IT-Service€¦ · Для обеспечения оптимальных климатических условий офисного или технического помещения

CSBI IT-Service€¦ · Для обеспечения оптимальных климатических условий офисного или технического помещения

Documents

Интерактивная система фронт-офисного · 2019. 2. 1. · Интерактивная система ... Синхронизация задач с банком

Интерактивная система фронт-офисного · 2019. 2. 1. · Интерактивная система ... Синхронизация задач с банком

Documents

Минкомсвязь. Разработка нового бренда и офисного пространства

Минкомсвязь. Разработка нового бренда и офисного пространства

Government & Nonprofit

Премьера нового полузащищенного ноутбука Panasonic Toughbook CF-54

Премьера нового полузащищенного ноутбука Panasonic Toughbook CF-54

Devices & Hardware

Гардероб офисного работника

Гардероб офисного работника

Design

Hp 484170-002 Аккумулятор Для Ноутбука 10.8V 47WH

Hp 484170-002 Аккумулятор Для Ноутбука 10.8V 47WH

Business

КЕРІВНИЦТВО З РОЗБИРАННЯ НОУТБУКА MSI

КЕРІВНИЦТВО З РОЗБИРАННЯ НОУТБУКА MSI

Education

PDA Center» - ?????? ?????????? · Матрицы для ноутбуков Экран ноутбука Прайс лист. Матрица ноутбука. Ремонт фотоаппаратов

PDA Center» - ?????? ?????????? · Матрицы для ноутбуков Экран ноутбука Прайс лист. Матрица ноутбука. Ремонт фотоаппаратов

Documents

Построение регрессионной модели для выявления влиятельных факторов на цену ноутбука

Построение регрессионной модели для выявления влиятельных факторов на цену ноутбука

Education

UA10524 Перше видання Вересень 2015 · 2016-05-03 · Вересень 2015 asus ... Електронний посібник користувача ноутбука

UA10524 Перше видання Вересень 2015 · 2016-05-03 · Вересень 2015 asus ... Електронний посібник користувача ноутбука

Documents