Upload
infowatch
View
462
Download
0
Embed Size (px)
DESCRIPTION
Лингвистический анализ, распознавание письменной речи, ее «понимание» системой и трансформация в данные, пригодные к интеллектуальной обработке – все это ядро, самая суть и критерий качества любой DLP-системы. В рамках вебинара специалисты компании InfoWatch расскажут о том, где гуманитарные науки встречаются с техническими, как заставить программу «выучить» новый язык и в чем главные секреты волшебства DLP-систем
Citation preview
Тамара Соколова, старший лингвист компании InfoWatch
Игорь Клейнер, старший разработчик компании InfoWatch
Мифы и реальность DLP
Компания основана в 2003 году, выросла из внутреннего проекта «Лаборатории Касперского»
Генеральный директор Наталья Касперская
Продуктовый фокус: решения для мониторинга, анализа и защиты корпоративной информации
Лидер российского рынка защиты данных от утечки Партнерская сеть в России, СНГ и дальнем зарубежье
Обширная экспертиза и опыт реализации проектов любой сложности в государственном секторе, ТЭК, финансовой, телекоммуникационной и многих других отраслях экономики
InfoWatch - лидер российского DLP-рынка
Мифы DLP
Эволюция технологий контентного анализа
Примеры применения технологий
Перспективы развития технологий
План вебинара
Идеальное решение: Адекватная цена Использование технологий контентного анализа Удобство внедрения и поддержки Удобный веб-интерфейс Использование современных технологий Защита на всех уровнях и протоколах Продукт создан известной и уважаемой фирмой ….
«Красота в глазах наблюдателя»
Разумный подход и адекватные требования
Миф 1 - Существует идеальное DLP решение
Большинство утечек – непреднамеренные: Случайные ошибки Ошибки автозаполнения Copy/paste Человеческий фактор
Более 65% случаев утечек – непреднамеренные (Forrester)
Миф 2 – защита от злонамеренных внутренних утечек
Распределение утечек по типам, 2012 г.
InfoWatch Global Data Leakage Report
Запрет работы с: Skype Messenger Icq Vk.com Внешними носителями
Дополнительные ограничения не улучшают целевую функцию
Угроза остается
Эффективность понижается
Миф 3 – достаточно запретить популярные средства общения
Небольшая фирма (50 сотрудников)
«Справимся своими силами»
DLP сложно и дорого и требует найма новых сотрудников
Личный инструктаж сотрудников
Миф 4 - Покупка DLP решения – слишком дорого для нашей
небольшой фирмы
Некоторые фирмы никогда не классифицировали свою информацию
Вся информация секретна
Сотрудники фирмы не способны правильно классифицировать большую часть информации
Миф 5 - Мы не может отслеживать и классифицировать наши данные
Треугольник основныхтехнологий DLP
Технология классификации
Цифровые отпечатки
Регулярные выражения
Цифровые отпечатки
Цифровые отпечатки – детектирование по цитатам Текстовые Бинарные
Схемы, планы… Выгрузки из баз данных
Защита редко изменяемой
информации
Примеры регулярных выражений: Номера кредитных карт ИНН, БИК и т.д. Номера паспортов …
Защита данных, образованных по шаблону
Наличие верифицирующей функции, контекста
Регулярные выражения
Классификация информации
Этап 1 – сигнатурный анализ Анализ на точное совпадение Отсутствие поддержки словоизменения Отсутствие статистики Простые правила детектирования
Срабатывает по 1 термину Срабатывает по 3 терминам …
Этап 2 – классификация с применением лингвистического анализа Технология стемминга Морфологические словари
Поддержка морфологии различных языков
Использование модуля транслитерации и исправления ошибок и опечаток
Классификация информации
Этап 3 – классификация с применением статистических методов Возможность ручной доработки Распространенные алгоритмы: Наивный
Байес, SVM, нейронные сети…
Защита динамической информации
Необходимость наличия обучающей выборки Репрезентативная коллекция
документов для анализа
Классификация информации
Плюсы: При большом документообороте -
большой объем покрытия Не требует частого вмешательства Гибкость настройки
Минусы: Необходимы подготовительные работы
и обучающая выборка Омонимия на уровне морфологии
Классификация: плюсы и минусы
Дополнительные технологии
Детектирование отсканированных документов различных типов
Подключение модуля OCR
Детектирование печатей
Детектор заполненных форм
…
Комбинация различных методов
Возможность вынесения вердикта, основываясь на работе сразу нескольких технологий
Использование контентного анализа в совокупности с контекстным
Гибридный анализ
Кейс 1 – пересылка персональных данных
Пример – отрасль «страхование» Страховые полисы Базы данных клиентов Персональные данные – данные о
клиентах в свободном контексте
Примеры применения технологий
Кейс 2 - пересылка договоров, попадающих под понятие «коммерческая тайна» Договоры, соглашения Планы, схемы
Примеры применения технологий
Кластеризация данных
Распознавание устной речи
Предотвращение утечек путем выявление «подозрительных» сотрудников
Перспективы развития технологий контентного анализа DLP
Огромный арсенал существующих решений и технологий: Брандмауер Криптография Контроль доступа Идентификация пользователя Контекстные детекторы …
Перспективы развития DLP
Исследования: Утечки неконфиденциальной
информации Злоупотребления информацией
инсайдерами (honeypot) Защита рабочих смартфонов
Перспективы развития DLP
Antanas Čenys, Implementation of honeytoken module in dbms oracle 9ir2 enterprise edition for internal malicious activity detection
Cleeff, A. and van Eck, P.A.T. and Wieringa, R.J. (2010) External Insider Threat: a Real Security Challenge in Enterprise Value Webs
Global Data Loss Prevention Market 2011-2015
Ссылки на исследования
Спасибо за внимание!
InfoWatch
www.infowatch.ru +7 495 22 900 22