Мтс

DLP-системы — защита от утечки данных. Что такое DLP-системы и зачем нужны DLP-решения защиты от утечек данных? Dlp системы

Если быть достаточно последовательным в определениях, то можно сказать, что информационная безопасность началась именно с появления DLP-систем. До этого все продукты, которые занимались "информационной безопасностью", на самом деле защищали не информацию, а инфраструктуру - места хранения, передачи и обработки данных. Компьютер, приложение или канал, в которых находится, обрабатывается или передается конфиденциальная информация, защищаются этими продуктами точно так же, как и инфраструктура, в которой обращается совершенно безобидная информация. То есть именно с появлением DLP-продуктов информационные системы научились наконец-то отличать конфиденциальную информацию от неконфиденциальной. Возможно, с встраиванием DLP-технологий в информационную инфраструктуру компании смогут сильно сэкономить на защите информации - например, использовать шифрование только в тех случаях, когда хранится или передается конфиденциальная информация, и не шифровать информацию в других случаях.

Однако это дело будущего, а в настоящем данные технологии используются в основном для защиты информации от утечек. Технологии категоризации информации составляют ядро DLP-систем. Каждый производитель считает свои методы детектирования конфиденциальной информации уникальными, защищает их патентами и придумывает для них специальные торговые марки. Ведь остальные, отличные от этих технологий, элементы архитектуры (перехватчики протоколов, парсеры форматов, управление инцидентами и хранилища данных) у большинства производителей идентичны, а у крупных компаний даже интегрированы с другими продуктами безопасности информационной инфраструктуры. В основном для категоризации данных в продуктах по защите корпоративной информации от утечек используются две основных группы технологий - лингвистический (морфологический, семантический) анализ и статистические методы (Digital Fingerprints, Document DNA, антиплагиат). Каждая технология имеет свои сильные и слабые стороны, которые определяют область их применения.

Лингвистический анализ

Использование стоп-слов ("секретно", "конфиденциально" и тому подобных) для блокировки исходящих электронных сообщений в почтовых серверах можно считать прародителем современных DLPсистем. Конечно, от злоумышленников это не защищает - удалить стоп-слово, чаще всего вынесенное в отдельный гриф документа, не составляет труда, при этом смысл текста нисколько не изменится.

Толчок в разработке лингвистических технологий был сделан в начале этого века создателями email-фильтров. Прежде всего, для защиты электронной почты от спама. Это сейчас в антиспамовских технологиях преобладают репутационные методы, а в начале века шла настоящая лингвистическая война между снарядом и броней - спамерами и антиспамерами. Помните простейшие методы для обмана фильтров, базирующихся на стоп-словах? Замена букв на похожие буквы из других кодировок или цифры, транслит, случайным образом расставленные пробелы, подчеркивания или переходы строк в тексте. Антиспамеры довольно быстро научились бороться с такими хитростями, но тогда появился графический спам и прочие хитрые разновидности нежелательной корреспонденции.

Однако использовать антиспамерские технологии в DLP-продуктах без серьезной доработки невозможно. Ведь для борьбы со спамом достаточно делить информационный поток на две категории: спам и не спам. Метод Байеса, который используется при детектировании спама, дает только бинарный результат: "да" или "нет". Для защиты корпоративных данных от утечек этого недостаточно - нельзя просто делить информацию на конфиденциальную и неконфиденциальную. Нужно уметь классифицировать информацию по функциональной принадлежности (финансовая, производственная, технологическая, коммерческая, маркетинговая), а внутри классов - категоризировать ее по уровню доступа (для свободного распространения, для ограниченного доступа, для служебного использования, секретная, совершенно секретная и так далее).

Большинство современных систем лингвистического анализа используют не только контекстный анализ (то есть в каком контексте, в сочетании с какими другими словами используется конкретный термин), но и семантический анализ текста. Эти технологии работают тем эффективнее, чем больше анализируемый фрагмент. На большом фрагменте текста точнее проводится анализ, с большей вероятностью определяется категория и класс документа. При анализе же коротких сообщений (SMS, интернет-пейджеры) ничего лучшего, чем стоп-слова, до сих пор не придумано. Автор столкнулся с такой задачей осенью 2008 года, когда с рабочих мест многих банков через мессенджеры пошли в Сеть тысячи сообщений типа "нас сокращают", "отберут лицензию", "отток вкладчиков", которые нужно было немедленно заблокировать у своих клиентов.

Достоинства технологии

Достоинства лингвистических технологий в том, что они работают напрямую с содержанием документов, то есть им не важно, где и как был создан документ, какой на нем гриф и как называется файл - документы защищаются немедленно. Это важно, например, при обработке черновиков конфиденциальных документов или для защиты входящей документации. Если документы, созданные и использующиеся внутри компании, еще как-то можно специфическим образом именовать, грифовать или метить, то входящие документы могут иметь не принятые в организации грифы и метки. Черновики (если они, конечно, не создаются в системе защищенного документооборота) тоже могут уже содержать конфиденциальную информацию, но еще не содержать необходимых грифов и меток.

Еще одно достоинство лингвистических технологий - их обучаемость. Если ты хоть раз в жизни нажимал в почтовом клиенте кнопку "Не спам", то уже представляешь клиентскую часть системы обучения лингвистического движка. Замечу, что тебе совершенно не нужно быть дипломированным лингвистом и знать, что именно изменится в базе категорий - достаточно указать системе ложное срабатывание, все остальное она сделает сама.

Третьим достоинством лингвистических технологий является их масштабируемость. Скорость обработки информации пропорциональна ее количеству и абсолютно не зависит от количества категорий. До недавнего времени построение иерархической базы категорий (исторически ее называют БКФ - база контентной фильтрации, но это название уже не отражает настоящего смысла) выглядело неким шаманством профессиональных лингвистов, поэтому настройку БКФ можно было смело отнести к недостаткам. Но с выходом в 2010 сразу нескольких продуктов-"автолингвистов" построение первичной базы категорий стало предельно простым - системе указываются места, где хранятся документы определенной категории, и она сама определяет лингвистические признаки этой категории, а при ложных срабатываниях - самостоятельно обучается. Так что теперь к достоинствам лингвистических технологий добавилась простота настройки.

И еще одно достоинство лингвистических технологий, которое хочется отметить в статье - возможность детектировать в информационных потоках категории, не связанные с документами, находящимися внутри компании. Инструмент для контроля содержимого информационных потоков может определять такие категории, как противоправная деятельность (пиратство, распространение запрещенных товаров), использование инфраструктуры компании в собственных целях, нанесение вреда имиджу компании (например, распространение порочащих слухов) и так далее.

Недостатки технологий

Основным недостатком лингвистических технологий является их зависимость от языка. Невозможно использовать лингвистический движок, разработанный для одного языка, в целях анализа другого. Это было особенно заметно при выходе на российский рынок американских производителей - они были не готовы столкнуться с российским словообразованием и наличием шести кодировок. Недостаточно было перевести на русский язык категории и ключевые слова - в английском языке словообразование довольно простое, а падежи выносятся в предлоги, то есть при изменении падежа меняется предлог, а не само слово. Большинство существительных в английском языке становятся глаголами без изменений слова. И так далее. В русском все не так - один корень может породить десятки слов в разных частях речи.

В Германии американских производителей лингвистических технологий встретила другая проблема - так называемые "компаунды", составные слова. В немецком языке принято присоединять определения к главному слову, в результате чего получаются слова, иногда состоящие из десятка корней. В английском языке такого нет, там слово - последовательность букв между двумя пробелами, соответственно английский лингвистический движок оказался неспособен обработать незнакомые длинные слова.

Справедливости ради следует сказать, что сейчас эти проблемы во многом американскими производителями решены. Пришлось довольно сильно переделать (а иногда и писать заново) языковой движок, но большие рынки России и Германии наверняка того стоят. Также сложно обрабатывать лингвистическими технологиями мультиязычные тексты. Однако с двумя языками большинство движков все-таки справляются, обычно это национальный язык + английский - для большинства бизнес-задач этого вполне достаточно. Хотя автору встречались конфиденциальные тексты, содержащие, например, одновременно казахский, русский и английский, но это скорее исключение, чем правило.

Еще одним недостатком лингвистических технологий для контроля всего спектра корпоративной конфиденциальной информации является то, что не вся конфиденциальная информация находится в виде связных текстов. Хотя в базах данных информация и хранится в текстовом виде, и нет никаких проблем извлечь текст из СУБД, полученная информация чаще всего содержит имена собственные - ФИО, адреса, названия компаний, а также цифровую информацию - номера счетов, кредитных карт, их баланс и прочее. Обработка подобных данных с помощью лингвистики много пользы не принесет. То же самое можно сказать о форматах CAD/CAM, то есть чертежах, в которых зачастую содержится интеллектуальная собственность, программных кодах и медийных (видео/аудио) форматах - какие-то тексты из них можно извлечь, но их обработка также неэффективна. Еще года три назад это касалось и отсканированных текстов, но лидирующие производители DLP-систем оперативно добавили оптическое распознавание и справились с этой проблемой.

Но самым большим и наиболее часто критикуемым недостатком лингвистических технологий является все-таки вероятностный подход к категоризации. Если ты когда-нибудь читал письмо с категорией "Probably SPAM", то поймешь, о чем я. Если такое творится со спамом, где всего две категории (спам/не спам), можно себе представить, что будет, когда в систему загрузят несколько десятков категорий и классов конфиденциальности. Хотя обучением системы можно достигнуть 92-95% точности, для большинства пользователей это означает, что каждое десятое или двадцатое перемещение информации будет ошибочно причислено не к тому классу со всеми вытекающими для бизнеса последствиями (утечка или прерывание легитимного процесса).

Обычно не принято относить к недостаткам сложность разработки технологии, но не упомянуть о ней нельзя. Разработка серьезного лингвистического движка с категоризацией текстов более чем по двум категориям - наукоемкий и довольно сложный технологически процесс. Прикладная лингвистика - быстро развивающаяся наука, получившая сильный толчок в развитии с распространением интернет-поиска, но сегодня на рынке присутствуют единицы работоспособных движков категоризации: для русского языка их всего два, а для некоторых языков их просто еще не разработали. Поэтому на DLP-рынке существует лишь пара компаний, которые способны в полной мере категоризировать информацию "на лету". Можно предположить, что когда рынок DLP увеличится до многомиллиардных размеров, на него с легкостью выйдет Google. С собственным лингвистическим движком, оттестированным на триллионах поисковых запросов по тысячам категорий, ему не составит труда сразу отхватить серьезный кусок этого рынка.

Статистические методы

Задача компьютерного поиска значимых цитат (почему именно "значимых" - немного позже) заинтересовала лингвистов еще в 70-х годах прошлого века, если не раньше. Текст разбивался на куски определенного размера, с каждого из которых снимался хеш. Если некоторая последовательность хешей встречалась в двух текстах одновременно, то с большой вероятностью тексты в этих областях совпадали.

Побочным продуктом исследований в этой области является, например, "альтернативная хронология" Анатолия Фоменко, уважаемого ученого, который занимался "корреляциями текстов" и однажды сравнил русские летописи разных исторических периодов. Удивившись, насколько совпадают летописи разных веков (более чем на 60%), в конце 70-х он выдвинул теорию, что наша хронология на несколько веков короче. Поэтому, когда какая-то выходящая на рынок DLP-компания предлагает "революционную технологию поиска цитат", можно с большой вероятностью утверждать, что ничего, кроме новой торговой марки, компания не создала.

Статистические технологии относятся к текстам не как к связной последовательности слов, а как к произвольной последовательности символов, поэтому одинаково хорошо работают с текстами на любых языках. Поскольку любой цифровой объект - хоть картинка, хоть программа - тоже последовательность символов, то те же методы могут применяться для анализа не только текстовой информации, но и любых цифровых объектов. И если совпадают хеши в двух аудиофайлах - наверняка в одном из них содержится цитата из другого, поэтому статистические методы являются эффективными средствами защиты от утечки аудио и видео, активно применяющиеся в музыкальных студиях и кинокомпаниях.

Самое время вернуться к понятию "значимая цитата". Ключевой характеристикой сложного хеша, снимаемого с защищаемого объекта (который в разных продуктах называется то Digital Fingerprint, то Document DNA), является шаг, с которым снимается хеш. Как можно понять из описания, такой "отпечаток" является уникальной характеристикой объекта и при этом имеет свой размер. Это важно, поскольку если снять отпечатки с миллионов документов (а это объем хранилища среднего банка), то для хранения всех отпечатков понадобится достаточное количество дискового пространства. От шага хеша зависит размер такого отпечатка - чем меньше шаг, тем больше отпечаток. Если снимать хеш с шагом в один символ, то размер отпечатка превысит размер самого образца. Если для уменьшения "веса" отпечатка увеличить шаг (например, 10 000 символов), то вместе с этим увеличивается вероятность того, что документ, содержащий цитату из образца длиной в 9 900 символов, будет конфиденциальным, но при этом проскочит незаметно.

С другой стороны, если для увеличения точности детекта брать очень мелкий шаг, несколько символов, то можно увеличить количество ложных срабатываний до неприемлемой величины. В терминах текста это означает, что не стоит снимать хеш с каждой буквы - все слова состоят из букв, и система будет принимать наличие букв в тексте за содержание цитаты из текста-образца. Обычно производители сами рекомендуют некоторый оптимальный шаг снятия хешей, чтобы размер цитаты был достаточный и при этом вес самого отпечатка был небольшой - от 3% (текст) до 15% (сжатое видео). В некоторых продуктах производители позволяют менять размер значимости цитаты, то есть увеличивать или уменьшать шаг хеша.

Достоинства технологии

Как можно понять из описания, для детектирования цитаты нужен объект-образец. И статистические методы могут с хорошей точностью (до 100%) сказать, есть в проверяемом файле значимая цитата из образца или нет. То есть система не берет на себя ответственность за категоризацию документов - такая работа полностью лежит на совести того, кто категоризировал файлы перед снятием отпечатков. Это сильно облегчает защиту информации в случае, если на предприятии в некотором месте (местах) хранятся нечасто изменяющиеся и уже категоризированные файлы. Тогда достаточно с каждого из этих файлов снять отпечаток, и система будет, в соответствии с настройками, блокировать пересылку или копирование файлов, содержащих значимые цитаты из образцов.

Независимость статистических методов от языка текста и нетекстовой информации - тоже неоспоримое преимущество. Они хороши при защите статических цифровых объектов любого типа - картинок, аудио/видео, баз данных. Про защиту динамических объектов я расскажу в разделе "недостатки".

Недостатки технологии

Как и в случае с лингвистикой, недостатки технологии - обратная сторона достоинств. Простота обучения системы (указал системе файл, и он уже защищен) перекладывает на пользователя ответственность за обучение системы. Если вдруг конфиденциальный файл оказался не в том месте либо не был проиндексирован по халатности или злому умыслу, то система его защищать не будет. Соответственно, компании, заботящиеся о защите конфиденциальной информации от утечки, должны предусмотреть процедуру контроля того, как индексируются DLP-системой конфиденциальные файлы.

Еще один недостаток - физический размер отпечатка. Автор неоднократно видел впечатляющие пилотные проекты на отпечатках, когда DLP-система со 100% вероятностью блокирует пересылку документов, содержащих значимые цитаты из трехсот документов-образцов. Однако через год эксплуатации системы в боевом режиме отпечаток каждого исходящего письма сравнивается уже не с тремя сотнями, а с миллионами отпечатков-образцов, что существенно замедляет работу почтовой системы, вызывая задержки в десятки минут.

Как я и обещал выше, опишу свой опыт по защите динамических объектов с помощью статистических методов. Время снятия отпечатка напрямую зависит от размера файла и его формата. Для текстового документа типа этой статьи это занимает доли секунды, для полуторачасового MP4-фильма - десятки секунд. Для редкоизменяемых файлов это не критично, но если объект меняется каждую минуту или даже секунду, то возникает проблема: после каждого изменения объекта с него нужно снять новый отпечаток... Код, над которым работает программист, еще не самая большая сложность, гораздо хуже с базами данных, используемыми в биллинге, АБС или call-центрах. Если время снятия отпечатка больше, чем время неизменности объекта, то задача решения не имеет. Это не такой уж и экзотический случай - например, отпечаток базы данных, хранящей номера телефонов клиентов федерального сотового оператора, снимается несколько дней, а меняется ежесекундно. Поэтому, когда DLP-вендор утверждает, что его продукт может защитить вашу базу данных, мысленно добавляйте слово "квазистатическую".

Единство и борьба противоположностей

Как видно из предыдущего раздела статьи, сила одной технологии проявляется там, где слаба другая. Лингвистике не нужны образцы, она категоризирует данные на лету и может защищать информацию, с которой случайно или умышленно не был снят отпечаток. Отпечаток дает лучшую точность и поэтому предпочтительнее для использования в автоматическом режиме. Лингвистика отлично работает с текстами, отпечатки - с другими форматами хранения информации.

Поэтому большинство компаний-лидеров используют в своих разработках обе технологии, при этом одна из них является основной, а другая - дополнительной. Это связано с тем, что изначально продукты компании использовали только одну технологию, в которой компания продвинулась дальше, а затем, по требованию рынка, была подключена вторая. Так, например, ранее InfoWatch использовал только лицензированную лингвистическую технологию Morph-OLogic, а Websense - технологию PreciseID, относящуюся к категории Digital Fingerprint, но сейчас компании используют оба метода. В идеале использовать две эти технологии нужно не параллельно, а последовательно. Например, отпечатки лучше справятся с определением типа документа - договор это или балансовая ведомость, например. Затем можно подключать уже лингвистическую базу, созданную специально для этой категории. Это сильно экономит вычислительные ресурсы.

За пределами статьи остались еще несколько типов технологий, используемых в DLP-продуктах. К таким относятся, например, анализатор структур, позволяющий находить в объектах формальные структуры (номера кредитных карт, паспортов, ИНН и так далее), которые невозможно детектировать ни с помощью лингвистики, ни с помощью отпечатков. Также не раскрыта тема разного типа меток - от записей в атрибутных полях файла или просто специального наименования файлов до специальных криптоконтейнеров. Последняя технология отживает свое, поскольку большинство производителей предпочитает не изобретать велосипед самостоятельно, а интегрироваться с производителями DRM-систем, такими как Oracle IRM или Microsoft RMS.

DLP-продукты - быстроразвивающаяся отрасль информационной безопасности, у некоторых производителей новые версии выходят очень часто, более одного раза в год. С нетерпением ждем появления новых технологий анализа корпоративного информационного поля для увеличения эффективности защиты конфиденциальной информации.

Предлагаем ряд маркеров, которые помогут выжать максимум из любой системы DLP.

DLP -системы: что это такое

Напомним, что DLP-системы (Data Loss/Leak Prevention) позволяют контролировать все каналы сетевой коммуникации компании (почта, интернет, системы мгновенных сообщений, флешки, принтеры и т д.). Защита от утечки информации достигается за счет того, что на все компьютеры сотрудников ставятся агенты, которые собирают информацию и передают ее на сервер. Порой информация собирается через шлюз, с использованием SPAN-технологий. Информация анализируется, после чего системой или офицером безопасности принимаются решения по инциденту.

Итак, в вашей компании прошло внедрение DLP-системы. Какие шаги необходимо предпринять, чтобы система заработала эффективно?

1. Корректно настроить правила безопасности

Представим, что в системе, обслуживающей 100 компьютеров, создано правило «Фиксировать все переписки со словом «договор"». Такое правило спровоцирует огромное число инцидентов, в котором может затеряться настоящая утечка.

Кроме того, не каждая компания может позволить себе содержать целый штат сотрудников, отслеживающих инциденты.

Повысить коэффициент полезности правил поможет инструментарий по созданию эффективных правил и отслеживанию результатов их работы. В каждой DLP-системе есть функционал, который позволяет это сделать.

В целом методология предполагает анализ накопленной базы инцидентов и создание различных комбинаций правил, которые в идеале приводят к появлению 5-6 действительно неотложных инцидентов в день.

2. Актуализировать правила безопасности с определенной периодичностью

Резкое снижение или увеличение числа инцидентов — показатель того, что требуется корректировка правил. Причины могут быть в том, что правило потеряло актуальность (пользователи перестали обращаться к определенным файлам) либо сотрудники усвоили правило и больше не совершают действий, запрещенных системой (DLP — обучающая система). Однако практика показывает, что если одно правило усвоено, то в соседнем месте потенциальные риски утечки возросли.

Также следует обращать внимание на сезонность в работе предприятия. В течение года ключевые параметры, связанные со спецификой работы компании, могут меняться. Например, для оптового поставщика малой техники весной будут актуальны велосипеды, а осенью — снегокаты.

3. Продумать алгоритм реагирования на инциденты

Есть несколько подходов к реагированию на инциденты. При тестировании и обкатке DLP-систем чаще всего людей не оповещают об изменениях. За участниками инцидентов лишь наблюдают. При накоплении критической массы с ними общается представитель отдела безопасности или отдела кадров. В дальнейшем часто работу с пользователями отдают на откуп представителям отдела безопасности. Возникают мини-конфликты, в коллективе накапливается негатив. Он может выплеснуться в намеренном вредительстве сотрудников по отношению к компании. Важно соблюдать баланс между требованием дисциплины и поддержанием здоровой атмосферы в коллективе.

4. Проверить работу режима блокировки

Существует два режима реагирования на инцидент в системе — фиксация и блокировка. Если каждый факт пересылки письма или прикрепления вложенного файла на флэшку блокируется, это создает проблемы для пользователя. Часто сотрудники атакуют системного администратора просьбами разблокировать часть функций, руководство также может быть недовольно такими настройками. В итоге система DLP и компания получают негатив, система дискредитируется и демаскируется.

5. Проверить, введен ли режим коммерческой тайны

Дает возможность сделать определенную информацию конфиденциальной, а также обязует любое лицо, знающее об этом, нести полную юридическую ответственность за ее разглашение. В случае серьезной утечки информации при действующем на предприятии режиме коммерческой тайны с нарушителя можно взыскать сумму фактического и морального ущерба через суд в соответствии с 98-ФЗ «О коммерческой тайне».

Надеемся, что данные советы помогут снизить число непреднамеренных утечек в компаниях, ведь именно с ними призваны успешно бороться системы DLP. Однако не стоит забывать о комплексной системе информационной безопасности и о том, что намеренные утечки информации требуют отдельного пристального внимания. Существуют современные решения, которые позволяют дополнить функционал систем DLP и значительно снизить риск намеренных утечек. Например, один из разработчиков предлагает интересную технологию — при подозрительно частом обращении к конфиденциальным файлам автоматически включается веб-камера и начинает вести запись. Именно эта система позволила зафиксировать, как незадачливый похититель активно делал снимки экрана с помощью мобильной фотокамеры.

Олег Нечеухин , эксперт по защите информационных систем, «Контур.Безопасность»

Каналами утечки, приводящими к выведению информации за пределы информационной системы компании, могут стать сетевые утечки (например, электронная почта или ICQ), локальные (использование внешних USB-накопителей), хранимые данные (базы данных). Отдельно можно выделить утрату носителя (флэш-память, ноутбук). К классу DLP систему можно отнести, если она соответствует следующим критериям: многоканальность (мониторинг нескольких возможных каналов утечки данных); унифицированный менеджмент (унифицированные средства управления по всем каналам мониторинга); активная защита (соблюдение политики безопасности); учет как содержания, так и контекста.

Конкурентным преимуществом большинства систем является модуль анализа. Производители настолько выпячивают этот модуль, что часто называют по нему свои продукты, например «DLP-решение на базе меток». Поэтому пользователь выбирает решения зачастую не по производительности, масштабируемости или другим, традиционным для корпоративного рынка информационной безопасности критериям, а именно на основе используемого типа анализа документов.

Очевидно, что, поскольку каждый метод имеет свои достоинства и недостатки, использование только одного метода анализа документов ставит решение в технологическую зависимость от него. Большинство производителей используют несколько методов, хотя один из них обычно является «флагманским». Данная статья представляет собой попытку классификации методов, используемых при анализе документов. Дается оценка их сильных и слабых сторон на опыте практического применения нескольких типов продуктов. В статье принципиально не рассматриваются конкретные продукты, т.к. основной задачей пользователя при их выборе является отсев маркетинговых лозунгов типа «мы защитим все от всего», «уникальная запатентованная технология» и осознание того, с чем он останется, когда уйдут продавцы.

Контейнерный анализ

Этот метод анализирует свойства файла или другого контейнера (архива, криптодиска и т.п.), в котором находится информация. Просторечное название таких методов - «решения на метках», что довольно полно отражает их суть. Каждый контейнер содержит некую метку, которая однозначно определяет тип содержащегося внутри контейнера контента. Упомянутые методы практически не требуют вычислительных ресурсов для анализа перемещаемой информации, поскольку метка полностью описывает права пользователя на перемещение контента по любому маршруту. В упрощенном виде такой алгоритм звучит так: «есть метка - запрещаем, нет метки - пропускаем».

Плюсы такого подхода очевидны: быстрота анализа и полное отсутствие ошибок второго рода (когда открытый документ система ошибочно детектирует как конфиденциальный). Такие методы в некоторых источниках называют «детерминистскими».

Очевидны и минусы - система заботится только о помеченной информации: если метка не поставлена, контент не защищен. Необходимо разрабатывать процедуру расстановки меток на новые и входящие документы, а также систему противодействия переносу информации из помеченного контейнера в непомеченный посредством операций с буфером, файловых операций, копирования информации из временных файлов и т.д.

Слабость таких систем проявляется и в организации расстановки меток. Если их расставляет автор документа, то по злому умыслу он имеет возможность не пометить информацию, которую собирается похитить. При отсутствии злого умысла рано или поздно проявятся небрежность или беспечность. Если обязать расставлять метки определенного сотрудника, например офицера информационной безопасности или системного администратора, то он не всегда сможет отличить конфиденциальный контент от открытого, поскольку не знает досконально всех процессов в компании. Так, «белый» баланс должен быть выложен на сайте компании, а «серый» или «черный» нельзя выносить за пределы информационной системы. Но один от другого может отличить только главбух, т.е. один из авторов.

Метки обычно подразделяют на атрибутные, форматные и внешние. Как следует из названия, первые размещаются в атрибутах файлов, вторые - в полях самого файла и третьи - прикрепляются к файлу (ассоциируются с ним) внешними программами.

Контейнерные структуры в ИБ

Иногда плюсами решений на метках считаются также низкие требования к производительности перехватчиков, ведь они лишь проверяют метки, т.е. действуют как турникеты в метро: «есть билет - проходи». Однако не стоит забывать, что чудес не бывает - вычислительная нагрузка в этом случае перекладывается на рабочие станции.

Место решений на метках, какими бы они ни были - защита документных хранилищ. Когда компания имеет документное хранилище, которое, с одной стороны, пополняется достаточно редко, а с другой стороны - точно известны категория и уровень конфиденциальности каждого документа, то организовать его защиту проще всего как раз с использованием меток. Организовать расстановку меток на документах, поступающих в хранилище можно с помощью организационной процедуры. Например, перед тем как отправить документ в хранилище, сотрудник, отвечающий за его функционирование, может обратиться к автору и специалисту с вопросом, какой уровень конфиденциальности документу выставить. Особенно удачно эта задача решается с помощью форматных меток, т.е. каждый входящий документ сохраняется в защищенном формате и затем выдается по запросу сотрудника с указанием его в качестве допущенного к чтению. Современные решения позволяют присваивать право доступа на ограниченное время, а по истечении действия ключа документ просто перестает читаться. Именно по этой схеме организована, например, выдача документации на конкурсы по госзакупкам в США: система управления закупками генерирует документ, который могут прочитать без возможности изменить или скопировать содержимое только перечисленные в этом документе участники конкурса. Ключ на доступ действует только до срока подачи документов на конкурс, после чего документ перестает читаться.

Также с помощью решений, базирующихся на метках, компании организуют документооборот в закрытых сегментах сети, в которой обращаются интеллектуальная собственность и государственная тайна. Вероятно, теперь по требованиям ФЗ «О персональных данных» так же будет организован документооборот в отделах кадров крупных компаний.

Контентный анализ

При реализации описываемых в этом разделе технологий, в отличие от описанных ранее, напротив, совершенно безразлично, в каком контейнере хранится контент. Задача этих технологий - извлечь значащий контент из контейнера или перехватить передачу по каналу связи и проанализировать информацию на наличие запрещенного содержимого.

Основными технологиями в определении запрещенного контента в контейнерах являются контроль сигнатур, контроль на основе хеш-функций и лингвистические методы.

Сигнатуры

Самый простой метод контроля - поиск в потоке данных некоторой последовательности символов. Иногда запрещенную последовательность символов называют «стоп-словом», но в более общем случае она может быть представлена не словом, а произвольным набором символов, например той же меткой. Вообще этот метод не во всех его реализациях можно отнести к контентному анализу. Например, в большинстве устройств класса UTM поиск запрещенных сигнатур в потоке данных происходит без извлечения текста из контейнера, при анализе потока «as is». Или, если система настроена только на одно слово, то результат ее работы - определение 100%-го совпадения, т.е. метод можно отнести к детерминистским.

Однако чаще поиск определенной последовательности символов все же применяют при анализе текста. В подавляющем большинстве случаев сигнатурные системы настроены на поиск нескольких слов и частоту встречаемости терминов, т.е. мы будем все же относить эту систему к системам анализа контента.

К достоинствам этого метода можно отнести независимость от языка и простоту пополнения словаря запрещенных терминов: если вы хотите воспользоваться этим методом для поиска в потоке данных слова на языке пушту, вам не обязательно владеть этим языком, достаточно лишь знать, как оно пишется. Так же легко добавляется, например, транслитерированный русский текст или «олбанский» язык, что немаловажно, например, при анализе SMS -текстов, сообщений ICQ или постов в блогах.

Недостатки становятся очевидными при использования не-английского языка. К сожалению, большинство производителей систем анализа текстов работают для американского рынка, а английский язык очень «сигнатурен» - формы слов чаще всего образуются с помощью предлогов без изменения самого слова. В русском языке все гораздо сложнее. Возьмем, к примеру, милое сердцу сотрудника информационной безопасности слово «secret» (секрет). В английском оно означает и существительное «секрет», и прилагательное «секретный», и глагол «засекретить». В русском языке из корня «секрет» можно образовать несколько десятков различных слов. Т.е. если в англоговорящей организации сотруднику информационной безопасности достаточно ввести одно слово, в русскоговорящей придется вводить пару десятков слов и затем еще изменять их в шести различных кодировках.

Кроме того, такие методы неустойчивы к примитивному кодированию. Практически все они пасуют перед любимым приемом начинающих спамеров - заменой символов на похожие по начертанию. Автор неоднократно демонстрировал офицерам безопасности элементарный прием - проход конфиденциального текста через сигнатурные фильтры. Берется текст, содержащий, например, фразу «совершенно секретно», и почтовый перехватчик, настроенный на эту фразу. Если текст открыть в MS Word, то двухсекундная операция: Ctrl+F, «найти "o" (русской раскладки)», «заменить на "o" (английской раскладки)», «заменить все», «отослать документ» - делает документ абсолютно невидимым для этого фильтра. Тем более обидно, что такая замена проводится штатными средствами MS Word или любого другого текстового редактора, т.е. они доступны пользователю, даже если у него нет прав локального администратора и возможности запускать программы шифрования.

Чаще всего сигнатурный контроль потоков входит в функционал UTM-устройств, т.е. решений, очищающих трафик от вирусов, спама, вторжений и любых других угроз, детектирование которых происходит по сигнатурам. Поскольку эта функция является «бесплатной», зачастую пользователи считают, что этого достаточно. Такие решения действительно защищают от случайных утечек, т.е. в тех случаях, когда исходящий текст не изменяется отправителем с целью обойти фильтр, но против злонамеренных пользователей они бессильны.

Маски

Расширением функционала поиска сигнатур «стоп-слов» является поиск их масок. Он представляет собой поиск такого содержания, которое невозможно точно указать в базе «стоп-слов», но можно указать его элемент или структуру. К такой информации следует отнести любые коды, характеризующие персону или предприятие: ИНН, номера счетов, документов и т.д. Искать их с помощью сигнатур невозможно.

Неразумно задавать номер конкретной банковской карты в качестве объекта поиска, а хочется находить любой номер кредитной карты, как бы он не был написан - с пробелами или слитно. Это не просто желание, а требование стандарта PCI DSS : незашифрованные номера пластиковых карт запрещено посылать по электронной почте, т.е. обязанностью пользователя является находить такие номера в электронной почте и сбрасывать запрещенные сообщения.

Вот, например, маска, задающая такое стоп-слово, как название конфиденциального или секретного приказа, номер которого начинается с нуля. Маска учитывает не только произвольный номер, но и любой регистр и даже подмену русских букв латинскими. Маска записана в стандартной нотации «REGEXP», хотя у различных DLP-систем могут быть собственные, более гибкие нотации. Еще хуже дело обстоит с номерами телефонов. Эта информация отнесена к персональным данным, а писать ее можно десятком способов - с использованием различных сочетаний пробелов, разных типов скобок, плюса и минуса и т.д. Здесь, пожалуй, единственной маской не обойтись. Например, в антиспамовых системах, где приходится решать сходную задачу, для детектирования телефонного номера используют несколько десятков масок одновременно.

Множество различных кодов, вписанных в деятельность компаний и ее сотрудников, охраняются многими законами и представляют собой коммерческую тайну, банковскую тайну, персональные данные и другую защищаемую законом информацию, поэтому проблема детектирования их в трафике является обязательным условием любого решения.

Хеш-функции

Различного типа хеш-функции образцов конфиденциальных документов одно время считались новым словом на рынке защиты от утечек, хотя сама технология существует с 1970-х годов. На Западе этот метод иногда называется «digital fingerprints», т.е. «цифровые отпечатки пальцев», или «шиндлы» на научном сленге.

Суть всех методов одна и та же, хотя конкретные алгоритмы у каждого производителя могут существенно отличаться. Некоторые алгоритмы даже патентуются, что подтверждает уникальность реализации. Общий сценарий действия такой: набирается база образцов конфиденциальных документов. С каждого из них снимается «отпечаток», т.е. из документа извлекается значимое содержимое, которое приводится к некоторому нормальному, например (но не обязательно) текстовому виду, затем снимаются хеши всего содержимого и его частей, например абзацев, предложений, пятерок слов и т.д., детализация зависит от конкретной реализации. Эти отпечатки хранятся в специальной базе данных.

Перехваченный документ точно так же очищается от служебной информации и приводится к нормальному виду, затем с него по тому же алгоритму снимаются отпечатки-шиндлы. Полученные отпечатки ищутся в базе данных отпечатков конфиденциальных документов, и если находятся - документ считается конфиденциальным. Поскольку этот метод применяется для нахождения прямых цитат из документа-образца, технология иногда называется «антиплагиатной».

Большинство преимуществ такого метода являются одновременно его недостатками. Прежде всего, это требование использования образцов документов. С одной стороны, пользователю не надо беспокоиться о стоп-словах, значимых терминах и другой информации, совершенно неспецифической для офицеров безопасности деятельности. С другой стороны, «нет образца - нет защиты», что порождает те же самые проблемы с новыми и входящими документами, что и при обращении к технологиям, базирующимся на метках. Очень важным плюсом такой технологии является ее нацеленность на работу с произвольными последовательностями символов. Из этого следует, в первую очередь, независимость от языка текста - хоть иероглифы, хоть пушту. Далее, одно из главных следствий этого свойства - возможность снятия отпечатков с нетекстовой информации - баз данных, чертежей, медиафайлов. Именно эти технологии применяют голливудские студии и мировые студии звукозаписи для защиты медиаконтента в своих цифровых хранилищах.

К сожалению, низкоуровневые хеш-функции неустойчивы к примитивному кодированию, рассматривавшемуся в примере с сигнатурами. Они легко справляются с изменением порядка слов, перестановкой абзацев и другими ухищрениями «плагиаторов», но, например, изменение букв по всему документу разрушает хеш-образец и такой документ становится невидимым для перехватчика.

Использование только этого метода осложняет работу с формами. Так, пустая форма заявления на кредит является свободно распространяемым документом, а заполненная - конфиденциальным, поскольку содержит персональные данные. Если просто снять отпечаток с пустой формы, то перехваченный заполненный документ будет содержать всю информацию из пустой формы, т.е. отпечатки будут во многом совпадать. Таким образом, система либо пропустит конфиденциальную информацию, либо воспрепятствует свободному распространению пустых форм.

Несмотря на упомянутые недостатки, этот метод имеет широкое распространение, особенно в таком бизнесе, который не может себе позволить квалифицированных сотрудников, а действует по принципу «сложи всю конфиденциальную информацию в эту папку и спи спокойно». В этом смысле требование конкретных документов для их защиты чем-то похоже на решения, базирующиеся на метках, только хранящихся отдельно от образцов и сохраняющихся при изменении формата файла, копировании части файла и т.д. Однако крупный бизнес, имеющий в обороте сотни тысяч документов, зачастую просто не в состоянии предоставить образцы конфиденциальных документов, т.к. бизнес-процессы компании этого не требуют. Единственное, что есть (или, честнее, должно быть) на каждом предприятии, - «Перечень информации, составляющей коммерческую тайну». Сделать из нее образцы - нетривиальная задача.

Простота добавления образцов к базе контролируемого контента зачастую играет с пользователями злую шутку. Это ведет к постепенному увеличению базы отпечатков, существенно влияющему на производительность системы: чем больше образцов, тем больше сравнений каждого перехваченного сообщения. Поскольку каждый отпечаток занимает от 5 до 20% оригинала, база отпечатков постепенно разрастается. Пользователи отмечают резкое падение производительности, когда база начинает превышать объем оперативной памяти фильтрующего сервера. Обычно проблема решается регулярным аудитом образцов документов и удалением устаревших или дублирующихся образцов, т.е. экономя на внедрении, пользователи теряют на эксплуатации.

Лингвистические методы

Самым распространенным на сегодняшний день методом анализа является лингвистический анализ текста. Он настолько популярен, что зачастую именно он в просторечье именуется «контентной фильтрацией», т.е. несет на себе характеристику всего класса методов анализа содержимого. С точки зрения классификации и хеш-анализ, и анализ сигнатур, и анализ масок являются «контентной фильтрацией», т.е. фильтрацией трафика на основе анализа содержимого.

Как понятно из названия, метод работает только с текстами. Вы не защитите с его помощью базу данных, состоящую только из чисел и дат, тем более - чертежи, рисунки и коллекцию любимых песен. Зато с текстами этот метод творит чудеса.

Лингвистика как наука состоит из многих дисциплин - от морфологии до семантики. Поэтому лингвистические методы анализа тоже различаются между собой. Есть методы, использующие лишь стоп-слова, только вводящиеся на уровне корней, а сама система уже составляет полный словарь; есть базирующиеся на расставлении весов встречающихся в тексте терминов. Есть в лингвистических методах и свои отпечатки, базирующиеся на статистике; например, берется документ, считаются пятьдесят самых употребляемых слов, затем выбирается по 10 самых употребляемых из них в каждом абзаце. Такой «словарь» представляет собой практически уникальную характеристику текста и позволяет находить в «клонах» значащие цитаты.

Анализ всех тонкостей лингвистического анализа не входит в рамки этой статьи, поэтому сосредоточимся на достоинствах и недостатках.

Достоинством метода является полная нечувствительность к количеству документов, т.е. редкая для корпоративной информационной безопасности масштабируемость. База контентной фильтрации (набор ключевых словарных классов и правил) не меняется в размере от появления новых документов или процессов в компании.

Кроме того, пользователи отмечают в этом методе сходство со «стоп-словами» в той части, что если документ задержан, то сразу видно, из-за чего это произошло. Если система, базирующаяся на отпечатках, сообщает, что какой-то документ похож на другой, то офицеру безопасности придется самому сравнивать два документа, а при лингвистическом анализе он получит уже размеченный контент. Лингвистические системы наряду с сигнатурной фильтрацией так распространены, поскольку позволяют начать работать без изменений в компании сразу после инсталляции. Нет нужды возиться с расстановкой меток и снятием отпечатков, инвентаризировать документы и делать другую неспецифическую для офицера безопасности работу.

Недостатки столь же очевидны, и первый - зависимость от языка. В каждой стране, язык которой поддерживается производителем, это не является недостатком, однако с точки зрения глобальных компаний, имеющих кроме единого языка корпоративного общения (например, английского), еще множество документов на локальных языках в каждой стране, это явный недостаток.

Еще один недостаток - высокий процент ошибок второго рода, для снижения которого требуется квалификация в области лингвистики (для тонкой настройки базы фильтрации). Стандартные отраслевые базы обычно дают точность фильтрации 80-85%. Это означает, что каждое пятое-шестое письмо перехвачено ошибочно. Настройка базы до приемлемых 95-97% точности срабатывания связана обычно с вмешательством специально обученного лингвиста. И хотя для обучения корректировке базы фильтрации достаточно иметь два дня свободного времени и владеть языком на уровне выпускника средней школы, эту работу, кроме офицера безопасности, делать некому, а он обычно считает такую работу непрофильной. Привлекать же человека со стороны всегда рискованно - ведь работать ему придется с конфиденциальной информацией. Выходом из этой ситуации обычно является покупка дополнительного модуля - самообучающегося «автолингвиста», которому «скармливаются» ложные срабатывания, и он автоматически адаптирует стандартную отраслевую базу.

Лингвистические методы выбирают тогда, когда хотят минимизировать вмешательство в бизнес, когда служба защиты информации не имеет административного ресурса изменить существующие процессы создания и хранения документов. Они работают всегда и везде, хотя и с упомянутыми недостатками.

Трудности внедрения

Помимо очевидных трудностей внедрению DLP препятствует и сложность выбора подходящего решения, поскольку различные поставщики систем DLP исповедуют собственные подходы к организации защиты. У одних запатентованы алгоритмы анализа контента по ключевым словам, а кто-то предлагает метод цифровых отпечатков. Как в этих условиях выбрать оптимальный продукт? Что эффективнее? Ответить на эти вопросы очень сложно, так как внедрений систем DLP на сегодня крайне мало, а реальных практик их использования (на которые можно было бы полагаться) еще меньше. Но те проекты, которые все же были реализованы, показали, что более половины объема работ и бюджета в них составляет консалтинг, и это обычно вызывает большой скепсис у руководства. Кроме того, как правило, под требования DLP приходится перестраивать существующие бизнес-процессы предприятия, а на это компании идут с трудом.

Насколько внедрение DLP помогает соответствовать действующим требованиям регуляторов? На Западе внедрение DLP-систем мотивируют законы, стандарты, отраслевые требования и другие нормативные акты. По мнению экспертов, имеющиеся за рубежом четкие требования законодательства, методические указания по обеспечению требований являются реальным двигателем рынка DLP, так как внедрение специальных решений исключает претензии со стороны регуляторов. У нас в этой сфере положение совсем иное, и внедрение DLP-систем не помогает соответствовать законодательству.

Неким стимулом для внедрения и использования DLP в корпоративной среде может стать необходимость защищать коммерческие секреты компаний и выполнить требования федерального закона «О коммерческой тайне».

Почти на каждом предприятии приняты такие документы, как «Положение о коммерческой тайне» и «Перечень сведений, составляющих коммерческую тайну», и их требования следует выполнять. Существует мнение, что закон «О коммерческой тайне» (98-ФЗ) не работает, тем не менее руководители компаний хорошо осознают, что им важно и нужно защищать свои коммерческие секреты. Причем это осознание гораздо выше понимания важности закона «О персональных данных» (152-ФЗ), и любому руководителю намного проще объяснить необходимость внедрить конфиденциальный документооборот, чем рассказывать про защиту персональных данных.

Что мешает использовать DLP в процессах автоматизации защиты коммерческой тайны? По гражданскому кодексу РФ, для введения режима защиты коммерческой тайны необходимо лишь, чтобы информация обладала некой ценностью и была включена в соответствующий перечень. В этом случае обладатель такой информации по закону обязан принять меры к охране конфиденциальных сведений.

Вместе с тем очевидно, что и DLP не сможет решить всех вопросов. В частности, прикрыть доступ к конфиденциальной информации третьим лицам. Но для этого существуют другие технологии. Многие современные DLP-решения умеют с ними интегрироваться. Тогда при выстраивании этой технологической цепочки может получиться работающая система защиты коммерческой тайны. Такая система будет более понятной для бизнеса, и именно бизнес сможет выступить заказчиком системы защиты от утечек.

Россия и Запад

По мнению аналитиков, В России иное отношение к безопасности и иной уровень зрелости компаний, поставляющих решения DLP. Рынок России ориентируется на специалистов по безопасности и узкоспециализированные проблемы. Люди, занимающиеся предотвращением утечки данных, не всегда понимают, какие данные имеют ценность. В России «милитаристский» подход к организации систем безопасности: прочный периметр с межсетевыми экранами и все усилия прилагаются к тому, чтобы не допустить проникновения внутрь.

Но если сотрудник компании имеет доступ к количеству информации, которое не требуется для выполнения его обязанностей? С другой стороны, если посмотреть, какой подход формировался на Западе в последние 10-15 лет, то можно сказать, что больше внимания уделяется ценности информации. Ресурсы направляются туда, где находится ценная информация, а не на всю информацию подряд. Пожалуй, это самая большая культурологическая разница между Западом и Россией. Однако, говорят аналитики, ситуация меняется. Информация начинает восприниматься как деловой актив, а на эволюцию потребуется какое-то время.

Не существует всеобъемлющего решения

Стопроцентной защиты от утечек еще не разработал ни один производитель. Проблемы с использованием DLP-продуктов некоторые эксперты формулируют примерно так: эффективное использование опыта борьбы с утечками, применяемого в DLP-системах, требует понимания, что значительная работа по обеспечению защиты от утечек должна быть проведена на стороне заказчика, поскольку никто лучше него не знает собственных информационных потоков.

Другие считают, что защититься от утечек нельзя: предотвратить утечку информации невозможно. Поскольку информация имеет для кого-нибудь ценность, она будет получена раньше или позже. Программные средства могут сделать получение этой информации более дорогостоящим и требующим больших временных затрат процессом. Это может значительно снизить выгоду обладания информацией, ее актуальность. Значит, эффективность работы DLP-систем стоит контролировать.

Утечка коммерчески значимой информации может привести к существенным убыткам компании – и финансовым, и репутационным. Настройка компонентов DLP позволяет отслеживать внутреннюю переписку, почтовые сообщения, обмен данными, работу с облачными хранилищами, запуск приложений на рабочем столе, подключение внешних устройств, отчеты, смс-сообщения, телефонные переговоры. Все подозрительные операции контролируются и создается база отчетности по отслеженным прецедентам. Для этого DLP-системы имеют встроенные механизмы определения системы конфиденциальной информации, для чего анализируются специальные маркеры документов и само их содержание (по ключевым словам, фразам, предложениям). Возможен ряд дополнительных настроек по контролю персонала (правомерности действий внутри компании, использования рабочих ресурсов, вплоть до распечаток на принтерах).

Если в приоритете полноценный контроль над передачей данных, то первоначальная настройка DLP будет заключаться в выявлении и определении возможных утечек информации, контроля конечных устройств и допуска пользователей к ресурсам компании. Если в приоритете статистика по перемещению важной корпоративной информации внутри организации, то для ее отслеживания вычисляются каналы и способы передачи данных. DLP-системы настраиваются индивидуально под каждое предприятие, исходя из предполагаемых моделей угроз, категорий нарушений, определения возможных каналов утечек информации.

DLP занимают большую нишу на рынке в сфере экономической безопасности. Исходя из исследований Аналитического центра Anti-Malware.ru , заметен рост потребности компаний в DLP-системах, увеличение продаж и расширение линейки продуктов. Актуальна настройка предотвращения передачи не желаемой информации не только изнутри наружу, но и снаружи внутрь информационной сети предприятия. Более того, учитывая распространенную виртуализацию в корпоративных информационных системах и повсеместное использования мобильных устройств, через которые ведется бизнес контроль мобильных сотрудников — одна из самых приоритетных задач.

Важно учитывать интеграцию выбранных DLP-систем с корпоративной IT-сетью, теми приложениями, которые использует компания. Для успешного предотвращения утечки данных и оперативных действий по пресечению злоупотребления корпоративной информацией, необходимо наладить стабильную работу DLP, настроить функционал в соответствии с задачами, установить работу с внутрикорпоративными электронными ящиками, USB-накопителями, мессенджерами, облачными хранилищами, мобильными устройствами, а в случае работы в большой корпорации — и интеграцию с SIEM системой в рамках SOC.

Доверьте внедрение системы DLP специалистам. Системный интегратор «Radius» осуществит установку и настройку DLP в соответствии со стандартами и нормами информационной безопасности, а также особенностями компании-клиента.

D LP-систему используют, когда необходимо обеспечить защиту конфиденциальных данных от внутренних угроз. И если специалисты по информационной безопасности в достаточной мере освоили и применяют инструменты защиты от внешних нарушителей, то с внутренними дело обстоит не так гладко.

Использование в структуре информационной безопасности DLP-системы предполагает, что ИБ-специалист понимает:

как сотрудники компании могут организовать утечку конфиденциальных данных;
какую информацию следует защищать от угрозы нарушения конфиденциальности.

Всесторонние знания помогут специалисту лучше понять принципы работы технологии DLP и настроить защиту от утечек корректным образом.

DLP-система должна уметь отличать конфиденциальную информацию от неконфиденциальной. Если анализировать все данные внутри информационной системы организации, возникает проблема избыточной нагрузки на IT-ресурсы и персонал. DLP работает в основном «в связке» с ответственным специалистом, который не только «учит» систему корректно работать, вносит новые и удаляет неактуальные правила, но и проводит мониторинг текущих, заблокированных или подозрительных событий в информационной системе.

Для настройки «СёрчИнформ КИБ» используются - правила реагирования на ИБ-ицинденты. В системе есть 250 предустановленных политик, которые можно корректировать с учетом задач компании.

Функциональность DLP-системы строится вокруг «ядра» - программного алгоритма, который отвечает за обнаружение и категоризацию информации, нуждающейся в защите от утечек. В ядре большинства DLP-решений заложены две технологии: лингвистического анализа и технология, основанная на статистических методах. Также в ядре могут использоваться менее распространенные техники, например, применение меток или формальные методы анализа.

Разработчики систем противодействия утечкам дополняют уникальный программный алгоритм системными агентами, механизмами управления инцидентами, парсерами, анализаторами протоколов, перехватчиками и другими инструментами.

Ранние DLP-системы базировались на одном методе в ядре: либо лингвистическом, либо статистическом анализе. На практике недостатки двух технологий компенсировались сильными сторонами друг друга, и эволюция DLP привела к созданию систем, универсальных в плане «ядра».

Лингвистический метод анализа работает напрямую с содержанием файла и документа. Это позволяет игнорировать такие параметры, как имя файла, наличие либо отсутствие в документе грифа, кто и когда создал документа. Технология лингвистической аналитики включает:

морфологический анализ - поиск по всем возможным словоформам информации, которую необходимо защитить от утечки;
семантический анализ - поиск вхождений важной (ключевой) информации в содержимом файла, влияние вхождений на качественные характеристики файла, оценка контекста использования.

Лингвистический анализ показывает высокое качество работы с большим объемом информации. Для объемного текста DLP-система с алгоритмом лингвистического анализа более точно выберет корректный класс, отнесет к нужной категории и запустит настроенное правило. Для документов небольшого объема лучше использовать методику стоп-слов, которая эффективно зарекомендовала себя в борьбе со спамом.

Обучаемость в системах с лингвистическим алгоритмом анализа реализована на высоком уровне. У ранних DLP-комплексов были сложности с заданием категорий и другими этапами «обучения», однако в современных системах заложены отлаженные алгоритмы самообучения: выявления признаков категорий, возможности самостоятельно формировать и изменять правила реагирования. Для настройки в информационных системах подобных программных комплексов защиты данных уже не требуется привлекать лингвистов.

К недостаткам лингвистического анализа причисляют привязку к конкретному языку, когда нельзя использовать DLP-систему с «английским» ядром для анализа русскоязычных потоков информации и наоборот. Другой недостаток связан со сложностью четкой категоризации с использованием вероятностного подхода, что удерживает точность срабатывания в пределах 95%, тогда как для компании критичной может оказаться утечка любого объема конфиденциальной информации.

Статистические методы анализа , напротив, демонстрируют точность, близкую к 100-процентной. Недостаток статистического ядра связан с алгоритмом самого анализа.

На первом этапе документ (текст) делится на фрагменты приемлемой величины (не посимвольно, но достаточно, чтобы обеспечить точность срабатывания). С фрагментов снимается хеш (в DLP-системах встречается как термин Digital Fingerprint - «цифровой отпечаток»). Затем хеш сравнивается с хешем эталонного фрагмента, взятого из документа. При совпадении система помечает документ как конфиденциальный и действует в соответствии с политиками безопасности.

Недостаток статистического метода в том, что алгоритм не способен самостоятельно обучаться, формировать категории и типизировать. Как следствие - зависимость от компетенций специалиста и вероятность задания хеша такого размера, при котором анализ будет давать избыточное количество ложных срабатываний. Устранить недостаток несложно, если придерживаться рекомендаций разработчика по настройке системы.

С формированием хешей связан и другой недостаток. В развитых IT-системах, которые генерируют большие объемы данных, база отпечатков может достигать такого размера, что проверка трафика на совпадения с эталоном серьезно замедлит работу всей информационной системы.

Преимущество решений заключается в том, что результативность статистического анализа не зависит от языка и наличия в документе нетекстовой информации. Хеш одинаково хорошо снимается и с английской фразы, и с изображения, и с видеофрагмента.

Лингвистические и статистические методы не подходят для обнаружения данных определенного формата для любого документа, например, номера счетов или паспорта. Для выявления в массиве информации подобных типовых структур в ядро DLP-системы внедряют технологии анализа формальных структур.

В качественном DLP-решении используются все средства анализа, которые работают последовательно, дополняя друг друга.

Определить, какие технологии присутствуют в ядре, можно .

Не меньшее значение, чем функциональность ядра, имеют уровни контроля, на которых работает DLP-система. Их два:

Разработчики современных DLP-продуктов отказались от обособленной реализации защиты уровней, поскольку от утечки нужно защищать и конечные устройства, и сеть.

Сетевой уровень контроля при этом должен обеспечивать максимально возможный охват сетевых протоколов и сервисов. Речь идет не только о «традиционных» каналах ( , FTP, ), но и о более новых системах сетевого обмена (Instant Messengers, ). К сожалению, на сетевом уровне невозможно контролировать шифрованный трафик, но данная проблема в DLP-системах решена на уровне хоста.

Контроль на хостовом уровне позволяет решать больше задач по мониторингу и анализу. Фактически ИБ-служба получает инструмент полного контроля за действиями пользователя на рабочей станции. DLP с хостовой архитектурой позволяет отслеживать, что , какие документы , что набирается на клавиатуре, записывать аудиоматериалы, делать . На уровне конечной рабочей станции перехватывается шифрованный трафик (), а для проверки открыты данные, которые обрабатываются в текущий момент и которые длительное время хранятся на ПК пользователя.

Помимо решения обычных задач, DLP-системы с контролем на хостовом уровне обеспечивают дополнительные меры по обеспечению информационной безопасности: контроль установки и изменения ПО, блокировка портов ввода-вывода и т.п.

Минусы хостовой реализации в том, что системы с обширным набором функций сложнее администрировать, они более требовательны к ресурсам самой рабочей станции. Управляющий сервер регулярно обращается к модулю-«агенту» на конечном устройстве, чтобы проверить доступность и актуальность настроек. Кроме того, часть ресурсов пользовательской рабочей станции будет неизбежно «съедаться» модулем DLP. Поэтому еще на этапе подбора решения для предотвращения утечки важно обратить внимание на аппаратные требования.

Принцип разделения технологий в DLP-системах остался в прошлом. Современные программные решения для предотвращения утечек задействуют методы, которые компенсируют недостатки друг друга. Благодаря комплексному подходу конфиденциальные данные внутри периметра информационной безопасности становится более устойчивыми к угрозам.