![UltraSonic-ТУБА-50-GSM](/products_pictures/ultrasonic-tube-50-130.jpg)
Цена: 67650 рублей
|
![Hunter Профессионал-3](/products_pictures/hunter-professional-3-130.jpg)
Цена: 11099 рублей
|
![10XL AntiSpy](/products_pictures/terminator-10xl-antispy-151.jpg)
Цена: 25850 рублей
|
![Аллигатор 80 ЕГЭ](/products_pictures/alligator-80ege-150.jpg)
Цена: 22100 рублей
|
|
|
Заместитель директора по развитию Захаров Владимир.
Метод математической статистики в DLP защите
Статья является частью публикации «Защита секретной информации при помощи технологий DLP»
Идея создания компьютерного поиска по выбранным цитатам возникла еще в 70-х годах прошлого столетия. Участки текста разбивались на определенные куски, каждый из которого имел определенный хеш. И если искомый хеш идентифицировался с поисковым хешем – результат поиска признавался удовлетворительным.
![Метод математической статистики в DLP защите Метод математической статистики в DLP защите](/userfiles/image/statyi/stat/10/4.jpeg)
Особенностями данной технологии всерьез заинтересовался русский историк Анатолий Фоменко, который разработал альтернативную хронологию. Кульминацией творческой деятельности ученого стало сравнение старинных русских летописей различных эпох.
Некоторые летописи, которые ранее относили к разным векам, практически совпадали совершенно непонятным образом. Тогда же ученым была выдвинута гипотеза, что используемая в истории хронологии несколько неточная, и ее необходимо подправить. В то же время на рынке появляется DLP технология, которая сконцентрирована на поиске определенных цитат из всего текста. Вполне возможно, что революционная технология являлась всего-навсего отражением разработки русского историка. Только обернутая в другую упаковку и преподнесенная с соответствующим шармом.
На чем основан статистический метод?
Статистический метод обработки текстов основан не на анализе возможного словосочетания, а на потенциальных комбинаций непосредственно буквенных символов. Следовательно, оптимальность работы технологии нисколько не зависит от языка, поскольку отслеживание символов русского языка почти ничем не отличается от отслеживания символов болгарского или китайского языков.
С точки зрения техники любое изображение или звуковой файл – также последовательный набор определенных символов. А это значит, что статистический метод анализа информации способен успешно работать не только с текстовыми документами. Совпадение хешей в аудио и видео файлах означает идентификацию искомых цитат.
Поэтому, статистический анализ информации способен обеспечить конфиденциальность мультимедийных файлов. Впрочем, статистика уже успешно используется для защиты авторских прав в:
- звуковых компаниях,
- кинокомпаниях.
Сложный хеш, который снимается в более масштабных объектах, принято называть «значимой цитатой». Ключевой особенностью хеша является снимаемый им шаг. Данный шаг или отпечаток имеет свои особенности и определенный размер. А теперь представьте банк средних размеров, в котором нужно снять все отпечатки с объектов. Потребуется значительное хранилище данных, поскольку каждый хеш обладает определенным, иногда сравнительно большим, весом.
От размера шага хеша и будет зависеть размер отпечатка. Зависимость обратно-пропорциональная, следовательно, при уменьшении шага будет значительно возрастать размер отпечатка. Если максимально уменьшить шаг до одного символа, размер отпечатка превысит размер самого файла. В противном случае, при увеличении шага значительно сокращается размер файла. Поэтому, когда будет установлен шаг в 10 000 символов – велика вероятность того, что все файлы меньшего размера будут признаны конфиденциальными и будут проскакивать в поисковых системах.
При увеличении точности распознавания текста не стоит слишком уменьшать размер шага. Когда шаг будет всего в несколько символов – возрастет процент выдачи неверных результатов. Иными словами, снимать хеш с каждого буквенного символа не рекомендуется, поскольку все слова состоят из букв. Устройство автоматически будет искать все слова, в которых присутствует данная буква, хотя это не было запланировано в начале поиска. Оптимальный шаг для снятия хеша рекомендуется выбирать в пределах размеров отпечатка от 3 (текстовый документ) до 15 (видео файлы) % от размеров файлов.
Заместитель директора по развитию Захаров Владимир.
Заместитель директора по развитию Захаров Владимир.
Что такое DLP защита информации и с чем её едят? Часть 2
Статья ...
|
Заместитель директора по развитию Захаров Владимир.
Особенности DLP систем в защите информации
Статья является ...
|
|