27 августа 2019, 17:08 • Адина Байкинова

Что такое Big data, и почему вам стоит беспокоиться о безопасности личных данных

IT-компания DAR и informburo.kz рассказывают, зачем компании собирают информацию о своих клиентах и как потом её используют

Каким объёмом информации о себе вы делитесь в аккаунте в социальной сети? Рассказываете о своих предпочтениях или делитесь отзывом о тайском ресторане, в который ходили на прошлой неделе? С виду безобидная информация помогает крупным компаниям лучше и чётче таргетировать рекламу и предлагать купить тур, к примеру по Средней Азии, как раз после вашего отзыва на ресторан паназиатской кухни.

Читайте также: Топ-5 приложений для путешествий

Собранная информация от пользователей – аудио, видео, тексты и даже данные с фитнес-браслетов – все эти источники данных задают темп роста объёма Big data – важнейшего тренда, который распространился на самые разные направления бизнеса. Компании используют такую информацию для обработки и структурирования знаний о поведении и предпочтениях пользователя.

Что это такое?

Все ваши действия в Сети представляют большой интерес для технологических компаний. Вы успеваете "наследить" данными, едва взяв в руки смартфон. Ваш профиль, история покупок в интернет-магазине и лайки в поддержку открывшегося приюта для кошек, – всё это представляет собой одну маленькую каплю в неструктурированном океане информации. Добавьте сюда банкинг, информацию со всевозможных систем слежения, базы звонков операторов сотовой связи и транспорт или даже данные дистанционного зондирования Земли – любую отрасль, связанную с человеческими взаимодействиями или вычислениями – и мы получаем огромные объёмы данных, а вместе с этим и технологические возможности для их анализа.

При правильной обработке больших данных можно обнаружить скрытые или не очевидные закономерности и использовать их для повышения эффективности взаимодействия.

Как именно это работает?

Большие данные потому и названы большими – это огромное количество самой разной информации о ваших действиях. Сравнение отдельных частей этой информации или отношений между ними позволяет обнаружить закономерности, которые раньше были недоступны или скрыты.

Другими словами, чем больше аналитик знает о потребителе, предмете или даже небесном явлении, тем точнее может предсказать, что случится в будущем.

Например, Microsoft совместно с компанией Siemens разработала "умный" аппарат на основе больших данных для рентгена. Устройство делает снимок пациента и отправляет его для анализа в облако и врачу. После обработки и анализа на базе искусственного интеллекта врач и сама система ставят диагноз. В случае, если у "умного" рентгена и врача есть расхождения во мнениях, врач получает уведомление о необходимости перепроверить диагноз, так как часто благодаря Big data можно увидеть скрытые симптомы болезни, которые врач мог пропустить из-за человеческого фактора или банальной усталости.

Как компании используют Big data?

Мы привыкли считать, что данные принадлежат только нам. Да, мы даём согласие на обработку персональных данных, аудиозаписей, фотографий, нашего местоположения и данных с фитнес-трекера, но надеемся, что она не покинет пределы социальной сети или гаджета, который учитывает количество шагов и считает пульс. Это ошибка. На деле компании давно используют информацию, которой вы готовы делиться, чтобы сделать свой сервис более удобным и полезным (и заработать больше).

Например, Netflix – крупнейший американский поставщик потокового видео, предлагает пользователям персонализированный контент за счёт анализа огромного количества данных: частоты и периодичности постановки видео на паузу, времени, когда пользователь решил посмотреть фильм и даже длительности процесса выбора. Всё это помогает компании становиться более клиентоориентированной на фоне других подобных сервисов и привлекать большую аудиторию.

Вот другой пример. Благодаря данным, собранным фитнес-трекерами, компания Jawbone с помощью статистики пробуждений пользователей смогла определить эпицентр землетрясения в окрестностях Сан-Франциско. Производитель носимых устройств подсчитал, что среди жителей городов Напа, Сонома, Вальехо и Беркли процент пробуждения составил 74%, а значит, все эти пользователи находились менее чем в 25 км от эпицентра землетрясения. Процент разбуженных землетрясением заметно снижался, пропорционально удалённости пользователя от эпицентра землетрясения.

А как же конфиденциальность данных?

Учитывая, что большие данные – это огромное количество информации о нашей частной жизни, возникает вопрос о поиске баланса между количеством персональных данных, которым мы делимся ежедневно и возможностями, которые предлагает нам Big Data за счёт обработки этой информации. Тем более что существует множество систем, которые уже хранят личную информацию о вас, начиная от банковских транзакций, заканчивая iPhone, который "знает", как выглядит владелец.

Читайте также: Безопасно ли использовать FaceID?

Например, крупнейшим событием в области информационной безопасности и этического использования данных стала утечка данных Facebook и их возможная продажа компании Cambridge Analytica, которая использовала данные пользователей социальных сетей во время президентских выборов в США в 2016 году.

В Facebook сначала подтвердили возможную продажу данных 50 млн пользователей, а затем увеличили эту цифру до 87 млн человек. Через несколько месяцев стало известно, что Twitter также продавал Cambridge Analytica данные пользователей, хотя и не в таких масштабах, как Facebook. За год до выборов в США, в 2015 году, Twitter дал аналитическому агентству доступ к данным пользователей, а также к случайной подборке твитов на тему выборов.

В докладе Cloud Security Alliance авторы отмечают, что уязвимость безопасности в отношение Big data как раз и определяется многообразием источников больших данных, а также их сбором и их передачей. Другими словами, те самые атрибуты, которые определяют само понятие Big data, являются главными факторами, влияющими на их уязвимость.

Авторы сообщают, что "традиционных механизмов безопасности, предназначенных для защиты небольших объёмов статичных данных, находящихся за межсетевыми экранами в полуизолированных сетях, уже недостаточно для защиты от современных угроз". Чтобы обезопасить собственные данные, в Cloud Security Alliance предлагают так называемую процедуру деидентификации, когда пользователям нужно удалить всю информацию, позволяющую установить личность, в том числе имена, адреса и телефоны. Сама по себе процедуру деидентификации нельзя назвать полноценной, но она может оказаться важным и действенным шагом в сохранении конфиденциальности данных.

Что это такое?

Как именно это работает?

Как компании используют Big data?

А как же конфиденциальность данных?

Подтверждение Email

Введите номер телефона