Что такое “большие данные” / “big data”?

22 Марта 2023
Сбор и анализ больших объемов данных существовали всегда, статистические методы были разработаны еще в 19 веке. С появлением же новых технологий и инструментов стало возможным обрабатывать и анализировать намного большие и, на первый взгляд, никак не связанные между собой, бесструктурные объемы информации, что и привело к появлению термина "big data".

Что же такое – биг дата? Это не просто массив больших данных, это скорее процесс работы с этими данными, включающий в себя набор практик и инструментов по сбору, анализу, структурированию и управлению данными.

Одним из основных признаков big data является работа с неструктурированными данными, которые не имеют четкой организации или формата. Т.е. изначальным объектом биг даты является абсолютно рандомный (на первый взгляд) массив данных: небо голубое, воздух прохладный, в тарелке овсяная каша, на часах 11:52, настроение на троечку, пол ламинат, бензина в баке 1/4, а подруга третий час не отвечает на сообщение.

Однако, для работы с неструктурированными данными необходимы специальные инструменты и технологии, в том числе машинное обучение, обработка естественного языка, компьютерное зрение, и др., которые помогают:
1) собирать,
2) анализировать,
3) структурировать,
4) управлять,
5) применять полученные сведения с практической пользой.

И тут сразу возникает вопрос: кто будет это использовать? Да, друзья, большие данные неразрывно связаны с большим братом. Именно он озадачился этим вопросом, нашел и продолжает находить способы его решения, и, конечно, он сам и пользуется благами своего нелегкого труда.

--
Разберем простой и понятный телефонный пример:

Василий, проснулся в A часов B минут, от будильника с мелодией C, сработавшего в телефоне модель D, марка E. Первым делом прочитал новость F на сайте/канале G, почистил зубы пастой H, позавтракал яйцами I, оделся в J, вышел на улицу в городе K. И дальше до бесконечности: машина, заправка, офис компании, должность, рабочий компьютер, место обеда, и так далее, вот вам пригоршня параметров: L,M,NO,P,Q,R,S,T...
Почему привязка к телефону? Да потому что условный Google/Apple может сегодня вытащить это все из вашего карманного друга (коим вы его наивно полагаете). Представим, что у Google таких Василиев 2-3 млрд, у Apple под миллиард и так далее. И мы взяли только полдня и только в разрезе простых механических действий. А если брать неделями, годами, рассматривать мотивации, взгляды, нарративы? Так и получаются действительно БОЛЬШИЕ данные.

Оставляя за скобками сбор и анализ этих данных (читатель наверняка уже примерно понимает как это работает), возникает следующий вопрос: как их структурировать?

Принято выделять несколько V-признаков у биг даты. Изначально их было всего 3:
Volume - объем, т.е. непосредственное количество. Количество Василиев, количество параметров (A-∞), количество информации в каждой ячейке, итд.
Velocity - скорость, т.е. скорость накопления данных и самих параметров, скорость их обработки, анализа, структурирования, итд.
Variety - разнообразие, т.е. разнообразие опять же Василиев, параметров A-∞, форматов, подходов, методов, наличие хоть какой-то структуры или ее полное отсутствие (raw data, т.е. сырые данные), итд.

Впоследствии добавились еще несколько V, таких как Veracity (достоверность), Viability (жизнеспособность), Value (ценность), Variability (изменчивость), Visualization (тут понятно, надеюсь).

Очевидно, что сами владельцы бизнесов не занимаются лично биг датой, у них для этого в штате присутствуют всякие data scientist'ы, data miner'ы, data digger'ы и прочие увлекательные специальности, на которые люди долго учатся. И тут мы приходим к ценности механизмов: софт + железо. И в данном случае железо скорее даже важнее, ведь какой бы гениальный код ни был написан, сам по себе он явно не потянет BIG data. Миллиарды людей, миллионы параметров, триллионы строк – для этого нужны огромные дата-центры, занимающиеся только этим.

Но и софт тоже не стоит на месте. ИИ, машин-/дип-лернинг, расширенная аналитика и прочее – все это ориентировано на биг дату: собирать, обрабатывать, каталогизировать, и (в конечном итоге) использовать: реклама, прямые продажи, и даже банальный политический контроль - все это качественно усиливается за счет применения биг даты.

--
В качестве вывода, конечно, хочется дать пару Bespale-советов. Как не стать жертвой биг даты? Не стать еще одной строчкой в базе у жадных капиталистов и кровожадных коммунистов?

Тут надо трезво смотреть на вещи и принять тот факт, что мы все – уже давно строчки, причем в огромном количестве баз данных одновременно.

Но что-то же можно сделать?

Примерно то же, что мы и делаем в своем анонимном телефоне BespalePhone:
✅Отрезать пути сбора информации, например, убрать Google из телефона, или, как минимум, отрезать ему доступ в сеть (по остальным каналам сбора информации - мыслим по аналогии).
✅Мусорить/пачкать/зашумлять им выдачу: меняем IDs/IPs/GPS/ОПСОСs/etc, рвем связи между старым и новым.
✅Отрезать пути использования. Поскольку после структурирования идет главная цель: контролировать (убедить, продать, направить, итд), самым простым решением будет не реагировать на рекламу, не быть ее потребителем вообще (например, отключить ее в своих девайсах полностью, или хотя бы просто не переходить по ссылкам, не кликать на баннеры, пролистывать рекламные посты итд), не позволять чужим мыслям и нарративам управлять собой, своими поступками и желаниями.
Алена Масквина
BESPALE
pr@bespale.com