Big Data: как отличить важные данные от неважных?

Big Data: как отличить важные данные от неважных?

Андрей Семеркин Главред, Москва

Ваша компания тонет в потоках данных? Сочувствуем, но будет еще хуже: информационная лавина растет. Как быть?

Разбираемся с Джоном Тиммерманом из Teradata.

В случае если вас терзает вопрос о том, как изучить громадные потоки данных, то Джон Тиммерман из компании Teradata – тот самый человек, с которым вы имеете возможность поделиться наболевшим. У него редкая для русского бизнеса должность: Global Industry Evangelist. Это значит, что работа Джона пребывает в том, дабы наблюдать в будущее, видеть больше и дальше вторых, и растолковывать аудитории, что именно ее ожидает. Big Data в понимании Джона свидетельствует не «большое количество данных», но особенный тип структуры данных, в то время, когда сведения коррелированы между собой, но сообщение эта неоднопланова.

Изучение этих данных – непростая задача для менеджмента: их нужно изучить, по причине того, что они смогут содержать в себе весьма полезную данные для бизнеса. Либо не содержать – в этом случае вы должны быть готовы к тому, что напрасно израсходуете деньги на расчеты. Но вы не определите это, пока не попытаетесь:).

Но, результативность изучений зависит от того, как вы ставите цели и какие конкретно инструменты используете.

Executive.ru: Выражение Big Data («Громадные эти») стало очень распространенным. Какие конкретно, на ваш взор, эти мы можем вычислять «громадными»?

Джон Тиммерман: Из всех терминов на современном рынке термин «Громадные эти», пожалуй, самый некорректный. Я предпочитаю применять термины «неструктурированные» либо «мультиструктурированные» эти, по причине того, что обращение в конечном итоге идет не о фактическом количестве данных, а об их структуре либо внутренних отношениях. Разглядим, к примеру, термин «интегрированные информацию о клиенте».

В общем случае, мы создали бы схему, определяющую клиента, и комплект атрибутов этого клиента, каковые сохраняются вместе с записью о клиенте на базе каких-то установленных взаимоотношений. Эти атрибуты смогут включать, к примеру, номер счета, контактную данные, историю транзакций, историю общения, демографические эти, денежные модели, маркетинговый кластер и т. д. Вся эта информация имеет некую распознаваемую сообщение с клиентом и, в большинстве случаев, хранится в реляционной базе данных. Вместе с тем существуют эти, каковые на данный момент являются неструктурированными либо мультиструктурированными, и для которых нам еще малоизвестны все вероятные отношения.

Хорошие примеры — подробные записи о телефонных беседах, стенограммы и аудиозаписи звонков в работу помощи, файлы изображений, видеофайлы, звуковые файлы, эти датчиков, веб-теги и журналы, каковые легко еще не были связаны с какими-либо известными отношениями. Смогут ли кое-какие из источников и этих файлов быть громадного размера? Непременно.

Но мы именуем их «громадными» не из-за размера. Мы именуем их так из-за отношений и особой структуры, каковые существуют в этих данных.

Executive.ru: В одном из интервью вы заявили, что «громадные эти» – не новое явление. В случае если так, в каком виде эти сведенья планировали и изучались прежде?

Д.Т.: Я думаю, «Big Data» — всего лишь актуальное словечко для явления, которое мы замечаем уже много лет… и сейчас у нас, наконец, показались лучшие методы хранения, анализа и управления этих типов и источников данных, каковые оказывают помощь обнаруживать новые отношения, связи и закономерности. Мы применяли анализ тропов (от греч. tropos – поворот – слово либо оборот речи, употребленные в переносном значении – Executive.ru) в течении десятилетий. Совершенно верно так же, в течение многих лет мы собирали записи и стенограммы звонков в работу помощи. Мы постоянно сохраняли подробные записи о голосовых вызовах и веб-издания.

До недавнего времени у нас просто не было собирательного понятия для всех этих мультиструктурированных данных. Что в действительности ново, так это распространение разнообразных стандартизированных «песочниц» (средств обнаружения), каковые оказывают помощь последовательно и с высокой повторяемостью обнаруживать значимые отношения во всех этих данных без помощи отряда аналитиков.

Executive.ru: Человечество генерирует все больше данных. У вас имеется прогноз, сколько данных оно будет создавать, к примеру, через десятилетие?

Д.Т.: Как вы, возможно, понимаете, компания Teradata уже давно формирует решения, разрешающие руководить огромными количествами данных и последовательно делать бизнес-анализ самых разных видов данных из множества источников в масштабе предприятия. Вместо того дабы прогнозировать, в то время, когда как раз эти превысят определенный уровень, мы постоянно старались выходить далеко за пределы прогнозов. В то время, когда 25 лет назад я начал работату в Teradata, люди задавали вопросы, откуда взялось такое наименование – Teradata… так как никому ни при каких обстоятельствах не пригодится терабайт информации. Сейчас у меня дома имеется терабайтный диск с резервными копиями одних лишь фотографий с моей цифровой камеры. У нас имеется большое количество клиентов, каковые уже вступили в клуб «мультипетабайтеров». Мы создали архитектуру, которая разрешает обрабатывать очень громадные количества данных сейчас и разрешит делать это в не столь отдаленном будущем.

У меня имеется весьма и весьма расплывчатый ответ на вашу просьбу спрогнозировать, сколько данных человечество создаст через десятилетие. Астрологи предвещают, что в следующем десятилетии один телескоп SKA (Square Kilometre Array с матрицей площадью 1 кв. км.) будет обрабатывать и разбирать более 10 какое количество данных в час… либо 1 эксабайт каждые четыре дня. Я сомневаюсь, что население в более чем 7 млрд человек с целым комплектом цифровых устройств и датчиков будет создавать меньше данных.

Не смотря на то, что, непременно, не все маркетинговые компании будут вынуждены собирать и разбирать информацию о клиентах и бизнес-данные в таких астрономических масштабах, нетрудно представить, что дальновидные компании и лидеры отрасли с уверенностью достигнут предела в много эксабайт управляемых данных.

Executive.ru: А какое количество данных в потоке, создаваемом рынком, будут лишними либо невостребованными?

Д.Т.: Множество факторов определяет долю того, что есть лишним либо ненужным в громадных данных, я слышал оценки, существенно превышающие 90% — но это очень во многом зависит от комплекта данных. Кое-какие комплекты громадных данных кроме того близко не содержат таковой доли лишних либо ненужных данных, но вы не определите этого, пока не выполните последовательность действий по обнаружению и не выясните, какие конкретно значимые эти в действительности присутствуют в конкретном комплекте. Снова же, количество данных не так принципиально важно, как аналогии и закономерности, каковые смогут быть отысканы посредством аналитики и окажут помощь раскрыть настоящую сокровище всех данных. Да и то, что именно вы вычисляете нужным либо полезным, будет зависеть от вашей бизнес-стратегии применения данных в маркетинге. Само собой разумеется, именно тут полностью нужны две вещи: раннее обнаружение в рамках нескольких размерностей и моделей и эластичная и расширяемая аналитическая среда громадных данных. Потому, что эти смогут содержать большое количество «белого шума», принципиально важно иметь возможность скоро делать разные операции обнаружения данных, дабы возможно было скоро узнать, что направляться сохранять и разбирать прежде всего.

После этого, потому, что сложность и размеры этих сред обработки данных смогут быстро изменяться, нужна среда громадных данных, достаточно эластичная и расширяемая, дабы приспосабливаться к вашим неизменно изменяющимся требованиям.

Executive.ru: Это ставит менеджмент перед весьма тяжёлой задачей: компания не имеет возможности выяснить сокровище некого количества данных , пока она их не изучила. Со своей стороны, она не имеет возможности вечно изучить «на всякий случай» громадные количества данных, по причине того, что аналитика – дорогое наслаждение. Как ей быть?

Д.Т.: В этом состоит вся сущность среды обнаружения громадных данных — с ее помощью возможно выяснить, какие конкретно эти нужно собирать и какими из них нужно руководить. Без среды обнаружения вы идете вслепую и, возможно, тратите через чур много денег на аналитику, не достигая какое количество-нибудь ощутимого прогресса в увеличении качества обслуживания клиентов. В итоге, разве не для этого мы все это затеяли?

Не для того ли, чтобы выяснить, как мы можем лучше помогать человеку? По словам моего приятеля Стивена Бробста, главного технического директора Teradata, «время от времени эта отрасль напоминает шестилетних детей, играющих в футбол… все сосредот

spacer