Давно хотел поговорить о таком понятии, как монетизация данных или Data monetization. Объем данных в компаниях как правило увеличиваются, стоимость систем хранения данных за 1Гб снижается, но затраты на накопление данных растут. И если данные не использовать в коммерческих целях (т.е. не пытаться их использовать, чтобы на них заработать), то по сути это деньги на ветер.

Кроме этого появляются программно-аппаратные комплексы, которые могут обрабатывать не только структурированные внутренние данные, но и внешние неструктурированные данные сети Интернет, например. Стоимость таких комплексов как правило очень велика. Как правило упоминается Big Data.

Но хотел бы подчеркнуть, что использовать BigData и не монетизировать данные, это просто пустая трата трудоресурсов и денег.  Это на самом деле очень большая проблема, в мире до сих пор достаточно мало кейсов, при которых накопление новых объемов данных прямо пропорционально эффективности. Как правило, такие кейсы придумывают вендоры, чтобы продать новые комплексы. И не всегда они легко реализуемы.

В России уже тоже достаточно много компаний, которые такие комплексы имеют, но по прежнему компании встречаются все с теми же проблемами. Как вернуть потраченные деньги во всю эту инфраструктуру.

Я слышал несколько очень потенциально интересных кейсов, которые могут быть решены на этих комплексах. Но могу точно сказать, что окупаемость их гораздо больше 3-5 лет.

Сейчас все идут по принципу, чем больше данных, тем лучше, объемы хранилищ разрастаются до 200-400 терабайт, у некоторых мировых компаний, они составляют 10-ки петабайт.

Потом нанимаются специалисты-аналитики и вокруг данных создается инфраструктура, которая думает, что делать со всем этим массивом и как получить хоть какую-то ценность от этих данных. Иногда, не спорю, это оправдано, но иногда, просто пустая трата времени.

Я бы предложил строить хранилища по другому принципу. Есть заказчик, он доказывает эффективность именно этого набора данных путем использования семплированной небольшой порции данных. Есть эффект, пожалуйста, храним и используем на регулярной основе. Нет эффекта от накопления или нет заказчика, в топку детальную информацию, храним только агрегаты, они занимают меньше времени, и если вдруг однажды необходимость их использования появится, то для тестирования идей иногда достаточно и агрегатов, если не достаточно, смотри пункт 1, маленькая выборка и вперед по циклу.

Это подход конечно может потребовать постоянного перестроения архитектуры. но на мой взгляд он не требует разрастания штата на содержания всего ненужного массива.

В конечном итоге ведет именно к эффективному использованию ресурсов.

Накапливайте данные с умом.

Если кому-то интересны реальные отраслевые кейсы и вы не знаете с чего начать, пишите на cases@fsecrets.ru, помогу чем смогу.

Удачи Вам!