Тренды

Data sharing и его преимущества для бизнеса

0

Data sharing еще один тренд — дословно «обмен данными»  — этой такой подход в научном сообществе, который позволяет делиться своими данными с другими исследователями.

А что если бы можно было использовать данные, доступные в одном бизнесе в другом и наоборот. Какой нескончаемый потенциал этих данных, насколько знания о клиентах можно было бы повысить и сделать таргетированные предложения более точечными.

Я считаю, что этот тренд уже реализуется многими успешными корпорациями, например, телекомы идут в банковскую сферу, розница двигается в сторону банковских переводов, почта двигается в сторону e-commerce и логистики. Есть масса других примеров.

На мой взгляд такие знания о клиентах дают большие преимущества, здесь как раз 1+1 = 3 реализуется в полной мере.

Но есть и негативные моменты.

Много говорится о приватности пользователей, хотят ли клиенты, чтобы о них столько знали? К сожалению правда такова, что используя приложения, используя соц. сети и сервисы геолокации мы уже позволяем знать о себе очень много и отказываемся от приватности.

Не всегда эта информация идет нам на пользу. Например, потенциальные работодатели могут отказаться от многообещающего сотрудника по причине его нестандартных политических взглядов. Кроме этого, многие сотрудники потеряли работу только потому что на страницах соц. сетей выразили мнение, которое отражает их индивидуальную точку зрения, которая может противоречить мнению «большинства».

Что дальше?

Сеть Интернет содержит в себе множество информации о клиентах и с развитием инструментов text mining вероятно появятся целые открытые библиотеки, которые будут содержать информацию о пользователях и их предпочтениях. Возможно, такие данные в скором времени можно будет получить бесплатно или за деньги.

А с развитием тренда IoT (Интернета вещей), не удивлюсь, что в скором времени о всех пользователей микроволновок будет известно, что человек ел на обед или ужин, какой запас яиц у него остался в холодильнике, а в супермаркете людям будут напоминать, что у вас заканчивается сливочное масло, не хотите ли купить его по спец. цене.

Ждем с нетерпением появления новых инструментов, которая позволят улучшить нашу жизнь!

Удачи вам!

Нужно ли компании Data Lake

0

Недавно услышал новый термин, Data Lake (Озеро данных) — речь идет о подходе к хранению больших данных. Не нужно тратить большие деньги на преобразование данных, а нужно хранить их в первоначальном виде. Вероятно, тогда хранить эти данные дешевле. Главное, чтобы к ним был простой доступ и возможность их оперативного использования в случае необходимости.

CTO компании Teradata Стивен Бробст сформулировал  5 заповедей «озера данных» (взял в статье на Cnews).

Он приводит 5 простых советов по развертыванию «озер данных», которые позволят компаниям эффективнее использовать накапливаемые данные.

Не засоряйте «озеро данных». При том, что данные могут храниться в «озере» без структуры, все же имеет смысл сразу организовывать пространство для хранения и размещать данные по категориям. Тогда любой пользователь сможет быстрее найти и применить необходимые ему данные. А «озеро» не превратится в «болото».

Обеспечьте безопасность данных в «озере». Защита персональных данных и конфиденциальной информации сразу должна стать первостепенной задачей. Данные из «озера» не должны «утекать» или создавать проблемы с регуляторами.

Снабдите аналитиков необходимыми инструментами для исследования, профилирования и получения ответов на свои запросы из «озера данных». С данными сразу должны иметь возможность работы не только (и не столько) разработчики, но и бизнес-специалисты, которым эти инструменты будут полезны.

Поддерживайте доверие к данным. Данным из «озера» будут доверять, и для поддержки этого доверия нужно, как минимум, фиксировать их происхождение. Особое внимание следует уделить качеству метаданных.

Свяжите «озеро данных» с аналитической экосистемой предприятия. В «озере» должны накапливаться структурированные, полуструктурированные и неструктурированные данные, а само по себе «озеро» будет представлять симбиоз технологий Hadoop, реляционных баз данных и NoSQL, а также облачных сервисов. При этом «аппаратная» составляющая должна быть выбрана по принципу минимальной стоимости хранения информации. В идеале все данные должны храниться «вечно», но с минимальными издержками.

 

Несмотря на то, что термин новый, не скажу, что это какой-то новый подход. Раньше компании им также пользовались, допустим хранили данные на низкоскоростных жестких дисках, которые дешевле, а все что нужно использовать регулярно имеется в хранилище на быстрых дисках или in-memory. Я конечно во всем вижу маркетинговые ходы, и конечно Teradata не исключение, в том плане что новая философия больше навязывается с целью продать свое оборудование. Я же считаю, что не всем оно нужно, и не обязательно делать это самое озеро. Опять же нужно точно отдавать себе отчет, что данные будут использоваться, а не просто храниться, в надежде на авось пригодится. Более того, я считаю, что глубина хранения данных уже не столь актуальна, потому что мы настолько стремительно все меняемся с появлением новых технологий, что за год происходят значительные изменения в поведении, соответственно детальные сырцы с историей хранения больше года имеют все меньшую прикладную ценность. Поэтому прежде чем использовать новомодную философию, подумайте, действительно оно вам нужно?

Или вами движет намерение пощеголять новомодными словечками на конференции, вот мы сделали Data Lake, вот мы такие крутые.

Если вы технические спецы, спросите бизнес, как они это используют? Конечно, иногда такие вопросы воспринимаются в штыки, типа вам какая разница как используется, нам нужно. Называйте конкретную цену хранения, попросите защитить кейсы. Не всегда оно нужно, поверьте.

И в заключении небольшая классификация ПО. Очень мне понравился график Тома Андерсена. Не могу не поделиться.

Удачи вам! Подходите к хранению данных с умом.

Особенности сезонности

0

Хотел бы сегодня поговорить об особенности применения моделей сезонной декомпозиции.

Думаю все, кто так или иначе занимался прогнозированием, сталкивались с сезонной составляющей и вероятнее всего ее применяли. Но вероятно не многие задумывались о том, что за сезонностью могут скрываться абсолютно другие причины.

Всегда ли нужно применять модель сезонной декомпозиции, когда вам кажется что есть сезонная составляющая и я вам даже больше скажу бывают ситуации, когда и математические модели говорят о наличии сезонной составляющей, но после получение такого прогноза, факт может быть абсолютно другим и не всегда соответствующим тренду.

Давайте попробуем разобраться в каких ситуациях это происходит. Для универсальности и упрощения выявления факторов, я бы порекомендовал использовать классификацию CRTconnection(единовременные платежи), rent (регулярные платежи, основанные на ежемесячной фиксированной плате за месяц), traffic (платежи за конкретно потребляемый объем услуг).

С точки зрения Connection — тут все просто, как правило зависимость от изменения тарифов (например акции, распродажи и др. управляемые факторы) и сезонность достаточно очевидна, например, увеличение объемов продаж кондиционеров в летнее время. Поэтому достаточно проверить действительно ли менялись тарифы и товар подвержен сезонности.

С точки зрения rent — как правило, изменение может наступить в двух причинах, вы изменили тарифы, возможно предоставили скидку какому-то из клиентов с целью его удержания либо изменилось количество клиентов, увеличились продажи или отток. Для выявления этих факторов, достаточно иметь под рукой тренд продаж, оттока, список клиентов по которым проводилась работа по удержанию, список клиентов склонных к оттоку. Так как этот показатель не подвержен сезонности, а полностью зависит от управляемых вами факторов, то достаточно просто определить.

Самым сложным для выявления и анализа является traffic — объемы потребления конкретных услуг, например, для операторов связи это объем исходящих соединений. Здесь куда больше факторов может влиять на тренд. В этом случае в обязательном порядке присутствует сезонная составляющая, но она может быть «зашумлена». Во-первых, может меняться количество клиентов, во вторых клиент может изменить структуру потребления и резко уменьшить или увеличить объем, тренды этого изменения могут совпасть с сезонностью, тогда их достаточно сложно распознать по сгруппированным показателям. Решение найдется в детальном анализе клиентской базы. Если trafic сезонно себя ведет, в этом случае тренд будет однонаправленным по всем клиентам. Для упрощения анализа выгрузки при увеличенной базе клиентов, достаточно выделить только тех клиентов, чей тренд изменился больше чем в среднем. В этом случае объем выборки будет много меньше и выявить клиентов, у которых появились аномалии в поведении, будет много проще, эта же выборка сможет быть использована для проведения работы с клиентами, например, по удержанию. Если у вас есть список клиентов, с которыми проводилась работа, вы всегда сможете определить как изменилась среднедоходная такса на единицу продукции, а значит скорректировать тренд в соответствии с этим изменением, исключив этот фактор из сезонной составляющей.

Не ленитесь проводить детальный анализ, в этом случае вы, как аналитики, сможете не только построить корректный прогноз, но также выявить сегменты клиентов, с которыми требуется проведение дополнительной работы, а это более значимый вклад вашей работы в деятельность предприятия, чем простой прогноз трендов. Тут конечно стоит оговориться, что для некоторых отраслей угадывание трендов стоит дороже, но в большинстве коммерческих розничных предприятий не связанных с финансовыми рынками, этот подход вполне может оправдывать себя.

Удачи вам! Будьте полезны для своих компаний.

Big Data: Тренды 2015 года

0
  • Объем рынка Big Data достигнет $ 125 млрд и будет продолжать расти

  • Интернет вещей (Internet of things) станет мейнстримом

  • Алгоритмы принятия решений станут более продвинутыми

  • Текстовая аналитика будет использоваться все чаще 

  • Инструменты визуализации данных будет доминировать на рынке

  • Общество все больше будет опасаться за свою приватность

  • Компании будут бороться за талант в области работы с данными

  • Большие данные будут чаще использоваться для открытия тайн Вселенной

Все это сделает нашу жизнь более интересной! Удачи вам и с наступающим новым годом и Рождеством!

 

Почему BigData стала трендом

0

25 фактов о BigData, что делает ее трендом.

  1. Каждые 2 дня мы создаем столько информации, сколько создали за все время до 2003 года [Source]
  2. Более 90% всех данных было создано за последние 2 года [Source]
  3. Ожидается, что к 2020 объем цифровой информации вырастетс 3.2 зетабайт до 40 зетабайт. [Source]
  4. Объем накапливаемой информации удваивается за 1.2 года [Source]
  5. Каждую минуту мы отправляем 204 миллиона электронных писемs, ставим 1,8 миллионов лайков в Facebook-е, отправляем 278 тысяч твитов, и закачиваем на Facebook 200 фотографий [Source]
  6. Только поисковик Google обрабатывает 40 тысяч поисковых запросов в секунду или 3.5 млрд. в день [Source]
  7. Каждую минуту на YouTube закачивается 100 часов видео, а для того, чтобы посмотреть одному пользователю видео, закаченное за день требуется 15 лет [Source]
  8. Пользователи Facebook 30 млрд раз расшаривают какую-либо информацию каждый день [Source]
  9. Если закачать все данные мира на DVD и поставить их один на другой, то можно дважды достичь луны [Source]
  10. База данных AT&T в объеме составляет 312 терабайт, содержит почти 2 триллиона 2 строк (и кстати это не самое большое хранилище ebay много больше). [Source]
  11. каждую минуту появляется 570 новых сайтов. [Source]
  12. 1.9 миллионов рабочих мест для IT специалистов будет создано для работы в области BigData в США к 015 году. Каждое из них будет генерить еще 2 рабочих места вне IT для обслуживания этих рабочих мест. Или 6 млн. рабочих мест только благодаря BigData [Source]
  13. Сегодня Дата центры занимают размер 6 тыс. футбольных полей [Source]
  14. Компании ежедневно обрабатывают 12 терабайт твитов для сентиментного анализа. [Source]
  15. Объем данных, пропускаемых через мобильную сеть в месяц увеличился на 81% с 2012 по 2014 год и достиг объема 1.5 экзабайта (1.5 миллиарда гигабайт).  [Source]
  16. Агентство национальной безопасности США анализирует 1.6% всего мирового Интернет трафика каждый день – около 30 петабайт (30 миллионов гигабайт) [Source]
  17. Объем рынка Hadoop вырастет с $2 миллиардов в 2013 до $50 миллиардов в 2020,  согласно отчету Allied Market Research. [Source]
  18. Количество бит в цифровой вселенной превысило количество звезд во всей вселенной в 2007 году [Source]
  19. В этом году уже будет больше 1.2 миллиардов пользователей смартфоново с сенсорным экраном и большой объемом памяти для хранения информации и объем будет только увеличиваться. [Source]
  20. Ожидается бум «Интернета вещей», это значит, что к сети Интернет будет подключена 50 млрд устройств к 2020 году, сейчас уже порядка 13 млрд. [Source]
  21. 12 миллионов RFID (беспроводный мониторинг устройств) используется для сбора данных и отслеживания движения объектов в физическом мире, эти устройства проданы в 2011 году. К 2021 их число устройств, отслеживающий объекты возрастет до 209 миллиардов. [Source]
  22. Big data используется для прогнозирования преступлений прежде чем они случаются, так пилот “predictive policing” в Калифорнии смог предсказать место преступления в 3 раза точнее чем все существовавшие ранее методы. [Source]
  23. При интеграции big data аналитики в зравоохранение, индустрия может сэкономить 300 млрд. в год согласно последним исследованиям или порядка 1 тыс. долл. в год на каждого человека [Source]
  24. Ритейлеры могут увеличить маржинальность на 60% используя всю мощь аналитики big data. [Source]
  25. Рынок big data вырастет с $10.2 млрд. долл. США в 2013 до $54.3 млрд. долл. США в 2017. [Source]
Это огромный скрытый рынок возможностей, разбросанный по многим отраслям индустрии, но который сделает жизнь человека лучше.
Удачи вам!

Вверх