Big Data

Data sharing и его преимущества для бизнеса

0

Data sharing еще один тренд — дословно «обмен данными»  — этой такой подход в научном сообществе, который позволяет делиться своими данными с другими исследователями.

А что если бы можно было использовать данные, доступные в одном бизнесе в другом и наоборот. Какой нескончаемый потенциал этих данных, насколько знания о клиентах можно было бы повысить и сделать таргетированные предложения более точечными.

Я считаю, что этот тренд уже реализуется многими успешными корпорациями, например, телекомы идут в банковскую сферу, розница двигается в сторону банковских переводов, почта двигается в сторону e-commerce и логистики. Есть масса других примеров.

На мой взгляд такие знания о клиентах дают большие преимущества, здесь как раз 1+1 = 3 реализуется в полной мере.

Но есть и негативные моменты.

Много говорится о приватности пользователей, хотят ли клиенты, чтобы о них столько знали? К сожалению правда такова, что используя приложения, используя соц. сети и сервисы геолокации мы уже позволяем знать о себе очень много и отказываемся от приватности.

Не всегда эта информация идет нам на пользу. Например, потенциальные работодатели могут отказаться от многообещающего сотрудника по причине его нестандартных политических взглядов. Кроме этого, многие сотрудники потеряли работу только потому что на страницах соц. сетей выразили мнение, которое отражает их индивидуальную точку зрения, которая может противоречить мнению «большинства».

Что дальше?

Сеть Интернет содержит в себе множество информации о клиентах и с развитием инструментов text mining вероятно появятся целые открытые библиотеки, которые будут содержать информацию о пользователях и их предпочтениях. Возможно, такие данные в скором времени можно будет получить бесплатно или за деньги.

А с развитием тренда IoT (Интернета вещей), не удивлюсь, что в скором времени о всех пользователей микроволновок будет известно, что человек ел на обед или ужин, какой запас яиц у него остался в холодильнике, а в супермаркете людям будут напоминать, что у вас заканчивается сливочное масло, не хотите ли купить его по спец. цене.

Ждем с нетерпением появления новых инструментов, которая позволят улучшить нашу жизнь!

Удачи вам!

Нужно ли компании Data Lake

0

Недавно услышал новый термин, Data Lake (Озеро данных) — речь идет о подходе к хранению больших данных. Не нужно тратить большие деньги на преобразование данных, а нужно хранить их в первоначальном виде. Вероятно, тогда хранить эти данные дешевле. Главное, чтобы к ним был простой доступ и возможность их оперативного использования в случае необходимости.

CTO компании Teradata Стивен Бробст сформулировал  5 заповедей «озера данных» (взял в статье на Cnews).

Он приводит 5 простых советов по развертыванию «озер данных», которые позволят компаниям эффективнее использовать накапливаемые данные.

Не засоряйте «озеро данных». При том, что данные могут храниться в «озере» без структуры, все же имеет смысл сразу организовывать пространство для хранения и размещать данные по категориям. Тогда любой пользователь сможет быстрее найти и применить необходимые ему данные. А «озеро» не превратится в «болото».

Обеспечьте безопасность данных в «озере». Защита персональных данных и конфиденциальной информации сразу должна стать первостепенной задачей. Данные из «озера» не должны «утекать» или создавать проблемы с регуляторами.

Снабдите аналитиков необходимыми инструментами для исследования, профилирования и получения ответов на свои запросы из «озера данных». С данными сразу должны иметь возможность работы не только (и не столько) разработчики, но и бизнес-специалисты, которым эти инструменты будут полезны.

Поддерживайте доверие к данным. Данным из «озера» будут доверять, и для поддержки этого доверия нужно, как минимум, фиксировать их происхождение. Особое внимание следует уделить качеству метаданных.

Свяжите «озеро данных» с аналитической экосистемой предприятия. В «озере» должны накапливаться структурированные, полуструктурированные и неструктурированные данные, а само по себе «озеро» будет представлять симбиоз технологий Hadoop, реляционных баз данных и NoSQL, а также облачных сервисов. При этом «аппаратная» составляющая должна быть выбрана по принципу минимальной стоимости хранения информации. В идеале все данные должны храниться «вечно», но с минимальными издержками.

 

Несмотря на то, что термин новый, не скажу, что это какой-то новый подход. Раньше компании им также пользовались, допустим хранили данные на низкоскоростных жестких дисках, которые дешевле, а все что нужно использовать регулярно имеется в хранилище на быстрых дисках или in-memory. Я конечно во всем вижу маркетинговые ходы, и конечно Teradata не исключение, в том плане что новая философия больше навязывается с целью продать свое оборудование. Я же считаю, что не всем оно нужно, и не обязательно делать это самое озеро. Опять же нужно точно отдавать себе отчет, что данные будут использоваться, а не просто храниться, в надежде на авось пригодится. Более того, я считаю, что глубина хранения данных уже не столь актуальна, потому что мы настолько стремительно все меняемся с появлением новых технологий, что за год происходят значительные изменения в поведении, соответственно детальные сырцы с историей хранения больше года имеют все меньшую прикладную ценность. Поэтому прежде чем использовать новомодную философию, подумайте, действительно оно вам нужно?

Или вами движет намерение пощеголять новомодными словечками на конференции, вот мы сделали Data Lake, вот мы такие крутые.

Если вы технические спецы, спросите бизнес, как они это используют? Конечно, иногда такие вопросы воспринимаются в штыки, типа вам какая разница как используется, нам нужно. Называйте конкретную цену хранения, попросите защитить кейсы. Не всегда оно нужно, поверьте.

И в заключении небольшая классификация ПО. Очень мне понравился график Тома Андерсена. Не могу не поделиться.

Удачи вам! Подходите к хранению данных с умом.

Big Data: Тренды 2015 года

0
  • Объем рынка Big Data достигнет $ 125 млрд и будет продолжать расти

  • Интернет вещей (Internet of things) станет мейнстримом

  • Алгоритмы принятия решений станут более продвинутыми

  • Текстовая аналитика будет использоваться все чаще 

  • Инструменты визуализации данных будет доминировать на рынке

  • Общество все больше будет опасаться за свою приватность

  • Компании будут бороться за талант в области работы с данными

  • Большие данные будут чаще использоваться для открытия тайн Вселенной

Все это сделает нашу жизнь более интересной! Удачи вам и с наступающим новым годом и Рождеством!

 

Экономим на моделировании с KNIME

0

Сегодня хотел бы познакомить читателей с одним из инструментов для Data mining.

Все уже наверное, кто так или иначе знаком с Data mining слышали про R, возможно, что многие уже успели даже поработать. Несмотря на богатое многообразие поддерживаемых методов, все-таки среда разработки достаточно специфическая, особенно для людей, далеких от программирования.

Речь пойдет про KNIME (http://www.knime.com) — это open sourse платформа для data driven инноваций (в том числе и методами data mining), которая в отличие от R, обладая достаточно богатым функционалом, имеет еще графический интерфейс.

Я бы сказал, что интерфейс этот ничем не уступает тому же SPSS.

И самое главное преимущество, это все полностью бесплатно. Конечно, если вы хотите поддержку, серверное решение, то придется немного заплатить, но все равно это деньги не соизмеримо меньшие, чем аналогичное решение у других вендоров.

Дистрибутив можно скачать с официального сайта. Там же есть раздел с демо-примерами, видеолекциями. Достаточно просто устанавливается. Честно скажу, глубоко не копался, но на первый взгляд все достаточно красиво, функционал достаточно богатый, который можно и расширять. Из минусов, это наверное отсутствие русского меню и документации. Но если с английским проблем нет, то я считаю, что это прекрасная альтернатива выкинуть дорогой пакет и использовать это решение.

Удачи вам!

Почему BigData стала трендом

0

25 фактов о BigData, что делает ее трендом.

  1. Каждые 2 дня мы создаем столько информации, сколько создали за все время до 2003 года [Source]
  2. Более 90% всех данных было создано за последние 2 года [Source]
  3. Ожидается, что к 2020 объем цифровой информации вырастетс 3.2 зетабайт до 40 зетабайт. [Source]
  4. Объем накапливаемой информации удваивается за 1.2 года [Source]
  5. Каждую минуту мы отправляем 204 миллиона электронных писемs, ставим 1,8 миллионов лайков в Facebook-е, отправляем 278 тысяч твитов, и закачиваем на Facebook 200 фотографий [Source]
  6. Только поисковик Google обрабатывает 40 тысяч поисковых запросов в секунду или 3.5 млрд. в день [Source]
  7. Каждую минуту на YouTube закачивается 100 часов видео, а для того, чтобы посмотреть одному пользователю видео, закаченное за день требуется 15 лет [Source]
  8. Пользователи Facebook 30 млрд раз расшаривают какую-либо информацию каждый день [Source]
  9. Если закачать все данные мира на DVD и поставить их один на другой, то можно дважды достичь луны [Source]
  10. База данных AT&T в объеме составляет 312 терабайт, содержит почти 2 триллиона 2 строк (и кстати это не самое большое хранилище ebay много больше). [Source]
  11. каждую минуту появляется 570 новых сайтов. [Source]
  12. 1.9 миллионов рабочих мест для IT специалистов будет создано для работы в области BigData в США к 015 году. Каждое из них будет генерить еще 2 рабочих места вне IT для обслуживания этих рабочих мест. Или 6 млн. рабочих мест только благодаря BigData [Source]
  13. Сегодня Дата центры занимают размер 6 тыс. футбольных полей [Source]
  14. Компании ежедневно обрабатывают 12 терабайт твитов для сентиментного анализа. [Source]
  15. Объем данных, пропускаемых через мобильную сеть в месяц увеличился на 81% с 2012 по 2014 год и достиг объема 1.5 экзабайта (1.5 миллиарда гигабайт).  [Source]
  16. Агентство национальной безопасности США анализирует 1.6% всего мирового Интернет трафика каждый день – около 30 петабайт (30 миллионов гигабайт) [Source]
  17. Объем рынка Hadoop вырастет с $2 миллиардов в 2013 до $50 миллиардов в 2020,  согласно отчету Allied Market Research. [Source]
  18. Количество бит в цифровой вселенной превысило количество звезд во всей вселенной в 2007 году [Source]
  19. В этом году уже будет больше 1.2 миллиардов пользователей смартфоново с сенсорным экраном и большой объемом памяти для хранения информации и объем будет только увеличиваться. [Source]
  20. Ожидается бум «Интернета вещей», это значит, что к сети Интернет будет подключена 50 млрд устройств к 2020 году, сейчас уже порядка 13 млрд. [Source]
  21. 12 миллионов RFID (беспроводный мониторинг устройств) используется для сбора данных и отслеживания движения объектов в физическом мире, эти устройства проданы в 2011 году. К 2021 их число устройств, отслеживающий объекты возрастет до 209 миллиардов. [Source]
  22. Big data используется для прогнозирования преступлений прежде чем они случаются, так пилот “predictive policing” в Калифорнии смог предсказать место преступления в 3 раза точнее чем все существовавшие ранее методы. [Source]
  23. При интеграции big data аналитики в зравоохранение, индустрия может сэкономить 300 млрд. в год согласно последним исследованиям или порядка 1 тыс. долл. в год на каждого человека [Source]
  24. Ритейлеры могут увеличить маржинальность на 60% используя всю мощь аналитики big data. [Source]
  25. Рынок big data вырастет с $10.2 млрд. долл. США в 2013 до $54.3 млрд. долл. США в 2017. [Source]
Это огромный скрытый рынок возможностей, разбросанный по многим отраслям индустрии, но который сделает жизнь человека лучше.
Удачи вам!

Вверх
Яндекс.Метрика