Особенности сезонности

0

Хотел бы сегодня поговорить об особенности применения моделей сезонной декомпозиции.

Думаю все, кто так или иначе занимался прогнозированием, сталкивались с сезонной составляющей и вероятнее всего ее применяли. Но вероятно не многие задумывались о том, что за сезонностью могут скрываться абсолютно другие причины.

Всегда ли нужно применять модель сезонной декомпозиции, когда вам кажется что есть сезонная составляющая и я вам даже больше скажу бывают ситуации, когда и математические модели говорят о наличии сезонной составляющей, но после получение такого прогноза, факт может быть абсолютно другим и не всегда соответствующим тренду.

Давайте попробуем разобраться в каких ситуациях это происходит. Для универсальности и упрощения выявления факторов, я бы порекомендовал использовать классификацию CRTconnection(единовременные платежи), rent (регулярные платежи, основанные на ежемесячной фиксированной плате за месяц), traffic (платежи за конкретно потребляемый объем услуг).

С точки зрения Connection — тут все просто, как правило зависимость от изменения тарифов (например акции, распродажи и др. управляемые факторы) и сезонность достаточно очевидна, например, увеличение объемов продаж кондиционеров в летнее время. Поэтому достаточно проверить действительно ли менялись тарифы и товар подвержен сезонности.

С точки зрения rent — как правило, изменение может наступить в двух причинах, вы изменили тарифы, возможно предоставили скидку какому-то из клиентов с целью его удержания либо изменилось количество клиентов, увеличились продажи или отток. Для выявления этих факторов, достаточно иметь под рукой тренд продаж, оттока, список клиентов по которым проводилась работа по удержанию, список клиентов склонных к оттоку. Так как этот показатель не подвержен сезонности, а полностью зависит от управляемых вами факторов, то достаточно просто определить.

Самым сложным для выявления и анализа является traffic — объемы потребления конкретных услуг, например, для операторов связи это объем исходящих соединений. Здесь куда больше факторов может влиять на тренд. В этом случае в обязательном порядке присутствует сезонная составляющая, но она может быть «зашумлена». Во-первых, может меняться количество клиентов, во вторых клиент может изменить структуру потребления и резко уменьшить или увеличить объем, тренды этого изменения могут совпасть с сезонностью, тогда их достаточно сложно распознать по сгруппированным показателям. Решение найдется в детальном анализе клиентской базы. Если trafic сезонно себя ведет, в этом случае тренд будет однонаправленным по всем клиентам. Для упрощения анализа выгрузки при увеличенной базе клиентов, достаточно выделить только тех клиентов, чей тренд изменился больше чем в среднем. В этом случае объем выборки будет много меньше и выявить клиентов, у которых появились аномалии в поведении, будет много проще, эта же выборка сможет быть использована для проведения работы с клиентами, например, по удержанию. Если у вас есть список клиентов, с которыми проводилась работа, вы всегда сможете определить как изменилась среднедоходная такса на единицу продукции, а значит скорректировать тренд в соответствии с этим изменением, исключив этот фактор из сезонной составляющей.

Не ленитесь проводить детальный анализ, в этом случае вы, как аналитики, сможете не только построить корректный прогноз, но также выявить сегменты клиентов, с которыми требуется проведение дополнительной работы, а это более значимый вклад вашей работы в деятельность предприятия, чем простой прогноз трендов. Тут конечно стоит оговориться, что для некоторых отраслей угадывание трендов стоит дороже, но в большинстве коммерческих розничных предприятий не связанных с финансовыми рынками, этот подход вполне может оправдывать себя.

Удачи вам! Будьте полезны для своих компаний.

Big Data: Тренды 2015 года

0
  • Объем рынка Big Data достигнет $ 125 млрд и будет продолжать расти

  • Интернет вещей (Internet of things) станет мейнстримом

  • Алгоритмы принятия решений станут более продвинутыми

  • Текстовая аналитика будет использоваться все чаще 

  • Инструменты визуализации данных будет доминировать на рынке

  • Общество все больше будет опасаться за свою приватность

  • Компании будут бороться за талант в области работы с данными

  • Большие данные будут чаще использоваться для открытия тайн Вселенной

Все это сделает нашу жизнь более интересной! Удачи вам и с наступающим новым годом и Рождеством!

 

Экономим на моделировании с KNIME

0

Сегодня хотел бы познакомить читателей с одним из инструментов для Data mining.

Все уже наверное, кто так или иначе знаком с Data mining слышали про R, возможно, что многие уже успели даже поработать. Несмотря на богатое многообразие поддерживаемых методов, все-таки среда разработки достаточно специфическая, особенно для людей, далеких от программирования.

Речь пойдет про KNIME (http://www.knime.com) — это open sourse платформа для data driven инноваций (в том числе и методами data mining), которая в отличие от R, обладая достаточно богатым функционалом, имеет еще графический интерфейс.

Я бы сказал, что интерфейс этот ничем не уступает тому же SPSS.

И самое главное преимущество, это все полностью бесплатно. Конечно, если вы хотите поддержку, серверное решение, то придется немного заплатить, но все равно это деньги не соизмеримо меньшие, чем аналогичное решение у других вендоров.

Дистрибутив можно скачать с официального сайта. Там же есть раздел с демо-примерами, видеолекциями. Достаточно просто устанавливается. Честно скажу, глубоко не копался, но на первый взгляд все достаточно красиво, функционал достаточно богатый, который можно и расширять. Из минусов, это наверное отсутствие русского меню и документации. Но если с английским проблем нет, то я считаю, что это прекрасная альтернатива выкинуть дорогой пакет и использовать это решение.

Удачи вам!

Почему BigData стала трендом

0

25 фактов о BigData, что делает ее трендом.

  1. Каждые 2 дня мы создаем столько информации, сколько создали за все время до 2003 года [Source]
  2. Более 90% всех данных было создано за последние 2 года [Source]
  3. Ожидается, что к 2020 объем цифровой информации вырастетс 3.2 зетабайт до 40 зетабайт. [Source]
  4. Объем накапливаемой информации удваивается за 1.2 года [Source]
  5. Каждую минуту мы отправляем 204 миллиона электронных писемs, ставим 1,8 миллионов лайков в Facebook-е, отправляем 278 тысяч твитов, и закачиваем на Facebook 200 фотографий [Source]
  6. Только поисковик Google обрабатывает 40 тысяч поисковых запросов в секунду или 3.5 млрд. в день [Source]
  7. Каждую минуту на YouTube закачивается 100 часов видео, а для того, чтобы посмотреть одному пользователю видео, закаченное за день требуется 15 лет [Source]
  8. Пользователи Facebook 30 млрд раз расшаривают какую-либо информацию каждый день [Source]
  9. Если закачать все данные мира на DVD и поставить их один на другой, то можно дважды достичь луны [Source]
  10. База данных AT&T в объеме составляет 312 терабайт, содержит почти 2 триллиона 2 строк (и кстати это не самое большое хранилище ebay много больше). [Source]
  11. каждую минуту появляется 570 новых сайтов. [Source]
  12. 1.9 миллионов рабочих мест для IT специалистов будет создано для работы в области BigData в США к 015 году. Каждое из них будет генерить еще 2 рабочих места вне IT для обслуживания этих рабочих мест. Или 6 млн. рабочих мест только благодаря BigData [Source]
  13. Сегодня Дата центры занимают размер 6 тыс. футбольных полей [Source]
  14. Компании ежедневно обрабатывают 12 терабайт твитов для сентиментного анализа. [Source]
  15. Объем данных, пропускаемых через мобильную сеть в месяц увеличился на 81% с 2012 по 2014 год и достиг объема 1.5 экзабайта (1.5 миллиарда гигабайт).  [Source]
  16. Агентство национальной безопасности США анализирует 1.6% всего мирового Интернет трафика каждый день – около 30 петабайт (30 миллионов гигабайт) [Source]
  17. Объем рынка Hadoop вырастет с $2 миллиардов в 2013 до $50 миллиардов в 2020,  согласно отчету Allied Market Research. [Source]
  18. Количество бит в цифровой вселенной превысило количество звезд во всей вселенной в 2007 году [Source]
  19. В этом году уже будет больше 1.2 миллиардов пользователей смартфоново с сенсорным экраном и большой объемом памяти для хранения информации и объем будет только увеличиваться. [Source]
  20. Ожидается бум «Интернета вещей», это значит, что к сети Интернет будет подключена 50 млрд устройств к 2020 году, сейчас уже порядка 13 млрд. [Source]
  21. 12 миллионов RFID (беспроводный мониторинг устройств) используется для сбора данных и отслеживания движения объектов в физическом мире, эти устройства проданы в 2011 году. К 2021 их число устройств, отслеживающий объекты возрастет до 209 миллиардов. [Source]
  22. Big data используется для прогнозирования преступлений прежде чем они случаются, так пилот “predictive policing” в Калифорнии смог предсказать место преступления в 3 раза точнее чем все существовавшие ранее методы. [Source]
  23. При интеграции big data аналитики в зравоохранение, индустрия может сэкономить 300 млрд. в год согласно последним исследованиям или порядка 1 тыс. долл. в год на каждого человека [Source]
  24. Ритейлеры могут увеличить маржинальность на 60% используя всю мощь аналитики big data. [Source]
  25. Рынок big data вырастет с $10.2 млрд. долл. США в 2013 до $54.3 млрд. долл. США в 2017. [Source]
Это огромный скрытый рынок возможностей, разбросанный по многим отраслям индустрии, но который сделает жизнь человека лучше.
Удачи вам!

Мифы BigData (english)

0

Натолкнулся на интересные слайды «12 мифов о Big Data».

Миф 1. Никаких больших данных нет
Миф 2. Big Data означает просто больше данных
Миф 3. Big Data это стратегия
Миф 4. Чем больше данных тем лучше вы понимаете объект изучения
Миф 5. Big Data это дорого
Миф 6. Big Data дешево
Миф 7. Big Data это технологии
Миф 8. Big Data только для крупных компаний
Миф 9. Для Big Data нужен специалист по данным (Data Scientist)
Миф 10. Big Data дает конкурентное преимущество.
Миф 11. Big Data понятен всем и каждому
Миф 12. Big Data это что-то чем следует заниматься

Более подробно смотрите на слайдах

Вверх