Кейсы

Извлекаем выгоду из рациональности

0

Хотелось бы порассуждать на тему, а сколько реально можно сэкономить/заработать, если полностью абстрагироваться от эмоционального поведения и довериться рациональному, основанному не на чувствах, а на конкретных фактах (читать цифрах). Конечно, цифры при этом должны быть полностью интерпретированы и укладываться в общее понимание мира.

Возьмем для примера задачу оптимизации тарифной политики. Я буду рассматривать на примере телекома, но в принципе ничего не мешает, такие же рассуждения применить к другим отраслям. Возьмем, например, провайдера проводного доступа в Интернет. У него есть линейка тарифов, понятно, что она со временем меняется, какие-то абоненты сидят на архивных тарифных планах, т.е. они менее рациональны и скорее всего переплачивают, какие-то абоненты, возможно, сидят на акционных предложениях, в этом случае может быть как ситуация с переплатой так и с экономией.
Если проанализировать распределение абонентов по ARPU, скорее всего, график распределения будет близок к нормальному, возможно с некоторым сдвигом в стороны минимальной границы тарифных планов, с локальными максимами в тарифах. При этом, он скорее всего будет функцией непрерывной, так как есть абоненты, которые уходят в блокировку, есть абоненты, которые подключились в середине периода, соответственно ARPU таких абонентов будет представлять из себя вид растущей линейной функцией с максимумом в виде тарифа (возможно, он будет увеличен еще на максимум из суммы тарифов доп. услуг). Если тарифные планы с оплатой по трафику, скорее линейная непрерывная функция.
Как правило, для увеличения эффективности работы с абонентской базы, менеджеры разрабатывают стимулирующие мероприятия для перехода клиентов в сегмент с большим ARPU. «Растят» абонентов. Это может быть как за счет увеличения скорости (но с некоторой скорости спрос становится неэлластичным, т.е. не имеет смысл абоненту переходить на тарифный план с большей скоростью и, как следствие более дорогим), так и за счет некоторого включенного в пакет набора дополнительных услуг (тут тоже есть предел, так как доп. услуги могут быть с высокой себестоимостью, либо попросту неинтересны абоненту). Понятно, что в какой-то момент времени и эти мероприятия попросту перестают работать или становятся менее эффективны (в момент когда эффект ниже чем затраты на коммуникацию, в этом случае нет смысла продолжать).
Если отбросить абонентов, которые уходили в расчетном периоде в блокировку, подключались в расчетном периоде, то скорее всего график из себя будет представлять точки в виде тарифов. Ну или если сделать веса в виде количества абонентов, то скорее всего это будет похоже на бусины, которые переходят от большего к меньшей до какого-то момента, с увеличение на конце с последующим убыванием. Это связано с неким премиум-сегментом, который иногда доходит и до 10%, который не считает денег, а привык брать самое дорогое.
Если анализировать поведение всех абонентов, то они, как правило, в среднем иррациональны, и переплачивают за свою иррациональность по моим наблюдениям процентов 20%. Задача любого аналитика сделать такую иррациональность максимальной.
И тут есть несколько инструментов:
1. Предложить больше услуг за чуть большие деньги. Но при этом себестоимость должна увеличиться меньше чем сумма, на которую увеличивается чек.
2. Предложить существенное увеличение скорости за чуть меньшие деньги, принцип с себестоимостью тот же.
3. Индексировать архивные тарифные планы. Не люблю такие приемчики, но они работают. Это позволяет расшевелить иррациональных абонентов и «уложить» их в правильные тарифы. Но тут с точки зрения удержания все должно работать как часы. В противном случае можно и навредить. Большинство абонентов вряд ли будут дергаться из-за переплаты 50 рублей.
4. При авансовой системе следить за своевременным пополнением счета и напоминать заранее абоненту пополнить его. Ведь каждый день простоя это минус в ARPU. При кредитной аналогично. Тут тоже есть инструменты в виде обещанного платежа, доверительного кредита и т.д. Все что заставляет абонента пользоваться дальше услугой без перерыва. Интересно, но факт, что разница в ARPU между авансовой системой расчета и кредитной составляет более 10% в пользу последней, самую большую разницу, которую я видел, составляла 25%.

Это все работает, проверено опытным путем. Но есть и более сложные механизмы, которые тяжело поддерживают, но которые позволяют выжать максимум. Каждый абонент имеет свою границу комфорта затрат на конкретный товар или услугу и конкретную границу неэластичной переплаты. Чем лучше вы понимаете абонента и знаете его границу комфорта тем эффективнее вы можете работать с таким абонентом. Есть компания Pontis, которая декларирует принцип Segment of one (об индивидуальной работе с каждым абонентом), они в основном специализируются на Top Up кампаниях для абонентов мобильной связи, идея которых заключается в стимулировании пополнения счета, и, за счет направленных предложениях, которые позволяют как можно быстрее этот счет уменьшить.
Такой принцип можно транслировать и на ценообразование. Мне пока сложно представить себе индивидуальный тариф для многомиллионной абонентской базы, но в теории это возможно, это сложно поддерживать, актуализировать, но возможно, при наличии определенных принципов, заложенных в модель, в этом случае вы еще больше можете «выжать» из абонентской базы. Однако, если вспомнить, даже школьную математику, то можно выжать некоторый эффект с помощью небольших усилий. Не обязательно делать индивидуальный тариф для каждого абонента. Добавление тарифов посередине интервалов, уже дает вам 50% от максимально возможного эффекта, следующая итерация деления пополам еще 25%. Т.е. если вы между границ тарифов уложите еще по 3 тарифа, вы можете выжать 75% из максимально возможного эффекта. Понятно, что какое-то время уйдет на стимулирование перехода, но это можно сделать.
В случае других товаров, это может быть такой же товар в другой упаковке за чуть большие деньги. Кто экономит, возьмет подешевле, кто нет, возьмет подороже. В рознице есть еще трюки, связанные с доступностью, перед глазами располагают самый дорогой товар, а на нижние полки, куда неудобно наклоняться, товар подешевле.

Также можно поступать и с оптимизаций затрат. Как правило, очень сложно представить себе ситуацию, при которой за период количество закупаемой продукции = количеству продаваемой. При аренде магистрального Интернет, это сделать еще сложнее, но также возможно. Важно знать, сколько вы продаете за период, какую полосу потребляют ваши абоненты и минимизировать эти запасы (читать переплаты).
В свое время, я решал подобные задачки на заре развития, удавалось экономить и зарабатывать на таких моделях достаточно много денег.
Я вам как-то рассказывал о задачке в электроэнергетике, оптовая закупка и продажа конечному потребителю, в телекоме и рознице похожий принцип. В случае значительного роста потребления, когда идет большое непрерывное расширение ресурса/закупки продукции (читать затрат), экономия при решении такой задачи может достигать огромных масштабов. Максимальная экономия может составлять до 50% дополнительных затрат за период. В среднем, с небольшим изменением бизнес-процессов, можно достаточно просто достигать 25-37%.

Удачи вам, будьте рациональны, это может значительно увеличить вашу эффективность.

Монетизация данных

0

Давно хотел поговорить о таком понятии, как монетизация данных или Data monetization. Объем данных в компаниях как правило увеличиваются, стоимость систем хранения данных за 1Гб снижается, но затраты на накопление данных растут. И если данные не использовать в коммерческих целях (т.е. не пытаться их использовать, чтобы на них заработать), то по сути это деньги на ветер.

Кроме этого появляются программно-аппаратные комплексы, которые могут обрабатывать не только структурированные внутренние данные, но и внешние неструктурированные данные сети Интернет, например. Стоимость таких комплексов как правило очень велика. Как правило упоминается Big Data.

Но хотел бы подчеркнуть, что использовать BigData и не монетизировать данные, это просто пустая трата трудоресурсов и денег.  Это на самом деле очень большая проблема, в мире до сих пор достаточно мало кейсов, при которых накопление новых объемов данных прямо пропорционально эффективности. Как правило, такие кейсы придумывают вендоры, чтобы продать новые комплексы. И не всегда они легко реализуемы.

В России уже тоже достаточно много компаний, которые такие комплексы имеют, но по прежнему компании встречаются все с теми же проблемами. Как вернуть потраченные деньги во всю эту инфраструктуру.

Я слышал несколько очень потенциально интересных кейсов, которые могут быть решены на этих комплексах. Но могу точно сказать, что окупаемость их гораздо больше 3-5 лет.

Сейчас все идут по принципу, чем больше данных, тем лучше, объемы хранилищ разрастаются до 200-400 терабайт, у некоторых мировых компаний, они составляют 10-ки петабайт.

Потом нанимаются специалисты-аналитики и вокруг данных создается инфраструктура, которая думает, что делать со всем этим массивом и как получить хоть какую-то ценность от этих данных. Иногда, не спорю, это оправдано, но иногда, просто пустая трата времени.

Я бы предложил строить хранилища по другому принципу. Есть заказчик, он доказывает эффективность именно этого набора данных путем использования семплированной небольшой порции данных. Есть эффект, пожалуйста, храним и используем на регулярной основе. Нет эффекта от накопления или нет заказчика, в топку детальную информацию, храним только агрегаты, они занимают меньше времени, и если вдруг однажды необходимость их использования появится, то для тестирования идей иногда достаточно и агрегатов, если не достаточно, смотри пункт 1, маленькая выборка и вперед по циклу.

Это подход конечно может потребовать постоянного перестроения архитектуры. но на мой взгляд он не требует разрастания штата на содержания всего ненужного массива.

В конечном итоге ведет именно к эффективному использованию ресурсов.

Накапливайте данные с умом.

Если кому-то интересны реальные отраслевые кейсы и вы не знаете с чего начать, пишите на cases@fsecrets.ru, помогу чем смогу.

Удачи Вам!

Русские идут (Прогноз или Prognoz)

0

Недавно познакомился с очень интересным решением от компании Прогноз. Решение разработано в Перми и история компании очень напоминает историю компании SAS. Решение российского разработчика очень интересно, потому что аккумулируют в себя действительно многие модные фичи. Компания уделяет большое внимание визуалу и функциям управления. Имеет очень симпатичный мобильный клиент. Конечно, буду справедлив и воздержусь о том, чтобы называть эту платформу BI-платформой. Скорее я бы сравнивал его с многими решениями, построенными на базе OLAP. В этом классе решений я бы их особо выделил.

Компания ставит себе действительно амбициозные задачи по превращению себя в глобального мегавендора, и стоит отметить, что попасть в квадрат Гартнера наверное дорогого стоит. Да и спецы Гартнера пока скорее относят эту платформу к нишевым решениям.

Очень хочется надеяться, что компания не затеряется на фоне лидеров.  Посмотрим на динамику в следующем году.

С точки зрения ценовой политики у них все хорошо. Мегавендоры значительно дороже и менее гибки в тарифной политике. В прогнозе как раз есть большое пространство для маневра и оптимизации затрат.

Кроме этого, я бы выделил русскую техподдержку 24 на 7. Для России, это действительно очень круто, потому как многие трабл тикеты мегавендорами отрабатываются не очень оперативно.

Ну для затравки статья рекламного содержания. Пока без моих комментариев. После детального изучения платформы отпишусь по плюсам и минусам. Минусы, как в любом решении, тоже есть, но не хочется быть голословным. Но я бы не сказал, что супер критичные. Все зависит от непосредственного кейса. Для некоторых кейсов, решение будет близким к идеальному. 

PS Если вам интересно, могу рассказать подробнее. Кроме этого, помогу получить скидку на решение и подобрать модули для оптимизации ваших затрат. Пишите на cases@fsecrets.ru.

 

Вот как они себя описывают (по материалам cnews.ru)

Prognoz Platform: ставка на простоту и функциональность

Prognoz Platform: ставка на простоту и функциональность

Сегодня одним из основных требований, предъявляемых пользователями к BI-системам, является простота в использовании. Топ-менеджменту нужны мощные, но при этом интуитивно понятные инструменты, позволяющие в режиме реального времени обработать необходимый объем информации и представить результаты в удобном для анализа виде. Этой тенденции рынка полностью соответствует программная платформа Prognoz Platform от компании «Прогноз»: ее основные инструменты, включая модули продвинутой аналитики, просты в освоении и удобны в использовании.

Инструмент для эффективного решения управленческих задач

Prognoz Platform – это BI-платформа, предназначенная для создания бизнес-приложений «под ключ», сочетающая дружественный интерфейс и высокую производительность на любых объемах данных. В продукте реализован принцип Self-Service BI («бизнес-аналитика для самообслуживания»), позволяющий конечным пользователям самостоятельно настраивать приложения без привлечения IT-специалистов. Аналитические системы, созданные на базе Prognoz Platform – это гибкие и функциональные решения, которые позволяют осуществлять всесторонний анализ накопленной информации, а также строить модели с учетом множества факторов, что значительно повышает качество прогнозных оценок.

Одна из ключевых особенностей Prognoz Platform – это универсальность. Так, платформа предоставляет инструменты, доступные как в традиционных пользовательских приложениях (настольное и веб-приложение), так и на мобильных устройствах, а также в «облачной» архитектуре. В состав Prognoz Platform входят как традиционные BI-инструменты для сбора и анализа данных, построения отчетов и статистического анализа, так и продвинутые инструменты моделирования и прогнозирования. Платформа является универсальным инструментом и по спектру отраслей, в которых используются решения на ее основе: сегодня аналитические системы на базе Prognoz Platform востребованы в корпоративном, финансовом и государственном секторах.


Средства платформы обеспечивают сбор, верификацию и консолидацию больших объемов данных из разнородных источников, а также позволяют проводить на их основе комплексный мониторинг и анализ ключевых показателей, настраивать модели и выполнять прогнозные расчеты. Из наиболее актуальных задач, которые сегодня решаются с помощью Prognoz Platform в бизнесе, можно назвать управление рисками, формирование отчетности, планирование и бюджетирование, в том числе калькулирование фактической себестоимости по местам возникновения затрат.

Помимо пользовательских инструментов, Prognoz Platform предлагает богатые функциональные возможности для разработчиков, в том числе блоки технологического уровня. Это средства разработки и интеграционные компоненты: конструктор хранилища данных, модуль ведения НСИ, ETL, среда разработки приложений (SDK), компоненты деловой графики, средства интеграции с социальными сетями. С их помощью можно гибко настраивать репозитории метаданных, загружать данные из внешних источников, работать с нормативно-справочной информацией. Базовый уровень инфраструктуры Prognoz Platform включает модуль администрирования и информационной безопасности, сервер приложений и web-сервисы.


Единство метаданных, модульная архитектура и современные средства интеграции делают Prognoz Platform исключительно гибким и адаптивным продуктом, который можно быстро и безболезненно встраивать в существующую IT-инфраструктуру в самых разных конфигурациях, впоследствии наращивая функционал по мере необходимости. При этом лицензионная политика компании «Прогноз» позволяет клиенту выбирать только те функциональные блоки, которые требуются ему на конкретном этапе реализации BI-проекта, тем самым значительно сокращая стоимость и сроки внедрения.

Продвинутые функциональные возможности

В Prognoz Platform реализована интеграция различных функций, что соответствует одной из ключевых тенденций, которые отмечают аналитики Gartner: в рамках единой платформы и единых источников данных обеспечивается доступ и к предсказательной, и к описательной аналитике.

Платформа включает расширенный инструментарий моделирования и построения сценарных («Что будет, если…?») и целевых («Что необходимо для…?») прогнозов. В ее составе присутствуют конструктор аналитических панелей, средства оперативного анализа (OLAP) и анализа временных рядов, конструктор карт ключевых показателей (scorecards).  Для визуализации данных применяются современные средства визуализации, включая интерактивные 3D-карты, пузырьковые диаграммы и другие современные инструменты.


В Prognoz Platform реализованы самые последние технологические достижения сферы бизнес-аналитики, включая  Data Mining (интеллектуальный анализ данных), Collaborative Decision Making (интегрированные инструменты совместного принятия решений). Высокая производительность продукта обеспечивается технологиями In-Memory (обработка данных в оперативной памяти устройства) и Search-Based BI (построение запросов в текстовом виде).

Prognoz Platform «бесшовно» интегрируется с приложениями Microsoft Office: можно не только экспортировать результаты аналитической работы в Excel и Word, но и напрямую работать из Excel с хранилищем данных, используя аналитические возможности платформы. Поддерживается интеграция с портальными решениями (MS SharePoint, SAP Netweaver, IBM WebSphere) и геоинформационными сервисами (Google Maps, Microsoft Bing, OpenStreetMap).

Мобильные приложения на базе PROGNOZ Platform поддерживают динамическое отображение данных в самых разных разрезах и видах, а также работу с ними как в онлайн-, так и в офлайн-режиме. Через нативный клиент для iOS доступны инструменты OLAP, аналитические панели и средства анализа временных рядов.

Преимущества и уникальные возможности Prognoz Platform:

  • расширенные возможности визуализации, анализа, отчетности, моделирования и прогнозирования через веб-интерфейс и в режиме облачных вычислений;
  • использование продвинутых средств предсказательной аналитики и целевого прогнозирования, эффективное решение задач «что будет, если…?» и «что необходимо для…?»;
  • использование общих метаданных во всех интегрируемых компонентах, что позволяет легко импортировать, обрабатывать и публиковать большие объемы данных;
  • интегрированная среда разработки, которая обеспечивает возможность быстрого создания кастомизированных приложений;
  • гибкие средства управления безопасностью и администрирования.


В 2012 г. Prognoz Platform стала первой российской разработкой, включенной агентством Gartner в «Магический квадрант платформ бизнес-аналитики». В 2013 г. «Прогноз» повторил и упрочил свой успех в международном рейтинге, переместившись на координатной плоскости Gartner к самой верхней границе нишевых игроков и приблизившись к уровню претендентов на лидирующие позиции.

Удачи Вам!

Экономим, увеличивая точность (практический кейс)

0

Всем привет, сегодня хочу рассказать об одном инетерсном кейсе как можно экономить, увеличивая точность прогноза. Если вы покупаете оптом, а продаете в розницу, очень важно не покупать слишком много, т.е. важно прогнозировать спрос таким образом, чтобы не платить за хранение излишков. В данном случае под «хранением» я понимаю не только физическое содержание на складе, но и в случае если мы говорим об аренде каналов, аренде какой-то емкости и продажей меньшего объема, именно физические потери, т.е. то, что уже нельзя будет продать.

Отвечая на вопрос одной из своей читательницы, я привел пример о точности прогнозирования электроэнергии в Англии, что увеличение точности на 1% позволяло экономить до 10 млн. фунтов в год.

Самое интересное, но такой кейс релевантен и для российского рынка. Специалисты из Математического бюро занимаются разработкой моделей прогнозирования именно в области энергопотребления.

По результатам весьма нетривиальных вычислений, специфичных, как я понял, именно для рынка электричества, выходит, что повышение точности на 1 МВт в каждом часе позволяет экономить в зависимости от территории России от 300 тыс. рублей до 450 тыс. рублей по итогам 2009 года. С тех пор цены на этом рынке серьезно подросли, так что сегодня сэкономить энергосбытовые компании могут значительно больше.

На том же ресурсы авторы тут же предлагают решение проблемы для всех потребилетей и предлагают два способа повысить точность прогнозирования.

Если же говорить о точности прогнозирования для энергосбытовых компаний, объемы потребления которых имеют порядки сотен и тысяч МВт в час, борьба за каждые 0.5% точности — весьма эффективное вложение денег! Очень радует, что российская наука занимается не просто голой теорией — сегодня наука направлена на взаимовыгодное сотрудничесво с бизнесом.

Интересно, что я решал подобную задачу в области телекоммуникаций, т.е. необходимо было закупать такой ресурс, чтобы не было дефицита и в то же время емкости не простаивали. И если в рознице, вы можете продать товар, который ранее не был реализован со скидкой, то в таких областях, как телекоммуникации и энергосбыт этот ресурс изчезает в никуда, поэтому увеличение эффективности распоряжения невозобновляемыми ресурсами очень интересная практическая задача, в которой при больших объемах даже десятые и сотые сотни процента позволяют экономить огромные денежные ресурсы.

Ну что ж удачи вам, будьте эффективны и если перед вами стоит подобная задача, но ее решение вам пока не по силам, доверьте ее профессионалам!

Что Data mining может, а чего нет?

0

Недавно натолкнулся на очень интересное интервью с Питером Фэйдером (Peter Fader) с редактором журнала CIO Insight Алланом Алтером (Allan Alter), мастером по количественным ислледованиям в маркетинге бизнес-школы Wharton, который обращается к IT-директорам компаний: «хватит накапливать множество абонентских данных и не правильно применять алгоритмы Data mining-а».

Несмотря на то, что интервью бралось еще в далеком 2007 году, мне оно кажется очень актуальным, тем более после появления новых трендов, таких как Big Data. Я уже ни раз говорил о том, что не всегда продвинутый инструментарий позволяет получить гораздо лучшие результаты при аналитической обработке данных, чем при построении простейших моделей в том же Excel. После прочтения этого интервью я еще больше укрепился в этом мнении.

Статья на столько понравилась, что решил сделать перевод для читателей блога.

CIO INSIGHT: Питер, расскажите о сильных и слабых сторонах использования инструментария Data Mining и Business Intelligence.

FADER: 

Инструментарий Data mining очень хорош для решения классификационных задач, например, для понимания чем одна группа клиентов отличается от другой. Почему у одних людей высокий кредитный риск, а других низкий. Что заставляет людей принимать сторону республиканцев, а другую демократов. Когда мы решаем подобные задачи, я думаю, что лучшего инструмента чем Data Mining не найти и применение инструментария в таких случаях действительно. Другой важный вопрос, про который не стоит забывать, не то попали или нет они в определенную группу, а когда произойдут, какие-то интересующие нас события в будущем. Как долго клиент будет потенциальным, пока не станет действующим? Когда произойдет следующая покупка клиента? Мы очень часто задаемся временными вопросами, и я думаю, что в таких задачах инструментарий Data mining является достаточно слабым. Data mining хорош при ответе на вопрос — произойдет или нет, но очень слаб при ответе на вопрос — когда это случится.

Data mining может быть хорош в задачах, которые чувствительны к сезону, таких как например, похож ли этот ритейлер на такого, который вероятно мог бы заказать определенный товар в течение Рождества. Но в задачах, когда Вы хотите спрогнозировать какие конкретно клиенты приобретут, а не просто какой бренд они могут выбрать следующим, лучше применять другой инструментарий. Существует огромное множество случайных событий в жизни каждого человека, что все их в любом случае не опишешь, например, 600-ми объясняющими переменными, как это делается в Data mining-е.

Люди продолжают думать, если накапливать больше информации, которая описывает поведение клиентов, можно будет разрешить все неопределенности. Такого никогда не будет. Причины, по которым абоненты переходят от одного оператора к другому очень случайны. Это случается порой по причинам, которые уж точно не могут быть взяты из хранилищ информации. Например, из-за споров с женой, или ребенок вывихнул лодыжку и надо что-то делать, или он увидел что-то по телевизору.  Чем пытаться наращивать мощности хранилища, лучше отказаться от этой изматывающей затеи.

CIO INSIGHT:

Как Вы думаете, люди понимают ограничения Data mining?

FADER:

Думаю, что не понимают. И тут ничего не поделаешь с инструментарием или с маркетингом, но можно что-то изменить в человеческой натуре. Такие же вопросы возникают в каждой области науки. Когда технологии сбора данных становятся более продвинутыми и возможностей для построения моделей больше, люди думают, что они смогут ответить на вопросы, на которые раньше не могли ответить. Но если мы говорим о причинах заболеваний или механических поломках,  мы можем еще больше объяснить, накапливая данные.

CIO INSIGHT:

А люди, которые используют пакеты Data mining достаточно ли знают, как их применять.

FADER:

Я бы не стал обобщать, но есть действительно люди, которые пытаются искать иголку в стогу сена. Они думают, что могут ответить на любой вопрос используя один и тот же набор процедур, и это большое заблуждение. Когда Вы получаете другой набор данных, Вам нужно использовать различные алгоритмы. Но что действительно сводит меня с ума, когда люди неправильно используют некоторые алгоритмы статистического анализа, которые ассоциируются с Data mining-ом. Лифт-кривая показывает нам насколько построенная модель корректно описывает склонность людей к какому поведению по отношению к их фактическому. Это средство хорошо использовать в задачах классификации, но не задачах, требующих определить время. Для задач с вопросами «Когда», нужно применять и алгоритмы, которые будут отвечать на вопросы «Когда» . Люди просто не пытаются понять, а правильно ли работают их модели.

CIO INSIGHT:

Что Вы имеете ввиду, когда говорите про склонность в противовес их поведению?

FADER:

Разница в том, что тенденция что-то делать не говорит о том, что люди это будут делать в будущем. Вы можете быть одним из тех, кто покупает одну единицу товара в месяц с Amazon-а. Означает ли, что в течение следующих 10 лет, или 120 месяцев, Вы купите 120 товаров. Вовсе, нет. Вы можете 2 года ничего не покупать или наоборот в следующем месяце купить 5 товаров. Количество всевозможных ситуаций просто огромно. Вот откуда вся это случайность возникает.

CIO INSIGHT:

Вредят ли себе компании неправильно применяя алгоритмы Data mining-а?

FADER:

Хотелось бы начать с положительного примера. Я восхищаюсь тем, как работают специалисты страховых кампаний со своими клиентами. Они не смотрят на все Ваши параметры и не говорят когда Вы умрете. Они изучают похожего на Вас клиента и делают вероятностный вывод о том, когда умрет человек, с характеристиками, похожими на Ваши. Или какой процент людей, с похожими характеристиками доживает до 70 лет. Они просто понимают, что невозможно рассчитать это по каждому страхователю.

Давайте теперь перенесемся в мир маркетинга. Множество фирм говорит о персонифицированном (one-to-one) маркетинге. Вот это действительно плохо для большинства отраслей. Персонифицированный маркетинг работает, когда у Вас есть действительно глубокие отношения с клиентом. Он хорошо работает например в частном управлении капиталом или в B2B, когда Вы встречаетесь с клиентом хотя бы один раз в месяц и понимаете не только их потребности, но также что происходит в их бизнесе. Но в масс-маркетинге, когда Вы не можете отличить каждого отдельно клиента, Вы просто имеете множество людей с их множеством характеристик, которые их описывают. Само понятие персонифицированного маркетинга ужасно. Оно наносит больше время чем приносит пользы, потому что клиенты ведут себя более хаотично чем Вы себе представляете, и затраты, которые Вы тратите на то, чтобы понять как поведет себя конкретный клиент намного перевешивают выгоду, которую Вы можете получить от такого уровня детализации.

Очень сложно сказать, кто их клиентов собирается купить этот товар и когда. Намного проще сгруппировать клиентов по определенным признакам и сделать предположение о них как о группе, чем пытаться делать предположение относительно каждого клиента, какой товар они приобретут с большей вероятностью. А когда мы говорим о том, какие товары покупаются вместе, задача еще больше усложняется.

Я не хотел бы обижать систему рекомендаций Amazon, которую они продвигают. Но может клиент и так собирался приобретать книгу B, тогда все рекомендации оказались для него неподходящими. Или может клиент собирался приобрести книгу C, которая продается с большей маржой для компании, а в результате рекомендации купил книгу B. Или может клиент и вовсе может разочароваться тем, что ему рекомендуют, что и вовсе откажется от покупок. Я ни в коем случае не говорю, что не нужно заниматься кросс-продажами. Я просто говорю, что прибыли от этих операций может быть много меньше, чем думают люди. Очень часто я не могу найти оправданий для таких инвестиций в инструментарий.

CIO INSIGHT:

В свое время Вы выступали за использование вероятностных моделей в качестве альтернативы моделям Data mining. Что Вы понимаете под вероятностными моделями.

FADER:

Вероятностные модели — это класс моделей, которые использовались раньше, когда данные не были столь доступны. Эти модели основываются на нескольких постулатах: люди ведут себя случайным образом; случайность может характеризоваться простыми распределениями; склонность людей что-то делать со временем меняется, для разных людей и при разных обстоятельствах. Наиболее известная наверное, модель выживаемости, которая пришла к нам из страхования. Также она используется в производстве. Вы включили множество лампочек в тестовой лаборатории и смотрите, на сколько долго они горят. Во множестве случаев, это именно то, что я предлагаю делать с клиентами. Мы не собираемся делать предположений относительно любой из светящих лампочек, точно также как мы не должны делать предположения о каждом клиенте в отдельности. Мы сделаем заявление в совокупности, сколько из этих лампочек будут светить в течение 1000 часов. Видно как теория из производства, очень хорошо ложится на страхование. Многие конечно ополчатся на идею, но думаю, что такое сравнение гораздо лучше, чем вся эта персонификация и кастомизация, которую мы видим.

Клиенты настолько же отличны друг от друга, как и лампочки, но по причинам, которые мы не можем выявить, и чтобы их понять нужно потратить множество времени.

CIO INSIGHT:

Какие задачи можно решить с помощью вероятностных моделей?

FADER:

Вероятностные модели решают 3 типа задач: одна из них — время — сколько времени пройдет, прежде чем что-то произойдет; вторая — количественная — сколько полетов, сколько покупок или чего бы то не было произойдет на данном промежутке времени; третья — задача выбора чего-либо — сколько людей выберут это. Большинство современных бизнес-задач как раз и являются комбинацией данных типов. Например, если Вы моделируете время, потраченное на серфинг в Интернете в течение месяца, это количественный метод для моделирования количества визитов и временной метод для длительности каждого из них. Мое мнение что, в Excele достаточно просто построить модели всех трех типов. Большинство людей занимается построением этих моделей на протяжении многих лет и очень тщательно их тестируют. Некоторые начинают противопоставлять алгоритмы Data mining-а  для решения подобных задач. И находят, что возможности вероятностных методов не только удивительны, но и превосходят методы Data-mining-а. Когда Вы подумаете о различных ситуациях комбинирования времени, количественных показателях и выборе, Вы можете описать множество интересных бизнес-кейсов.

CIO INSIGHT:

А как использовать данные методы для определения наиболее прибыльных клиентов или вычислять ценность клиентов на протяжении жизненного цикла?

FADER:

Это как раз тот случай, когда вероятностные модели хорошо работают с моделями глубинного анализа данных. Вероятностные модели мы можем использовать для определения промежутка времени, в течение которого они будут оставаться нашими клиентами или сколько покупок они сделают в течение следующего года. Использовать основные вероятностные модели для определения основного поведения клиентов и потом уже с помощью моделей Data mining понимать, чем группы клиентов с разными поведенческими характеристиками отличаются друг от друга. Понимаете, само по себе поведение не полностью описывает склонность к чему-либо, которые пытаются определить менеджеры. И для этого мы строим вероятностные модели, которые позволяют нам понять склонности клиентов, и потом мы берем эти склонности — тенденции клиентов что-нибудь быстро или медленно, находится долгое время online или нет, и передаем их в инструментарий Data mining объяснить такое поведение 600-ми переменных. И в этом смысле Вы более качественно можете подойти к профилированию новых клиентов или понимать наиболее вероятные действия существующих клиентов. Когда речь идет о принятии результатов и объяснении вероятностных моделей, процедуры Data mining самое лучшее средство.

CIO INSIGHT:

Могут ли вероятностные модели решать временные задачи или задачи предиктивной аналитики.  

FADER:

Очень-очень хорошо. На самом деле, самым моим любимым примером является задача удержания и возврата клиентов. Вы можете их решать вовсе не имея никаких объясняющих переменных. Ирония состоит в том, что при добавлении в модель объясняющих переменных, качество модели ухудшается. Это сводит многих менеджеров с ума. Им нужно знать чем отличаются эти абоненты. И если Вы попытаетесь добавлять объясняющие переменные для объяснения разницы, Вы просто добавляете шум (размываете данные) в систему. Ваша способность сделать более точный прогноз для каждой группы может становиться только хуже.

CIO INSIGHT:

Т.е. Data mining лишь позволяет увидеть есть ли какая-нибудь склонность и все?

FADER:

Совершенно верно. Разгадка заключается в объяснении тенденции склонности к каким-либо вещам, а не объяснению поведению клиентов.

CIO INSIGHT:

Вы говорили, что вероятностные модели могут быть построены просто в Excel-е. Т.е. для того, чтобы их построить вовсе не нужно иметь степень PhD?

FADER:

Конечно, степень не повредит. Но да, Вы правы, эти модели более прозрачны для менеджеров и объясняют они более простые вещи, требований к данным намного меньше, и разработка и внедрение намного проще. Прежде всего я начинаю с вовлечения людей в использование самых простейших моделей. Покажите мне сколько клиентов у нас было в первый год, во второй, третий, четвертый, пятый, и я скажу сколько у нас будет в девятый и десятый прежде чем мы перейдем к объяснению каких-либо переменных, что так любят делать специалисты Data mining. Тут я конечно, не совсем согласен с автором, за 5 периодов предсказать еще 5 на некоторых рынках нереально, но в то же время такой подход имеет право на существование, т.е. не нужно 600 переменных, чтобы сделать простейший прогноз.

CIO INSIGHT:

А если компании и дальше продолжают использовать эти модели, какие данные им стоит продолжать накапливать, а какие стоит прекратить?

FADER: 

В конечном итоге важно поведение. Не должно быть обратных действий, но в основном сейчас собираются данные, которые не характеризуют поведение клиентов. Демографические, психографические, социоэкономические данные, да даже данные по предпочтениям не должны занимать всю емкость хранилищ, если они не делают качество поведенческих моделей лучше. У меня есть огромное множество примеров данных, которые дают неверные представления о ситуации.

Так что поведение это главное, но даже в этом случае всегда можно упростить сбор данных. Например, во многих случаях нам даже не нужно знать, когда произошла та или иная транзакция в прошлом, чтобы сделать прогноз. Просто дайте мне суммарную статистику такую, как частота. Просто скажите мне когда произошла покупка и сколько покупок было сделано в течение последнего года и это практически объяснит все, что можно объяснить. Вы как-то упомянули, что исследование CIO Insight выявило, что объем накапливаемых данных ежегодно увеличивается на 50%. Я бы сказал, что наибольшее из того, что накапливается, бесполезно. С одной стороны иметь на 50% данных больше, это хорошо, но это вовсе не значит, что Вы получите на 50% больше знаний о клиенте. Фактически, Вы даже наносите больший вред, чем приносите пользы, так как Вы вытесняете часть переменных, которые действительно могли бы иметь значение.

CIO INSIGHT:

Какие компании наиболее правильно применяют такие модели?

FADER:

Я может быть и мог бы выделить какие-то компании, но я нигде не видел, чтобы методы применялись именно таким образом, как я люблю. И я скажу почему — это полностью моя вина. Это вина системы образования, которая практически не учит их применять. Большинство фирм просто не обладают этим инструментарием.

CIO INSIGHT:

Что должны делать ИТ-директора компаний, чтобы помочь своим компаниям правильно применять аналитический инструментарий и средства моделирования.

FADER: 

Прежде всего, запомните, много не значит лучше. ИТ-директора часто не задумываются об аналитических задачах и о данных, которые нужно накапливать, но если кто-то дает им весь дополнительный набор данных и атрибутов, они их берут. И неправильно делают, что берут. Дополнительные данные могут Вам навредить, зашумляя действительно важные данные, которые характеризуют склонность к чему-либо. Но очень часто Вам достаточно самых простых мер, таких как частота и давность покупки, чтобы объяснить поведение клиентов. Лучше инвестиции направить на сбор именно этой информации с большей точностью и на регулярной основе. Во-вторых, помните, что более простые модели могут дать Вам много больше, если Вы пока не думаете о том, что может повлиять на поведение. Не думайте о влиянии: сначала, определите поведение. Начните просто в Excel. Вы будете удивлены тому, сколько можно сделать выводов, не покидая одной таблицы.

Оригинал публикации можно прочесть по ссылке.

Я разделяю идеи Питера, на счет анализа данных и накопления данных в хранилищах. О чем я неоднократно говорил на страницах блога. С некоторыми тезисами бы поспорил, но в целом он конечно прав.

Удачи Вам, следите за обновлениями!

Вверх