Data Mining

Что такое предиктивная аналитика? (Predictive analytics)

0

Сегодня мне бы хотелось поговорить о еще одном модном тренде в аналитике, а именно Предиктивной аналитике (Predictive analytics). Для начала давайте разберемся с определением.

Предиктивная или прогностическая аналитика (Predictive analytics) — это прежде всего множество методов статистики, анализа данных и теории игр, которые используются для анализа текущих и исторических данных/событий для прогноза данных/событий в будущем.

Наиболее известный способ использования прогностической аналитики — это применение скоринговых моделей для оценки платежеспособности клиента при выдаче кредитов в банке. Это из области «как не наступить на те же грабли», любая скоринговая модель строится на исторических данных, и если в прошлом, какая-либо группа клиентов была уличена в несвоевременном гашении кредитов, а Вы по каким-либо характеристикам схожи с этой группой, то скорее всего в выдаче кредитов Вам откажут.

Однако это не все области, где применяется предиктивная аналитика, ее можно применять для разработки продуктов, для выбора потенциальной аудитории, для выбора следующего продукта, который Вы можете предложить клиенту (Next Best Offer) и множестве других.

Когда говорят о предиктивной аналитике часто сводят разговоры к применению методов Data mining, я бы даже сказал, что это небольшая ветвь Data mining-а, в основе которой лежат некоторые методы Data mining-а.

Центральной сущностью предиктивной аналитики является задача определение предиктора или нескольких предикторов (параметров или сущностей, которые влияют на прогнозируемое событие). Например, страховые компании выделяю такие предикторы, как возраст, стаж вождения при определении страховой премии.

Множество этих предикторов образует модель предиктивной аналитики, которая предсказывает определенное событие в будущем с какой-то степенью вероятности. Чем проще модель (или меньше количество факторов), тем меньше степень точности модели. Но всегда помним, что любая модель строится на произошедших событиях в прошлом и это не значит, что события в будущем могут повториться при тех же параметрах внутренней среды. Соответственно любой процесс моделирования имеет вероятностный характер. Усложняя модель на исторических данных, мы рискуем ее сильно переучить и соответственно, она может перестать быть устойчивой в будущем.

Если Вы еще не применяете предиктивную аналитику, присмотритесь к этой области, она позволяет значительно увеличить эффективность Вашего бизнеса.

Удачи Вам!

Еще о Data mining, прогнозировании.


Стандарт применения Data mining-а CRISP — DM

0

Сегодня мне хотелось бы рассказать о стандарте, который был принят практиками применения моделей data mining-а CRISP — DM.

CRoss Industry Standard Process for Data Mining (сокращенно CRISP — DM) — кросс-индустриальный стандарт глубинного анализа данных.

CRISP-DM был разработан в конце 1996 года тремя «ветеранами» из молодых и незрелых  компаний  на рынке интеллектуального анализа данных. DaimlerChrysler (в то время Daimler-Benz) был достаточно опытен, опередив большинство промышленных и коммерческих организаций, в применении интеллектуального анализа данных в своих бизнес-операциях. SPSS (тогда ISL) предлагал сервисы на основе интеллектуального анализа данных с 1990 года и в 1994 году запустил первый коммерческий продукт интеллектуального анализа данных Clementine (который, напомню, поглотил IBM в 2009 году). NCR, для предоставления дополнительной ценности своим клиентам хранилищ данных Teradata, создавал группы data mining консультантов и технических специалистов для обслуживания требования своих клиентов.

Модель процесса выглядит следующим образом

Жизненный цикл проекта интеллектуального анализа данных состоит из шести этапов. При этом последовательность этапов не является строгой. Иногда последовательность этапов варьируется, иногда для перехода на следующий этап требуется переместится на один этап назад, чтобы сделать кое-какие уточнения. Это зависит от результатов каждого этапа. Стрелки указывают наиболее важные и частые зависимости между фазами.
Внешний круг на рисунке указывает на цикличность интеллектуального анализа данных. Процесс интеллектуального анализа данных продолжается после развертывания решения. Уточнения, полученные в ходе процесса могут породить другие  более конкретные вопросы. Последующие опыты интеллектуального анализа данных, извлекают выгоду из предыдущих. Т.е. простыми словами необходимо постоянно совершенствовать свои модели для того, чтобы они давали лучшие результаты и не устаревали.

Давайте подробнее остановимся на этапах:

Понимание бизнеса
Этот начальный этап посвящен цели проекта и требованиям с точки зрения бизнеса, а затем преобразованию этих знаний в задачу применения интеллектуального анализа данных, а также разработке предварительного плана, направленного на достижение целей.

Понимание данных
Понимание данных начинается с первоначального сбора данных и переходу ознакомлению с данными, выявлению проблем качества данных. Цель понять структуру данных, обнаружить интересные подмножества для формирования гипотез для анализа скрытых закономерностей.

Подготовка данных
Фаза подготовки данных охватывает все виды деятельности, чтобы определить  окончательный набор данных (данные, которые будут включены средства моделирования (S)) из исходного набора данных. Задачи подготовки данных, с большой вероятностью будут выполнятся не один раз, и могут выполняться также на последующих этапах. На данном этапе формируются таблицы с набором записей и атрибутов, а также необходимые преобразования и очистка данных для моделирования.

Моделирование
В этой фазе идет выборов методов моделирования и их применение. Кроме того, на этом же этапе идет подгонка параметров модели под оптимальные результаты. Как правило, существует несколько методов для одного и того же типа задач. Некоторые методы имеют особые требования к формату данных. Поэтому, иногда необходим возврат на предыдущий этап.

Оценка
На этом этапе Вы построили модель. Прежде чем приступить к окончательному развертыванию модели, важно более тщательно оценить модель, и оценить все  шаги построения модели, решает ли она основную бизнес задачу. Возможно необходимо какие-то вопросы рассмотреть более детально. В конце этой фазы, принимается решение по использованию результатов интеллектуального анализа данных.

Развертывание
Если модель сформирована, это не означает что проект закончен. Даже, если целью модели является повышение знаний о данных, полученные знания должны быть представлены таким образом, что бизнес-заказчик их мог интерпретировать и использовать в своей работе. В зависимости от требований, этап развертывания может быть как простой, простая генерация отчетов, или же более сложным, при которых возможно потребуется  повтор интеллектуального анализа данных. Во многих случаях это будет решать бизнес-заказчик, а не DM-аналитик. В любом случае аналитик должен сопровождать этот процесс.

Сегодня мы познакомились со стандартным процессом, который сопровождает любую работу по формированию моделей DM.

Удачи Вам в применении!


Целевой маркетинг и Data mining

0

Сегодня мы поговорим о сочетании, которое позволяет делать значительный прорыв в продажах и маркетинге при том же маркетинговом бюджете.

Что такое целевой маркетинг мы с вами разобрались здесь.

Что такое Data mining и типы закономерностей, выявляемых методами здесь.

Теперь, если смешать эти 2 понятия, то что мы получим:

1. Data mining применять для выявления тех клиентов, которые наиболее склонны к покупке или выявлять те группы товаров, которые могут быть в большей степени приобретены конкретным клиентом.

2. Проводить целевые маркетинговые кампании на те группы абонентов, которые мы выявили с помощью методов Data mining-а.

3. Результат будет отражаться в дополнительном числе клиентов, которые купят у Вас товары.

Все дело в том, что Вы будете коммуницировать лишь с теми группами абонентов, контакт с которым может иметь наибольшую вероятность на успех или выбирать те группы товаров, которые могут пользоваться большей популярностью у данной группы клиентов.

Давайте рассмотрим несколько примеров, чтобы было понятно, о чем я говорю. Вот, например, представим, что пользователь выбирает бытовую технику. Пусть будет холодильник. Что мы можем сделать с помощью методов Data mining? Ну во-первых проанализировать поведение абонентов, которые покупают холодильник. Что еще они могут купить? Дополнительные формы для льда, формы для заморозки фруктов, и т.д. Т.е. сопутствующие товары. Соответственно, если Вы расширяете свой ассортимент именно этих принадлежностей, то Вы увеличиваете вероятность дополнительной покупки, следовательно увеличиваете чек. Но заметьте, что в данном случае Вы коммуницировали именно с тем клиентом, который с большей вероятностью купит этот товар. Если Вы начнете предлагать формы для заморозки льда или заморозки фруктов клиенту, который смотрит микроволновые печи, то с большей долей вероятности Вы получите отказ.

Удачное сочетание товаров позволяют выявлять методы Data mining-а. Конечно в примере Выше я привел пример более простой. Т.е. для его выявления не обязательно использовать сложный инструментарий. Теперь давайте посмотрим другой пример. Более изящный. Вы, например, продали водоочиститель со сменными фильтрами. Вы знаете, например, что рекомендуемый срок использования фильтра 1 месяц. Если Вы ведете базу таких клиентов, их контактные телефоны. То позвонив через месяц своему клиенту и Вы можете ему мягко напомнить о том, что рекомендуемый срок использования фильтра заканчивается, не хотите ли Вы его поменять, а звоните Вы ему только потому что у Вас в магазине проходит акция на данный тип фильтров. Звонок дорогой канал коммуникации, достаточно прислать СМС с уведомлением и можете быть уверены, клиенты будут рады этому напоминанию. И непременно заглянут в Ваш магазин в ближайшее время. Заодно может быть еще что-то приобретут.

А что если клиент, который зашел к Вам в магазин и смотрит детские товары? Пара наводящих вопросов и Вы уже точно знаете, покупается товар собственному ребенку или в подарок племяннику. А если ребенок свой. То тут можно рекомендовать сколько угодно товаров —  от детского порошка, до развивающих комплексов по возрастам. А если Вы ведете базу таких клиентов, представляете какой это кладезь информации? Если ребенку берут игрушки для возраста 3+? О чем Вы уже знаете, правильно, что через год точно будут брать 4+? А что в это время дети изучают?  … Пара книжек по воспитанию детей и Вы уже гуру по продаже детских товаров.

Надеюсь на продемонстрированных примерах стало немного понятнее, как используются методы Data mining? В первом случае это ассоциация, во втором ассоциация + классификация, в третьем классификация и кластеризация, если мы формируем набор товаров под определенные возрастные группы детей.

В чем может быть ошибка применения этого сочетания?

В отсутствии заранее разработанного сценария маркетинговой коммуникации, раз; неправильном целеполагании, два; некорректном применении самих методов Data mining.

Конечно, дело может не касаться даже правильности или неправильности применения конкретного метода, проблема может заключаться в неправильном отборе обучающей выборки и т.д. То есть вроде все делали правильно, а отклик лишь на доли процентов выше. Для крупных компаний, конечно и сотые доли процентов, это результат. Но по большей степени это может наталкивать на мысль, что некорректно применяются сами методы.

Поэтому правильно проводите отбор данных для «обучения»:

1. Выборка для обучения не должна содержать выбросов и аномалий. Аномалии требуют тщательного изучения. А выбросы в данном случае это некое нехарактерное для большинства клиентов поведение. Их лучше исключить.

2. Выборка для обучения должна иметь схожие характеристики с общей клиентской базой. Например, те же средние, медиану, доли покупаемых товаров и т.д. Если это будет не так, то вероятность отклика может снижаться. Результат непредсказуем. Но с большей долей вероятности положительная реакция будет много ниже, чем при правильном применении метода.

Применяйте проверенные инструменты, пытайтесь понять, что за параметры стоят по умолчанию. Чем проще метод, тем проще интерпретировать результат. В большинстве случаев результат моделирования никак не зависит от применяемого инструментария. Но многие аналитики считают, что чем больше «наворотов» имеет инструмент, тем лучше результат. Заблуждаются. К сожалению, если была бы прямая зависимость, то все компании в очередь стояли бы за SAS и SPSS. Действительно, инструментарий здесь один из наиболее навороченных. Процесс применения методов интуитивно понятен. Согласно аналитиков Gartner, эти инструменты одни из наилучших в мире.Но это вовсе не означает, что применение любых других инструментов даст худший результат, вовсе нет. Вопрос может быть во времени, требуемом на анализ информации. Если время принятия решения не критично, не обязательно смотреть дорогие инструменты.

Если у Вас будут вопросы по применению методов, Вы можете направить их на адрес электронной почты cases@fsecrets.ru.

О других способах применения инструментов Data mining и о самих инструментах, читайте на страницах моего блога.

Удачи Вам в моделировании!


Интернет-магазины — горе-советчики.

2

Сегодня, я бы хотел поговорить о системе рекомендаций, реализованных в некоторых Интернет-магазинах. Если Вы еще не понимаете о чем я, тогда давайте приведу простой пример. Например, зашли Вы в описание некоего товара, внизу маленький ползунок с иконками товаров с надписью: «C этим товаром покупают также». И если Вы думаете, что цель этой подсказки в том, чтобы Вам посоветовать что-то полезное, то в большинстве случаев Вы ошибаетесь. Есть, конечно, исключения,и я считаю эти исключения, действительно правильным маркетингом, то есть в первую очередь все исходит из потребности клиента, а во вторую из материальной выгоды для фирмы.

Зайти, например, на сайт KupiVIP, набирающий в последнее время популярность. Моя жена выбирает, например, кольца. А ей рекомендации, с этим товаром покупают также, Вы не поверите, те же самые кольца немного с другим дизайном и такая же надпись «Покупают также». Ок, я согласен, что многие женщины могут брать не одно кольцо, а сразу 2, если это дешевая бижутерия. Но если это кольцо стоит огромных денег? Может лучше рекомендовать другие аксессуары с подобным дизайном? А на самом деле оно происходит так: жена сначала заходит в кольца, ей рекомендуют другие кольца. Потом она заходит в серьги и говорит мне, а помнишь я колечко смотрела, к ним даже сережки есть. Только от момента одного события, до второго прошло минут 10-15. Она уже может и забыть, что колечко смотрела именно с этим дизайном.

Или другой пример, wikimart. Тут еще лучше. Захожу смотреть на жесткий диск, а мне внизу рекомендация «Помимо жесткого диска на Викимарте можно купить стиральные машины — модель такая-то, плита- модель такая-то, варочная поверхность — модель такая-то. Я понимаю, что компании важно заработать деньги, но мне-то нужен жесткий диск. Что Вы можете узнать обо мне, если я ищу жесткий диск. Правильно, у меня как минимум есть компьютер. предложите мне лучше аксессуары на компьютер. Зачем мне стиральная машина, которая стоит в 5 раз больше товара, который меня интересует?

То есть то, в какой товарной категории я нахожусь на сайте, вообще никак не анализируется. Но зато советы раздаются с целью заработать денег. Ну неужели не понятно, что это не будет работать.

Есть другой положительный опыт. Покупал зеркальный фотоаппарат. Мне с магазине естественно предложили чехол, светофильтр, бленду, карту памяти и т.д. Увеличили чек на 20% (А это около 5 тыс. руб., неплохо за 2 минуты разговора со мной?).

Хочу заметить, мне не предлагали купить еще один зеркальный фотоаппарат, не предлагали обратить внимание на холодильники, мне предложили именно те аксессуары, в которых я больше всего нуждался. Пожалел ли я что стал жертвой маркетинга, ни капельки. Я сэкономил время. Вернусь ли я в этот магазин второй раз и буду ли я рекомендовать его своим друзьям и знакомым — непременно. Если Ваша задача продать один раз, то это вопрос цены, если ваша задача еще увеличить частоту покупок и лояльность клиента, это уже несколько шире задача. Ваш клиент должен быть доволен даже несмотря на то, что он заплатил больше.

Поэтому господа аналитики, продумывайте свои сценарии коммуникации с клиентом заранее. Ну не работают Ваши сценарии с теми товарами, в которых не нуждаются клиенты. Варьируйте коммуникацию. Пробуйте другие варианты — например, «возможно Вы заинтересуетесь в этой модели или в этой модели из той же категории». Понятно товары могут быть с большей маржой для интернет-магазина, но они должны также сулить выгоду для клиента. Например, иметь лучшее качество.  Если Вы своим клиентам пытаетесь впарить какой-то товар без разъяснения почему он лучше, это никогда не сработает. В интернет-магазинах это можно также с легкостью реализовать.

Я уже даже привел пару примеров той коммуникации, которая была бы интересна. И поверьте мне, я не исключение. Вы должны ставить клиента на первое место, т.е. быть клиентоориентированными, а вот дальше уж делайте акценты на своих внутренних приоритетах (большую маржу получайте от такой-то марки, лучше предложить более дорогой товар и т.д.).

Но не все так плохо. Есть, например, в рунете исключение в виде Ozon-а.  Варьируется сама коммуникация. Они и рекомендуют что-то купить и показывают на основе статистики просмотров, тот товар который просматривают вместе с основным товаром наибольшее количество раз. Конечно, немного смазалось впечатление, что мне вместе с баскетбольным мячом порекомендовали обратить внимание на электронные сигареты с уровнем поддержки 6%. Ну да ладно, спишем на то, что компания за здоровый образ жизни)).

Конечно, странно, что построение аналитики с нуля на ozon-е и на wikimart приписал себе один и тот же человек. Ну видимо, еще не хватило времени на то, чтобы привести все в порядок на wikimart-e.

Ну что же, будем надеяться, что когда-нибудь и wikimart будет нам рекомендовать правильные вещи.

Если Вы задумываетесь над системой рекомендаций, но не знаете с чего начать и как это лучше реализовать, свяжитесь со мной, возможно, я смогу быть Вам полезным.

Удачи Вам!


Cognos 10 + SPSS

0

Вчера удалось попасть к IBM на презентацию аналитического решения. IBM уделили внимание двум продуктам это Cognos, который из себя представляет BI решение и купленный ими в 2009 году SPSS Clementine.

Почему в названии поста я поставил именно цифру 10, все потому что в этой версии произошла значительная интеграция этих продуктов в единое решение. Теперь любая аналитика, разработанная в BI, может передаться для анализа в SPSS и наоборот. Все это бесшовно.

SPSS имеет довольно дружелюбный интерфейс по отношению к пользователю, все интуитивно понятно.

Если сравнивать 2 продукта, Oracle BI и Cognos, то я бы выделил несколько преимуществ IBM перед Oracle:

1. Возможность подгружать файлы Excel без соответствующего «танца с бубном» на стороне IT в виде заведения отдельной таблички или витрины данных и включение ее в общую модель данных. Только после этого данные из Excel можно обрабатывать в Oracle BI. Надеюсь в будущем Oracle обратит внимание на этот факт.

2. Возможность создавать новые пользовательские уровни иерархии не только на основе значений измерений, но и самих показателей. Причем все это гораздо проще, чем в Oracle.

3. Наличие встроенного статистического пакета, хоть и не расширенного как в SPSS Statistics, но все же простейшие вещи позволяет делать. В BI от Oracle, этого нет.

Конечно, теперь я от IBM услышал о том, что они имеют самое лучшее BI решение в мире, хотя несколько месяцев до этого слышал это от Oracle.

Ну что же, в споре рождается истина. Будем ждать ответы других вендоров. Что скажут теперь SAP, который практически остался без SPSS (кто не знает, ранее SAP его использовал в качестве аналитической части) или SAS, положение в России которого в последнее время пошатнулось из-за неоднозначной ценовой политики.  Может им также стоит задуматься о диверсификации бизнеса и укрепиться на ряде отстающих направлений. В одном есть уверенность, что от этого выиграет бизнес.

Удачи Вам в выборе аналитического инструмента!


Вверх
Яндекс.Метрика