Data Mining

Что Data mining может, а чего нет?

0

Недавно натолкнулся на очень интересное интервью с Питером Фэйдером (Peter Fader) с редактором журнала CIO Insight Алланом Алтером (Allan Alter), мастером по количественным ислледованиям в маркетинге бизнес-школы Wharton, который обращается к IT-директорам компаний: «хватит накапливать множество абонентских данных и не правильно применять алгоритмы Data mining-а».

Несмотря на то, что интервью бралось еще в далеком 2007 году, мне оно кажется очень актуальным, тем более после появления новых трендов, таких как Big Data. Я уже ни раз говорил о том, что не всегда продвинутый инструментарий позволяет получить гораздо лучшие результаты при аналитической обработке данных, чем при построении простейших моделей в том же Excel. После прочтения этого интервью я еще больше укрепился в этом мнении.

Статья на столько понравилась, что решил сделать перевод для читателей блога.

CIO INSIGHT: Питер, расскажите о сильных и слабых сторонах использования инструментария Data Mining и Business Intelligence.

FADER: 

Инструментарий Data mining очень хорош для решения классификационных задач, например, для понимания чем одна группа клиентов отличается от другой. Почему у одних людей высокий кредитный риск, а других низкий. Что заставляет людей принимать сторону республиканцев, а другую демократов. Когда мы решаем подобные задачи, я думаю, что лучшего инструмента чем Data Mining не найти и применение инструментария в таких случаях действительно. Другой важный вопрос, про который не стоит забывать, не то попали или нет они в определенную группу, а когда произойдут, какие-то интересующие нас события в будущем. Как долго клиент будет потенциальным, пока не станет действующим? Когда произойдет следующая покупка клиента? Мы очень часто задаемся временными вопросами, и я думаю, что в таких задачах инструментарий Data mining является достаточно слабым. Data mining хорош при ответе на вопрос — произойдет или нет, но очень слаб при ответе на вопрос — когда это случится.

Data mining может быть хорош в задачах, которые чувствительны к сезону, таких как например, похож ли этот ритейлер на такого, который вероятно мог бы заказать определенный товар в течение Рождества. Но в задачах, когда Вы хотите спрогнозировать какие конкретно клиенты приобретут, а не просто какой бренд они могут выбрать следующим, лучше применять другой инструментарий. Существует огромное множество случайных событий в жизни каждого человека, что все их в любом случае не опишешь, например, 600-ми объясняющими переменными, как это делается в Data mining-е.

Люди продолжают думать, если накапливать больше информации, которая описывает поведение клиентов, можно будет разрешить все неопределенности. Такого никогда не будет. Причины, по которым абоненты переходят от одного оператора к другому очень случайны. Это случается порой по причинам, которые уж точно не могут быть взяты из хранилищ информации. Например, из-за споров с женой, или ребенок вывихнул лодыжку и надо что-то делать, или он увидел что-то по телевизору.  Чем пытаться наращивать мощности хранилища, лучше отказаться от этой изматывающей затеи.

CIO INSIGHT:

Как Вы думаете, люди понимают ограничения Data mining?

FADER:

Думаю, что не понимают. И тут ничего не поделаешь с инструментарием или с маркетингом, но можно что-то изменить в человеческой натуре. Такие же вопросы возникают в каждой области науки. Когда технологии сбора данных становятся более продвинутыми и возможностей для построения моделей больше, люди думают, что они смогут ответить на вопросы, на которые раньше не могли ответить. Но если мы говорим о причинах заболеваний или механических поломках,  мы можем еще больше объяснить, накапливая данные.

CIO INSIGHT:

А люди, которые используют пакеты Data mining достаточно ли знают, как их применять.

FADER:

Я бы не стал обобщать, но есть действительно люди, которые пытаются искать иголку в стогу сена. Они думают, что могут ответить на любой вопрос используя один и тот же набор процедур, и это большое заблуждение. Когда Вы получаете другой набор данных, Вам нужно использовать различные алгоритмы. Но что действительно сводит меня с ума, когда люди неправильно используют некоторые алгоритмы статистического анализа, которые ассоциируются с Data mining-ом. Лифт-кривая показывает нам насколько построенная модель корректно описывает склонность людей к какому поведению по отношению к их фактическому. Это средство хорошо использовать в задачах классификации, но не задачах, требующих определить время. Для задач с вопросами «Когда», нужно применять и алгоритмы, которые будут отвечать на вопросы «Когда» . Люди просто не пытаются понять, а правильно ли работают их модели.

CIO INSIGHT:

Что Вы имеете ввиду, когда говорите про склонность в противовес их поведению?

FADER:

Разница в том, что тенденция что-то делать не говорит о том, что люди это будут делать в будущем. Вы можете быть одним из тех, кто покупает одну единицу товара в месяц с Amazon-а. Означает ли, что в течение следующих 10 лет, или 120 месяцев, Вы купите 120 товаров. Вовсе, нет. Вы можете 2 года ничего не покупать или наоборот в следующем месяце купить 5 товаров. Количество всевозможных ситуаций просто огромно. Вот откуда вся это случайность возникает.

CIO INSIGHT:

Вредят ли себе компании неправильно применяя алгоритмы Data mining-а?

FADER:

Хотелось бы начать с положительного примера. Я восхищаюсь тем, как работают специалисты страховых кампаний со своими клиентами. Они не смотрят на все Ваши параметры и не говорят когда Вы умрете. Они изучают похожего на Вас клиента и делают вероятностный вывод о том, когда умрет человек, с характеристиками, похожими на Ваши. Или какой процент людей, с похожими характеристиками доживает до 70 лет. Они просто понимают, что невозможно рассчитать это по каждому страхователю.

Давайте теперь перенесемся в мир маркетинга. Множество фирм говорит о персонифицированном (one-to-one) маркетинге. Вот это действительно плохо для большинства отраслей. Персонифицированный маркетинг работает, когда у Вас есть действительно глубокие отношения с клиентом. Он хорошо работает например в частном управлении капиталом или в B2B, когда Вы встречаетесь с клиентом хотя бы один раз в месяц и понимаете не только их потребности, но также что происходит в их бизнесе. Но в масс-маркетинге, когда Вы не можете отличить каждого отдельно клиента, Вы просто имеете множество людей с их множеством характеристик, которые их описывают. Само понятие персонифицированного маркетинга ужасно. Оно наносит больше время чем приносит пользы, потому что клиенты ведут себя более хаотично чем Вы себе представляете, и затраты, которые Вы тратите на то, чтобы понять как поведет себя конкретный клиент намного перевешивают выгоду, которую Вы можете получить от такого уровня детализации.

Очень сложно сказать, кто их клиентов собирается купить этот товар и когда. Намного проще сгруппировать клиентов по определенным признакам и сделать предположение о них как о группе, чем пытаться делать предположение относительно каждого клиента, какой товар они приобретут с большей вероятностью. А когда мы говорим о том, какие товары покупаются вместе, задача еще больше усложняется.

Я не хотел бы обижать систему рекомендаций Amazon, которую они продвигают. Но может клиент и так собирался приобретать книгу B, тогда все рекомендации оказались для него неподходящими. Или может клиент собирался приобрести книгу C, которая продается с большей маржой для компании, а в результате рекомендации купил книгу B. Или может клиент и вовсе может разочароваться тем, что ему рекомендуют, что и вовсе откажется от покупок. Я ни в коем случае не говорю, что не нужно заниматься кросс-продажами. Я просто говорю, что прибыли от этих операций может быть много меньше, чем думают люди. Очень часто я не могу найти оправданий для таких инвестиций в инструментарий.

CIO INSIGHT:

В свое время Вы выступали за использование вероятностных моделей в качестве альтернативы моделям Data mining. Что Вы понимаете под вероятностными моделями.

FADER:

Вероятностные модели — это класс моделей, которые использовались раньше, когда данные не были столь доступны. Эти модели основываются на нескольких постулатах: люди ведут себя случайным образом; случайность может характеризоваться простыми распределениями; склонность людей что-то делать со временем меняется, для разных людей и при разных обстоятельствах. Наиболее известная наверное, модель выживаемости, которая пришла к нам из страхования. Также она используется в производстве. Вы включили множество лампочек в тестовой лаборатории и смотрите, на сколько долго они горят. Во множестве случаев, это именно то, что я предлагаю делать с клиентами. Мы не собираемся делать предположений относительно любой из светящих лампочек, точно также как мы не должны делать предположения о каждом клиенте в отдельности. Мы сделаем заявление в совокупности, сколько из этих лампочек будут светить в течение 1000 часов. Видно как теория из производства, очень хорошо ложится на страхование. Многие конечно ополчатся на идею, но думаю, что такое сравнение гораздо лучше, чем вся эта персонификация и кастомизация, которую мы видим.

Клиенты настолько же отличны друг от друга, как и лампочки, но по причинам, которые мы не можем выявить, и чтобы их понять нужно потратить множество времени.

CIO INSIGHT:

Какие задачи можно решить с помощью вероятностных моделей?

FADER:

Вероятностные модели решают 3 типа задач: одна из них — время — сколько времени пройдет, прежде чем что-то произойдет; вторая — количественная — сколько полетов, сколько покупок или чего бы то не было произойдет на данном промежутке времени; третья — задача выбора чего-либо — сколько людей выберут это. Большинство современных бизнес-задач как раз и являются комбинацией данных типов. Например, если Вы моделируете время, потраченное на серфинг в Интернете в течение месяца, это количественный метод для моделирования количества визитов и временной метод для длительности каждого из них. Мое мнение что, в Excele достаточно просто построить модели всех трех типов. Большинство людей занимается построением этих моделей на протяжении многих лет и очень тщательно их тестируют. Некоторые начинают противопоставлять алгоритмы Data mining-а  для решения подобных задач. И находят, что возможности вероятностных методов не только удивительны, но и превосходят методы Data-mining-а. Когда Вы подумаете о различных ситуациях комбинирования времени, количественных показателях и выборе, Вы можете описать множество интересных бизнес-кейсов.

CIO INSIGHT:

А как использовать данные методы для определения наиболее прибыльных клиентов или вычислять ценность клиентов на протяжении жизненного цикла?

FADER:

Это как раз тот случай, когда вероятностные модели хорошо работают с моделями глубинного анализа данных. Вероятностные модели мы можем использовать для определения промежутка времени, в течение которого они будут оставаться нашими клиентами или сколько покупок они сделают в течение следующего года. Использовать основные вероятностные модели для определения основного поведения клиентов и потом уже с помощью моделей Data mining понимать, чем группы клиентов с разными поведенческими характеристиками отличаются друг от друга. Понимаете, само по себе поведение не полностью описывает склонность к чему-либо, которые пытаются определить менеджеры. И для этого мы строим вероятностные модели, которые позволяют нам понять склонности клиентов, и потом мы берем эти склонности — тенденции клиентов что-нибудь быстро или медленно, находится долгое время online или нет, и передаем их в инструментарий Data mining объяснить такое поведение 600-ми переменных. И в этом смысле Вы более качественно можете подойти к профилированию новых клиентов или понимать наиболее вероятные действия существующих клиентов. Когда речь идет о принятии результатов и объяснении вероятностных моделей, процедуры Data mining самое лучшее средство.

CIO INSIGHT:

Могут ли вероятностные модели решать временные задачи или задачи предиктивной аналитики.  

FADER:

Очень-очень хорошо. На самом деле, самым моим любимым примером является задача удержания и возврата клиентов. Вы можете их решать вовсе не имея никаких объясняющих переменных. Ирония состоит в том, что при добавлении в модель объясняющих переменных, качество модели ухудшается. Это сводит многих менеджеров с ума. Им нужно знать чем отличаются эти абоненты. И если Вы попытаетесь добавлять объясняющие переменные для объяснения разницы, Вы просто добавляете шум (размываете данные) в систему. Ваша способность сделать более точный прогноз для каждой группы может становиться только хуже.

CIO INSIGHT:

Т.е. Data mining лишь позволяет увидеть есть ли какая-нибудь склонность и все?

FADER:

Совершенно верно. Разгадка заключается в объяснении тенденции склонности к каким-либо вещам, а не объяснению поведению клиентов.

CIO INSIGHT:

Вы говорили, что вероятностные модели могут быть построены просто в Excel-е. Т.е. для того, чтобы их построить вовсе не нужно иметь степень PhD?

FADER:

Конечно, степень не повредит. Но да, Вы правы, эти модели более прозрачны для менеджеров и объясняют они более простые вещи, требований к данным намного меньше, и разработка и внедрение намного проще. Прежде всего я начинаю с вовлечения людей в использование самых простейших моделей. Покажите мне сколько клиентов у нас было в первый год, во второй, третий, четвертый, пятый, и я скажу сколько у нас будет в девятый и десятый прежде чем мы перейдем к объяснению каких-либо переменных, что так любят делать специалисты Data mining. Тут я конечно, не совсем согласен с автором, за 5 периодов предсказать еще 5 на некоторых рынках нереально, но в то же время такой подход имеет право на существование, т.е. не нужно 600 переменных, чтобы сделать простейший прогноз.

CIO INSIGHT:

А если компании и дальше продолжают использовать эти модели, какие данные им стоит продолжать накапливать, а какие стоит прекратить?

FADER: 

В конечном итоге важно поведение. Не должно быть обратных действий, но в основном сейчас собираются данные, которые не характеризуют поведение клиентов. Демографические, психографические, социоэкономические данные, да даже данные по предпочтениям не должны занимать всю емкость хранилищ, если они не делают качество поведенческих моделей лучше. У меня есть огромное множество примеров данных, которые дают неверные представления о ситуации.

Так что поведение это главное, но даже в этом случае всегда можно упростить сбор данных. Например, во многих случаях нам даже не нужно знать, когда произошла та или иная транзакция в прошлом, чтобы сделать прогноз. Просто дайте мне суммарную статистику такую, как частота. Просто скажите мне когда произошла покупка и сколько покупок было сделано в течение последнего года и это практически объяснит все, что можно объяснить. Вы как-то упомянули, что исследование CIO Insight выявило, что объем накапливаемых данных ежегодно увеличивается на 50%. Я бы сказал, что наибольшее из того, что накапливается, бесполезно. С одной стороны иметь на 50% данных больше, это хорошо, но это вовсе не значит, что Вы получите на 50% больше знаний о клиенте. Фактически, Вы даже наносите больший вред, чем приносите пользы, так как Вы вытесняете часть переменных, которые действительно могли бы иметь значение.

CIO INSIGHT:

Какие компании наиболее правильно применяют такие модели?

FADER:

Я может быть и мог бы выделить какие-то компании, но я нигде не видел, чтобы методы применялись именно таким образом, как я люблю. И я скажу почему — это полностью моя вина. Это вина системы образования, которая практически не учит их применять. Большинство фирм просто не обладают этим инструментарием.

CIO INSIGHT:

Что должны делать ИТ-директора компаний, чтобы помочь своим компаниям правильно применять аналитический инструментарий и средства моделирования.

FADER: 

Прежде всего, запомните, много не значит лучше. ИТ-директора часто не задумываются об аналитических задачах и о данных, которые нужно накапливать, но если кто-то дает им весь дополнительный набор данных и атрибутов, они их берут. И неправильно делают, что берут. Дополнительные данные могут Вам навредить, зашумляя действительно важные данные, которые характеризуют склонность к чему-либо. Но очень часто Вам достаточно самых простых мер, таких как частота и давность покупки, чтобы объяснить поведение клиентов. Лучше инвестиции направить на сбор именно этой информации с большей точностью и на регулярной основе. Во-вторых, помните, что более простые модели могут дать Вам много больше, если Вы пока не думаете о том, что может повлиять на поведение. Не думайте о влиянии: сначала, определите поведение. Начните просто в Excel. Вы будете удивлены тому, сколько можно сделать выводов, не покидая одной таблицы.

Оригинал публикации можно прочесть по ссылке.

Я разделяю идеи Питера, на счет анализа данных и накопления данных в хранилищах. О чем я неоднократно говорил на страницах блога. С некоторыми тезисами бы поспорил, но в целом он конечно прав.

Удачи Вам, следите за обновлениями!

Мерчендайзинг и аналитика, как?

0

Когда я писал о том, как увеличить выручку, упоминал о том, что правильная выкладка товара порой позволяет добиться хороших результатов. Давайте рассмотрим поподробнее как на практике реализовать решение данной задачи. Сеть walmart давно уже использует Data mining в мерчендайзинге причем делает это весьма и весьма упешно.

Давайте попробуем разобраться как же им удается применять данные технологии. Во-первых, чтобы применять инструментарий DM, нам нужны прежде всего данные. Данные о самих товарах считаем, что у нас есть, по крайней мере в большинстве крупных магазинов давно стоят электронные кассы.

Чего нам не хватает — это данные о метоположении товара. Давайте попробуем сгенерить несколько способов решения этой задачи:

1. На мой взгляд самый простой способ — это ввести кодировку расположения мест, например, первые цифры обозначают торговый ряд, вторые цифры раздел, если больше чем один, третья цифра расположение относительно уровня глаз. Теперь если мы при выкладке введем такой код под каждый товар, то вместе с продажами, у нас начнут накапливаться данные и о местоположениях, где продажи максимальны/минимальны. И мы уже сможем использовать эту информацию для принятия решения.

2. Установка датчиков-счетчиков, по типу тех, что стоят в крупных гипермаркетах, которые ведут число людей, приходящих в магазин. Если оборудовать каждую полку такой техникой, то клиент, когда берет товар с полки, счетчик его фиксирует. Чем больше число счетчиков, тем точнее можно опеределить необходимое местоположение.

Думаю, что существуют еще и другие способы.

Будем считать, что статистику накопили, теперь давайте попробуем разобраться как работать с этими данными.

Например, максимизировать объем (в штуках или в рублях) исходя из месторасположения товара, используя дерево решений. Тут надо оговориться, что каждая группа товара должна рассматриваться отдельно, иначе результат будет точно непредсказуем, в конечном счете наша задача добиться эффективности, а не навести бардак.

Находить группы товаров, которые продаются чаще всего вместе и выкладывать их рядом, и покупателю удобно и Вам приятно. Место выбирать по макимально продаваемому, там где проходимость точно выше. 

Так как все-таки наша задача добиться увеличения и ассортимента и выбрать правильные позиции, то не обойтись без использования оптимизационных методов. Найти такое место для каждого товара, объемы продаж в которых будут максимальны.

Конечно для достижения максимального эффекта требуется много экспериментов. Есть и обратная сторона, если покупатель постоянный, то постоянная ротация товара, может смутить покупателя и он просто напрасто не найдет тот товар, который ищет. Поэтому лучше не экспериминтировать много с товарами, которые продаются хорошо, а делать это точечно по товарам, продажи которых минимальны, затем переходить на часто продаваемые товары, когда будет видет результат.

Удачи Вам!


Что такое предиктивная аналитика? (Predictive analytics)

0

Сегодня мне бы хотелось поговорить о еще одном модном тренде в аналитике, а именно Предиктивной аналитике (Predictive analytics). Для начала давайте разберемся с определением.

Предиктивная или прогностическая аналитика (Predictive analytics) — это прежде всего множество методов статистики, анализа данных и теории игр, которые используются для анализа текущих и исторических данных/событий для прогноза данных/событий в будущем.

Наиболее известный способ использования прогностической аналитики — это применение скоринговых моделей для оценки платежеспособности клиента при выдаче кредитов в банке. Это из области «как не наступить на те же грабли», любая скоринговая модель строится на исторических данных, и если в прошлом, какая-либо группа клиентов была уличена в несвоевременном гашении кредитов, а Вы по каким-либо характеристикам схожи с этой группой, то скорее всего в выдаче кредитов Вам откажут.

Однако это не все области, где применяется предиктивная аналитика, ее можно применять для разработки продуктов, для выбора потенциальной аудитории, для выбора следующего продукта, который Вы можете предложить клиенту (Next Best Offer) и множестве других.

Когда говорят о предиктивной аналитике часто сводят разговоры к применению методов Data mining, я бы даже сказал, что это небольшая ветвь Data mining-а, в основе которой лежат некоторые методы Data mining-а.

Центральной сущностью предиктивной аналитики является задача определение предиктора или нескольких предикторов (параметров или сущностей, которые влияют на прогнозируемое событие). Например, страховые компании выделяю такие предикторы, как возраст, стаж вождения при определении страховой премии.

Множество этих предикторов образует модель предиктивной аналитики, которая предсказывает определенное событие в будущем с какой-то степенью вероятности. Чем проще модель (или меньше количество факторов), тем меньше степень точности модели. Но всегда помним, что любая модель строится на произошедших событиях в прошлом и это не значит, что события в будущем могут повториться при тех же параметрах внутренней среды. Соответственно любой процесс моделирования имеет вероятностный характер. Усложняя модель на исторических данных, мы рискуем ее сильно переучить и соответственно, она может перестать быть устойчивой в будущем.

Если Вы еще не применяете предиктивную аналитику, присмотритесь к этой области, она позволяет значительно увеличить эффективность Вашего бизнеса.

Удачи Вам!

Еще о Data mining, прогнозировании.


Стандарт применения Data mining-а CRISP — DM

0

Сегодня мне хотелось бы рассказать о стандарте, который был принят практиками применения моделей data mining-а CRISP — DM.

CRoss Industry Standard Process for Data Mining (сокращенно CRISP — DM) — кросс-индустриальный стандарт глубинного анализа данных.

CRISP-DM был разработан в конце 1996 года тремя «ветеранами» из молодых и незрелых  компаний  на рынке интеллектуального анализа данных. DaimlerChrysler (в то время Daimler-Benz) был достаточно опытен, опередив большинство промышленных и коммерческих организаций, в применении интеллектуального анализа данных в своих бизнес-операциях. SPSS (тогда ISL) предлагал сервисы на основе интеллектуального анализа данных с 1990 года и в 1994 году запустил первый коммерческий продукт интеллектуального анализа данных Clementine (который, напомню, поглотил IBM в 2009 году). NCR, для предоставления дополнительной ценности своим клиентам хранилищ данных Teradata, создавал группы data mining консультантов и технических специалистов для обслуживания требования своих клиентов.

Модель процесса выглядит следующим образом

Жизненный цикл проекта интеллектуального анализа данных состоит из шести этапов. При этом последовательность этапов не является строгой. Иногда последовательность этапов варьируется, иногда для перехода на следующий этап требуется переместится на один этап назад, чтобы сделать кое-какие уточнения. Это зависит от результатов каждого этапа. Стрелки указывают наиболее важные и частые зависимости между фазами.
Внешний круг на рисунке указывает на цикличность интеллектуального анализа данных. Процесс интеллектуального анализа данных продолжается после развертывания решения. Уточнения, полученные в ходе процесса могут породить другие  более конкретные вопросы. Последующие опыты интеллектуального анализа данных, извлекают выгоду из предыдущих. Т.е. простыми словами необходимо постоянно совершенствовать свои модели для того, чтобы они давали лучшие результаты и не устаревали.

Давайте подробнее остановимся на этапах:

Понимание бизнеса
Этот начальный этап посвящен цели проекта и требованиям с точки зрения бизнеса, а затем преобразованию этих знаний в задачу применения интеллектуального анализа данных, а также разработке предварительного плана, направленного на достижение целей.

Понимание данных
Понимание данных начинается с первоначального сбора данных и переходу ознакомлению с данными, выявлению проблем качества данных. Цель понять структуру данных, обнаружить интересные подмножества для формирования гипотез для анализа скрытых закономерностей.

Подготовка данных
Фаза подготовки данных охватывает все виды деятельности, чтобы определить  окончательный набор данных (данные, которые будут включены средства моделирования (S)) из исходного набора данных. Задачи подготовки данных, с большой вероятностью будут выполнятся не один раз, и могут выполняться также на последующих этапах. На данном этапе формируются таблицы с набором записей и атрибутов, а также необходимые преобразования и очистка данных для моделирования.

Моделирование
В этой фазе идет выборов методов моделирования и их применение. Кроме того, на этом же этапе идет подгонка параметров модели под оптимальные результаты. Как правило, существует несколько методов для одного и того же типа задач. Некоторые методы имеют особые требования к формату данных. Поэтому, иногда необходим возврат на предыдущий этап.

Оценка
На этом этапе Вы построили модель. Прежде чем приступить к окончательному развертыванию модели, важно более тщательно оценить модель, и оценить все  шаги построения модели, решает ли она основную бизнес задачу. Возможно необходимо какие-то вопросы рассмотреть более детально. В конце этой фазы, принимается решение по использованию результатов интеллектуального анализа данных.

Развертывание
Если модель сформирована, это не означает что проект закончен. Даже, если целью модели является повышение знаний о данных, полученные знания должны быть представлены таким образом, что бизнес-заказчик их мог интерпретировать и использовать в своей работе. В зависимости от требований, этап развертывания может быть как простой, простая генерация отчетов, или же более сложным, при которых возможно потребуется  повтор интеллектуального анализа данных. Во многих случаях это будет решать бизнес-заказчик, а не DM-аналитик. В любом случае аналитик должен сопровождать этот процесс.

Сегодня мы познакомились со стандартным процессом, который сопровождает любую работу по формированию моделей DM.

Удачи Вам в применении!


Целевой маркетинг и Data mining

0

Сегодня мы поговорим о сочетании, которое позволяет делать значительный прорыв в продажах и маркетинге при том же маркетинговом бюджете.

Что такое целевой маркетинг мы с вами разобрались здесь.

Что такое Data mining и типы закономерностей, выявляемых методами здесь.

Теперь, если смешать эти 2 понятия, то что мы получим:

1. Data mining применять для выявления тех клиентов, которые наиболее склонны к покупке или выявлять те группы товаров, которые могут быть в большей степени приобретены конкретным клиентом.

2. Проводить целевые маркетинговые кампании на те группы абонентов, которые мы выявили с помощью методов Data mining-а.

3. Результат будет отражаться в дополнительном числе клиентов, которые купят у Вас товары.

Все дело в том, что Вы будете коммуницировать лишь с теми группами абонентов, контакт с которым может иметь наибольшую вероятность на успех или выбирать те группы товаров, которые могут пользоваться большей популярностью у данной группы клиентов.

Давайте рассмотрим несколько примеров, чтобы было понятно, о чем я говорю. Вот, например, представим, что пользователь выбирает бытовую технику. Пусть будет холодильник. Что мы можем сделать с помощью методов Data mining? Ну во-первых проанализировать поведение абонентов, которые покупают холодильник. Что еще они могут купить? Дополнительные формы для льда, формы для заморозки фруктов, и т.д. Т.е. сопутствующие товары. Соответственно, если Вы расширяете свой ассортимент именно этих принадлежностей, то Вы увеличиваете вероятность дополнительной покупки, следовательно увеличиваете чек. Но заметьте, что в данном случае Вы коммуницировали именно с тем клиентом, который с большей вероятностью купит этот товар. Если Вы начнете предлагать формы для заморозки льда или заморозки фруктов клиенту, который смотрит микроволновые печи, то с большей долей вероятности Вы получите отказ.

Удачное сочетание товаров позволяют выявлять методы Data mining-а. Конечно в примере Выше я привел пример более простой. Т.е. для его выявления не обязательно использовать сложный инструментарий. Теперь давайте посмотрим другой пример. Более изящный. Вы, например, продали водоочиститель со сменными фильтрами. Вы знаете, например, что рекомендуемый срок использования фильтра 1 месяц. Если Вы ведете базу таких клиентов, их контактные телефоны. То позвонив через месяц своему клиенту и Вы можете ему мягко напомнить о том, что рекомендуемый срок использования фильтра заканчивается, не хотите ли Вы его поменять, а звоните Вы ему только потому что у Вас в магазине проходит акция на данный тип фильтров. Звонок дорогой канал коммуникации, достаточно прислать СМС с уведомлением и можете быть уверены, клиенты будут рады этому напоминанию. И непременно заглянут в Ваш магазин в ближайшее время. Заодно может быть еще что-то приобретут.

А что если клиент, который зашел к Вам в магазин и смотрит детские товары? Пара наводящих вопросов и Вы уже точно знаете, покупается товар собственному ребенку или в подарок племяннику. А если ребенок свой. То тут можно рекомендовать сколько угодно товаров —  от детского порошка, до развивающих комплексов по возрастам. А если Вы ведете базу таких клиентов, представляете какой это кладезь информации? Если ребенку берут игрушки для возраста 3+? О чем Вы уже знаете, правильно, что через год точно будут брать 4+? А что в это время дети изучают?  … Пара книжек по воспитанию детей и Вы уже гуру по продаже детских товаров.

Надеюсь на продемонстрированных примерах стало немного понятнее, как используются методы Data mining? В первом случае это ассоциация, во втором ассоциация + классификация, в третьем классификация и кластеризация, если мы формируем набор товаров под определенные возрастные группы детей.

В чем может быть ошибка применения этого сочетания?

В отсутствии заранее разработанного сценария маркетинговой коммуникации, раз; неправильном целеполагании, два; некорректном применении самих методов Data mining.

Конечно, дело может не касаться даже правильности или неправильности применения конкретного метода, проблема может заключаться в неправильном отборе обучающей выборки и т.д. То есть вроде все делали правильно, а отклик лишь на доли процентов выше. Для крупных компаний, конечно и сотые доли процентов, это результат. Но по большей степени это может наталкивать на мысль, что некорректно применяются сами методы.

Поэтому правильно проводите отбор данных для «обучения»:

1. Выборка для обучения не должна содержать выбросов и аномалий. Аномалии требуют тщательного изучения. А выбросы в данном случае это некое нехарактерное для большинства клиентов поведение. Их лучше исключить.

2. Выборка для обучения должна иметь схожие характеристики с общей клиентской базой. Например, те же средние, медиану, доли покупаемых товаров и т.д. Если это будет не так, то вероятность отклика может снижаться. Результат непредсказуем. Но с большей долей вероятности положительная реакция будет много ниже, чем при правильном применении метода.

Применяйте проверенные инструменты, пытайтесь понять, что за параметры стоят по умолчанию. Чем проще метод, тем проще интерпретировать результат. В большинстве случаев результат моделирования никак не зависит от применяемого инструментария. Но многие аналитики считают, что чем больше «наворотов» имеет инструмент, тем лучше результат. Заблуждаются. К сожалению, если была бы прямая зависимость, то все компании в очередь стояли бы за SAS и SPSS. Действительно, инструментарий здесь один из наиболее навороченных. Процесс применения методов интуитивно понятен. Согласно аналитиков Gartner, эти инструменты одни из наилучших в мире.Но это вовсе не означает, что применение любых других инструментов даст худший результат, вовсе нет. Вопрос может быть во времени, требуемом на анализ информации. Если время принятия решения не критично, не обязательно смотреть дорогие инструменты.

Если у Вас будут вопросы по применению методов, Вы можете направить их на адрес электронной почты cases@fsecrets.ru.

О других способах применения инструментов Data mining и о самих инструментах, читайте на страницах моего блога.

Удачи Вам в моделировании!


Вверх