Записи с меткой Data Mining

Мерчендайзинг и аналитика, как?

0

Когда я писал о том, как увеличить выручку, упоминал о том, что правильная выкладка товара порой позволяет добиться хороших результатов. Давайте рассмотрим поподробнее как на практике реализовать решение данной задачи. Сеть walmart давно уже использует Data mining в мерчендайзинге причем делает это весьма и весьма упешно.

Давайте попробуем разобраться как же им удается применять данные технологии. Во-первых, чтобы применять инструментарий DM, нам нужны прежде всего данные. Данные о самих товарах считаем, что у нас есть, по крайней мере в большинстве крупных магазинов давно стоят электронные кассы.

Чего нам не хватает — это данные о метоположении товара. Давайте попробуем сгенерить несколько способов решения этой задачи:

1. На мой взгляд самый простой способ — это ввести кодировку расположения мест, например, первые цифры обозначают торговый ряд, вторые цифры раздел, если больше чем один, третья цифра расположение относительно уровня глаз. Теперь если мы при выкладке введем такой код под каждый товар, то вместе с продажами, у нас начнут накапливаться данные и о местоположениях, где продажи максимальны/минимальны. И мы уже сможем использовать эту информацию для принятия решения.

2. Установка датчиков-счетчиков, по типу тех, что стоят в крупных гипермаркетах, которые ведут число людей, приходящих в магазин. Если оборудовать каждую полку такой техникой, то клиент, когда берет товар с полки, счетчик его фиксирует. Чем больше число счетчиков, тем точнее можно опеределить необходимое местоположение.

Думаю, что существуют еще и другие способы.

Будем считать, что статистику накопили, теперь давайте попробуем разобраться как работать с этими данными.

Например, максимизировать объем (в штуках или в рублях) исходя из месторасположения товара, используя дерево решений. Тут надо оговориться, что каждая группа товара должна рассматриваться отдельно, иначе результат будет точно непредсказуем, в конечном счете наша задача добиться эффективности, а не навести бардак.

Находить группы товаров, которые продаются чаще всего вместе и выкладывать их рядом, и покупателю удобно и Вам приятно. Место выбирать по макимально продаваемому, там где проходимость точно выше. 

Так как все-таки наша задача добиться увеличения и ассортимента и выбрать правильные позиции, то не обойтись без использования оптимизационных методов. Найти такое место для каждого товара, объемы продаж в которых будут максимальны.

Конечно для достижения максимального эффекта требуется много экспериментов. Есть и обратная сторона, если покупатель постоянный, то постоянная ротация товара, может смутить покупателя и он просто напрасто не найдет тот товар, который ищет. Поэтому лучше не экспериминтировать много с товарами, которые продаются хорошо, а делать это точечно по товарам, продажи которых минимальны, затем переходить на часто продаваемые товары, когда будет видет результат.

Удачи Вам!


Стандарт применения Data mining-а CRISP — DM

0

Сегодня мне хотелось бы рассказать о стандарте, который был принят практиками применения моделей data mining-а CRISP — DM.

CRoss Industry Standard Process for Data Mining (сокращенно CRISP — DM) — кросс-индустриальный стандарт глубинного анализа данных.

CRISP-DM был разработан в конце 1996 года тремя «ветеранами» из молодых и незрелых  компаний  на рынке интеллектуального анализа данных. DaimlerChrysler (в то время Daimler-Benz) был достаточно опытен, опередив большинство промышленных и коммерческих организаций, в применении интеллектуального анализа данных в своих бизнес-операциях. SPSS (тогда ISL) предлагал сервисы на основе интеллектуального анализа данных с 1990 года и в 1994 году запустил первый коммерческий продукт интеллектуального анализа данных Clementine (который, напомню, поглотил IBM в 2009 году). NCR, для предоставления дополнительной ценности своим клиентам хранилищ данных Teradata, создавал группы data mining консультантов и технических специалистов для обслуживания требования своих клиентов.

Модель процесса выглядит следующим образом

Жизненный цикл проекта интеллектуального анализа данных состоит из шести этапов. При этом последовательность этапов не является строгой. Иногда последовательность этапов варьируется, иногда для перехода на следующий этап требуется переместится на один этап назад, чтобы сделать кое-какие уточнения. Это зависит от результатов каждого этапа. Стрелки указывают наиболее важные и частые зависимости между фазами.
Внешний круг на рисунке указывает на цикличность интеллектуального анализа данных. Процесс интеллектуального анализа данных продолжается после развертывания решения. Уточнения, полученные в ходе процесса могут породить другие  более конкретные вопросы. Последующие опыты интеллектуального анализа данных, извлекают выгоду из предыдущих. Т.е. простыми словами необходимо постоянно совершенствовать свои модели для того, чтобы они давали лучшие результаты и не устаревали.

Давайте подробнее остановимся на этапах:

Понимание бизнеса
Этот начальный этап посвящен цели проекта и требованиям с точки зрения бизнеса, а затем преобразованию этих знаний в задачу применения интеллектуального анализа данных, а также разработке предварительного плана, направленного на достижение целей.

Понимание данных
Понимание данных начинается с первоначального сбора данных и переходу ознакомлению с данными, выявлению проблем качества данных. Цель понять структуру данных, обнаружить интересные подмножества для формирования гипотез для анализа скрытых закономерностей.

Подготовка данных
Фаза подготовки данных охватывает все виды деятельности, чтобы определить  окончательный набор данных (данные, которые будут включены средства моделирования (S)) из исходного набора данных. Задачи подготовки данных, с большой вероятностью будут выполнятся не один раз, и могут выполняться также на последующих этапах. На данном этапе формируются таблицы с набором записей и атрибутов, а также необходимые преобразования и очистка данных для моделирования.

Моделирование
В этой фазе идет выборов методов моделирования и их применение. Кроме того, на этом же этапе идет подгонка параметров модели под оптимальные результаты. Как правило, существует несколько методов для одного и того же типа задач. Некоторые методы имеют особые требования к формату данных. Поэтому, иногда необходим возврат на предыдущий этап.

Оценка
На этом этапе Вы построили модель. Прежде чем приступить к окончательному развертыванию модели, важно более тщательно оценить модель, и оценить все  шаги построения модели, решает ли она основную бизнес задачу. Возможно необходимо какие-то вопросы рассмотреть более детально. В конце этой фазы, принимается решение по использованию результатов интеллектуального анализа данных.

Развертывание
Если модель сформирована, это не означает что проект закончен. Даже, если целью модели является повышение знаний о данных, полученные знания должны быть представлены таким образом, что бизнес-заказчик их мог интерпретировать и использовать в своей работе. В зависимости от требований, этап развертывания может быть как простой, простая генерация отчетов, или же более сложным, при которых возможно потребуется  повтор интеллектуального анализа данных. Во многих случаях это будет решать бизнес-заказчик, а не DM-аналитик. В любом случае аналитик должен сопровождать этот процесс.

Сегодня мы познакомились со стандартным процессом, который сопровождает любую работу по формированию моделей DM.

Удачи Вам в применении!


Cognos 10 + SPSS

0

Вчера удалось попасть к IBM на презентацию аналитического решения. IBM уделили внимание двум продуктам это Cognos, который из себя представляет BI решение и купленный ими в 2009 году SPSS Clementine.

Почему в названии поста я поставил именно цифру 10, все потому что в этой версии произошла значительная интеграция этих продуктов в единое решение. Теперь любая аналитика, разработанная в BI, может передаться для анализа в SPSS и наоборот. Все это бесшовно.

SPSS имеет довольно дружелюбный интерфейс по отношению к пользователю, все интуитивно понятно.

Если сравнивать 2 продукта, Oracle BI и Cognos, то я бы выделил несколько преимуществ IBM перед Oracle:

1. Возможность подгружать файлы Excel без соответствующего «танца с бубном» на стороне IT в виде заведения отдельной таблички или витрины данных и включение ее в общую модель данных. Только после этого данные из Excel можно обрабатывать в Oracle BI. Надеюсь в будущем Oracle обратит внимание на этот факт.

2. Возможность создавать новые пользовательские уровни иерархии не только на основе значений измерений, но и самих показателей. Причем все это гораздо проще, чем в Oracle.

3. Наличие встроенного статистического пакета, хоть и не расширенного как в SPSS Statistics, но все же простейшие вещи позволяет делать. В BI от Oracle, этого нет.

Конечно, теперь я от IBM услышал о том, что они имеют самое лучшее BI решение в мире, хотя несколько месяцев до этого слышал это от Oracle.

Ну что же, в споре рождается истина. Будем ждать ответы других вендоров. Что скажут теперь SAP, который практически остался без SPSS (кто не знает, ранее SAP его использовал в качестве аналитической части) или SAS, положение в России которого в последнее время пошатнулось из-за неоднозначной ценовой политики.  Может им также стоит задуматься о диверсификации бизнеса и укрепиться на ряде отстающих направлений. В одном есть уверенность, что от этого выиграет бизнес.

Удачи Вам в выборе аналитического инструмента!


Типы закономерностей, выявляемых методами Data Mining

2

Что такое Data Mining мы с Вами разобрались. Сегодня мы поговорим о закономерностях, которые лежат в основе алгоритмов Data Mining-а.

Выделяют пять стандартных типов закономерностей, которые позволяют выявлять  методы Data Mining: ассоциация, последовательность, классификация, кластеризация и прогнозирование. Давайте попробуем разобраться как они применимы на практике.

Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Например, исследование, проведенное в супермаркете, может показать, что 70% купивших творог берут также и сметану, а при наличии скидки от одного производителя такую пару продуктов покупают в 80% случаев . Располагая сведениями о подобной ассоциации, менеджерам легко оценить, насколько действенна предоставляемая скидка.

Если существует цепочка связанных во времени событий, то говорят о последовательности. Так, например, после покупки квартиры в 45% случаев в течение месяца приобретается и новая кухонная плита, а в пределах двух недель 60% новоселов обзаводятся холодильником.

С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил. Например, может определяться надежность клиента банка по ряду критериев.

Кластеризация отличается от классификации тем, что сами группы заранее не заданы. С помощью кластеризации средства Data Mining самостоятельно выделяют различные однородные группы данных. Как правило, на основе кластеризации формируются новые продукты.

Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в БД в виде временных рядов. Если удается построить шаблоны, адекватно отражающие динамику поведения целевых показателей, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем.

В настоящее время в России очень мало коммерческих организаций применяют данные принципы на практике. Лишь некоторые крупные организации могут себе это позволить ну и зря. Применяя алгоритмы Data Mining-а можно значительно увеличить объем реализации продукции, практически не затрачивая дополнительных средств на продвижение.

Успехов в применении!


Что такое Business Intelligence

0

Если Вы работаете в малом бизнесе, то Вы скорее всего просто не будете понимать, зачем нам какие-то IT-технологии для принятия решений, для формирования прогнозов и т.д. Ведь Вы свои данные о продажах сможете уместить на лист формата A4. Но, если Вы работаете на среднем или на крупном предприятии, имеете не одно структурное подразделение, то наверняка Вы попадали в ситуацию, когда объем данных настолько велик, что Вы просто не знаете как их все использовать при формировании прогноза или оценке рисков или как представить руководству отчет на 10 слайдах презентации в Power Point, в этом случае как раз инструменты Business Intelligence Вам и помогут.

Идея BI и само название были предложены аналитиками GartnerGroup еще в конце 80-х годов. BI-технологии позволяют анализировать большие массивы информации, позволяя пользователю выделять из них ключевые, моделировать исход различных инициатив, отслеживать результаты принятия тех или иных решений.

Business intelligence (BI), возможные переводы на русский – Бизнес-аналитика, бизнес-анализ. Под этим понятием чаще всего подразумевают программное обеспечение, созданное помочь в анализе информации о своем предприятии. Особо продвинутые системы, позволяют моделировать еще и ситуацию внешнего окружения. Для России это конечно редкость, в основном системы работают только с внутренней информацией предприятия. Существует несколько вариантов понимания этого термина.

  1. Бизнес-аналитика – это методы и инструменты для построения информативных отчётов о текущей ситуации. В этом случае цель бизнес-аналитики – предоставить нужную информацию тому человеку, которому она необходима в нужное время. Эта информация может оказаться жизненно необходимой для принятия управленческих решений.
  2. Бизнес-аналитика – это инструменты, используемые для преобразования, хранения, анализа, моделирования, доставки и трассировки информации в ходе работы над задачами, связанными с принятием решений на основе фактических данных. При этом с помощью этих средств лица, принимающие решения, должны при использовании подходящих технологий получать нужные сведения и в нужное время. Таким образом, BI в первом понимании является лишь одним из секторов бизнес-аналитики в более широком втором понимании. Помимо отчётности туда входят инструменты интеграции и очистки данных ETL(от английского extract transform load — извлечение, трансформация, загрузка данных в хранилище BI-приложения, недавно появился еще один модный тренд ETLT — дополнительная трансформация после загрузки), аналитические хранилища данных и средства Data Mining.

Средства BI позволяют Вам хранить и использовать всю необходимую для принятия решения информации в одном месте. Конечно внедрение BI, как и стоимость самих лицензий достаточно дорогое удовольствие и прежде чем внедрять такое решение, я бы Вам для начала рекомендовал оценить эффективность его внедрения. Не советую Вам принимать такое решение только лишь потому у Вашего хорошего друга уже есть такое решение на предприятии.

О том как оценить эффективность внедрения BI-решения, увеличить эффективность их использования, читайте на страницах моего блога. Удачи в работе!


Вверх
Яндекс.Метрика