Особенности профессии

Серия кейсов по аналитике — как из ничего получить что-то (кейс 2)

0

Кейс 2. Или как ваш маркетинг анализирует рынок.

Еще один интересный кейс. Продолжая анализировать тарифную политику компании, стал ковыряться в услугах междугородней и международной связи. Понятно, что оператор Зоновый, соответственно дальняя связь могла предоставляться только по агентской схеме. Было выяснено, что был преселект одного из операторов большой тройки, где было больше 95% трафика и мелочевка по нескольким другим операторам. Есть несколько типов агентских договоров: федеральный оператор формирует тарифы самостоятельно, оператор Зоновый получает агентское, есть договора в которых федеральный оператор дает таксы, а Зоновый оператор накручивает маржу. В нашем случае у оператора был второй тип агентского. В принципе самый простой способ поднять выручку и маржу, это поднять тарифы, но сделать это незаметным для абонента, выбрав направления с максимальным трафиком и делая небольшую индексацию, можно получить приличный результат. В моем случае гипотезу я выдвинул именно такую и стал собирать статистику, чтобы смоделировать ситуацию. Параллельно стал поднимать историю, когда тарифы изменялись, чтобы оценить эластичность спроса по цене. Это был бы классический кейс. Однако история была намного интереснее. Начал я выборочно смотреть тарифы и затратные таксы, увидел что часть направлений оказались убыточны, то есть таксы увеличивались, а оператор не шевелился менять тарифы. Ну бывает, с изменением курса доллара я наблюдал картину, когда таксы менялись дважды в неделю и конечно сложно в такой ситуации реагировать, но и это решаемый вопрос, главное автоматизация процесса. Но суть не в этом. Я обратил внимание на очень подозрительно низкие тарифы на Дальний Восток, мне показалось, что они намного ниже чем у Федеральных операторов. Я решил собрать и проанализировать тарифы всех Федеральных операторов и сравнить их с утвержденными. Какого было мое удивление, когда оказалось, что мало того тарифы ниже рынка, иногда на порядок, самое смешное, они намного ниже, чем у оператора, который давал оператору таксы на пропуск трафика, причем тоже существенно ниже. После этого, задача сводилось к тому, чтобы найти разумный баланс между индексацией тарифов и оставаться в рынке, чуть ниже, чтобы трафик не ушел. Показал результаты руководству компании, удивление было не меньше. При этом конечно столкнулся с жестким сопротивлением продавцов, которые меня уверяли, Что мы все потеряем если проиндексируем тарифы. В общем не буду описывать всю историю уговоров и продиводействий внутри компании, сразу скажу, что результат мог быть бы больше, если бы все поверили в него сразу. В общем результат на лицо, трафик не упал, выручка и маржа выросли, абоненты не убежали. Выручка от агентского выросла больше чем на 25%.

Если вы занимаетесь ценообразованием, не бойтесь экспериментировать, но и, снижая тарифы ниже рынка, понимайте его емкость, иногда это не приводит к росту трафика, а приводит к потере выручки или недополученной выручки. Такие кейсы есть везде и повсюду, важно грамотно видеть ситуацию.

Удачи вам, надеюсь материал кому-то окажется очень полезным!

A/B-тестирование 

0

A/B-тестирование (A/B testing, Split testing) — метод маркетингового исследования, суть которого заключается в том, что контрольная группа элементов сравнивается с набором тестовых групп, в которых один или несколько показателей в offer-е были изменены, для того, чтобы выяснить, какие из изменений улучшают целевой показатель, например hit rate, revenue, profit и т.д.

Примеры:

  • Сравнение различных скидок, например, 20% и 50% и определение оптимальной скидки
  • Сравнение двух offer-ов с разной механикой для определения оптимального предложения
  • Иногда проводят более экзотические модификации, например, меняют цвет баннера, размер текста, расположение УТП
Кроме этого должны быть соблюдены ряд условий:
  • Выборка должна быть однородная. Мы должны понимать, что hit rate для разных подсегментов одного сегмента с одним и тем же offer-ом, одинаковый. Иногда говорят, что необходимо провести A/A тестирование, прежде чем приступить к A/B тестированию. Если условие нарушаются, результаты A/B тестирования по выбору оптимального offera непредсказуемы.
  • Offer должен быть применим для сегмента. Например, мы сравниваем скидку 30% и 20% на годовой абонемент и тестируем на абонентах, которые постоянно задерживают оплату, пропускают периоды оплат. Отклик будет столь мизерным, что результаты будут мало применимы, даже если будут отличаться на порядок.
  • Объем выборок при тестировании offer-ов должен быть статистически значимым, в идеале чем больше, тем лучше, в этом случае результаты будут более точными

Удачи вам! Прежде чем запускать сложный offer, неплохо бы его потестировать!

Какая точность считается нормальной?

0

Каждый раз когда речь заходит о моделировании, мне очень часто приходится слышать вопрос — как вы считаете, какая точность является нормальной. И я всегда не могу на него ответить однозначно, назвав какую-то величину.  В моем блоге достаточно примеров, когда точность важна, когда я писал про моделирование потребления электроэнергии, когда каждый закупленный в пустую киловатт может пропасть, а не закупленный может не принести желанной прибыли, но мог быть реализован. В то же время бывают другие ситуации, когда точность прогноза не столь важна, особенно если для достижения точности приходится значительно усложнять модель, которая в конечном итоге плохо интерпретируется, а иногда и вовсе становится неустойчивой на более длительных отрезках времени.

Попробуем на примерах показать, что есть хорошо, а что есть плохо.

Пример 1

Модель на тестовой выборке показывает 60%. Я бы не советовал брать такую модель. Это очень низкий показатель, близкий по сути к угадыванию, которая на боевых данных может не дать хорошего результата, особенно, если сам прогнозируемый фактор имеет очень маленький вес.

Но бывают и другие ситуации, нужно с чего-то начать, и если сравнивать взять просто список клиентов и начать обзвон или применить модель а потом по полученному списку начать обзвон, то я бы советовал использовать модель, чем совсем бездумно начать звонить. Эффект может быть все же выше с моделью. Да, эффект будет незначительным, но это лучше, чем ничего.

Пример 2

Модель на тестовой выборке показывает 87%. Такая точность может дать неплохие результаты на реальных данных, но они могут быть далеки от идеала по следующим причинам: недостаточно данных для обучения. Модель была построена на маленькой выборке, не являющейся репрезентативной, что обязательно скажется на качестве прогноза. Но если задача начать, то это тоже неплохо.

Пример 3

Модель показывает результат 97%. Модель должна показывать неплохой результат, если конечно вы не заигрались с ее переобучиванием. Но в некоторых случаях и такой точности может быть недостаточно. Когда это может произойти. Если переменная, которую вы прогнозируете может зависеть от случайного фактора, вес которого может быть значительный. Например, вы прогнозируете отток абонентов и знаете, что в 50% случаях отток происходит по причине переезда. Да, модель может выделить тех абонентов, которые были похожи на тех, кто переезжал, но это не значит что спрогнозированный абонент переедет. Отсюда нужно всегда выделять факторы, которые случайны и по возможности работать с меньшей выборкой, потому как прогнозировать абонентов, которые переедут не ваша задача, ваша задача прогнозировать абонентов, которые уйдут в отток.

В этом случае достичь 97%, конечно никогда не удастся. Поэтому всегда важно определить что именно вы прогнозируете и от каких факторов зависит прогнозируемая величина.

Можно попробовать ответить универсально, если больше 95% то это хорошо, главное что вы прогнозируете ту величину, которую можно прогнозировать.

Также на точность может влиять сезонность, если у вас недостаточно данных, вы, например, использовали данные в пиковый сезон, а на фактический данных вам предстоит получить прогноз в сезон меньших продаж. В этом случае модель не будет устойчивой и величина в 97% вообще ничего не значит.

Удачи вам, будьте внимательны!

PSPP — бесплатная замена SPSS Statistics

1

Обнаружил интересный проект, по мнению авторов которого, они считают свое решение полноценной заменой SPSS Statistics, информацию можно найти по адресу https://www.gnu.org/software/pspp/. Там же можно найти и скачать дистрибутив и документацию.

Как пишут авторы есть всего несколько отличий: ваши лицензии никогда не закончатся, нет никаких ограничений по количеству строк и столбцов, система поддерживает больше миллиона значений и переменных, вся функциональность содержится в базовом пакете, не нужно искать никаких расширений, как это сделано в SPSS. Все эти ограничения конечно же положительные.

Небольшое добавление: если у вас windows придется немного повозится чтобы поставить cygwin.

Ну что же, нужно протестировать и составить свое впечатление. Мое убеждение о том, что инструмент сейчас обесценивается, только растет. В тренде именно отраслевые бизнес-решения.

Удачи вам и не спешите платить за инструмент, пусть даже вам его продает команда лучших маркетологов!

Что компаниям нужно от Data Scientist

0

Многие компании на рынке, вероятно после участия их IT в конференциях или начитавшись зарубежной литературы/прессы начали подбирать себе персонал, имеющий соответствующий опыт на позицию Data Scientist (Data — аналитик). Самое смешное, что сейчас многие просто меняют название вакансий аналитиков, добавляют в требования в Python и R, все, получается Data Scientist.

Не знаю, конечно, какую они цель преследуют и какие конкретно задачи решают, но после детального изучения таких вакансий заметил одну интересную особенность.

  • Практически в 95% случаев требуется знание Python и R, иногда требуется знание SQL. Как будто другой инструментарий компании попросту игнорируют или не хотят использовать. Причем иногда это именно обязательные требования. Мне очень странно это видеть, понятно, что это все Open-source инструменты (бесплатные), достаточно скачать интерпретаторы, но ведь очевидно, что поддерживать это хозяйство достаточно затратно с точки зрения персонала, документации кода и т.д.  Ок, я не против, но мне как-то режет это слух. Т.е. если человек использует какой-то другой пакет статистики он уже не Data scientist, open-source решений с визуальным интерфейсом полно, скорость обработки возрастает в разы, поддержка и передача функционала много проще, но главное требование умение писать код.  
  • Практически все требуют опыт от года. Хорошее требование, ничего не скажешь, но учитывая что в России практического использования все-таки не так много, переход на Open-source идет слабовато. Маленькие компании, которые могли бы этим заниматься особо этим и не занимаются, а большие достаточно состоятельные, чтобы использовать коммерческие решения, остаются только IT компании. Их не так много, соответственно есть дефицит.
  • Мало кто в требованиях пишет наличие отраслевого опыта. Предполагается, что любой Data Scientist придет и сразу врубиться в специфику бизнеса. Спешу расстроить, в некоторых компаниях вход нового сотрудника идет от полугода, соответственно чего он там настроит не понятно. И как будет интерпретировать модели. Мне достаточно часто приходилось видеть проблемы аналитиков, которые имеют маленький опыт и не учитывают множество факторов. Чаще всего проблемы возникают при интерпретации и проверках «от дурака», когда модель выдает совершенно немыслимый результат на фактических данных. Например, может получиться абсолютно нереальная величина, например, по длительности разговоров. Т.е .прогнозируемая величина может оказаться выше максимально возможной длительности в сутках. Я таких примеров могу привести множество. И хотя я сторонник универсальности аналитиков, я все же понимаю в этом случае, что опыт работы аналитиком достаточный, чтобы не делать элементарные ляпы в виде таких примеров. 
  • Самый на мой взгляд важный момент в этой профессии — интерпретация полученного в результате моделирования результата и умение обосновать и защитить полученный результат — я видел в описании лишь одной вакансии и то на английском языке. На мой взгляд, это должно быть самым главным требованием. Если «ученый данных» что-то там смоделировал, но даже на русском языке не может сформулировать, как этот результат может быть использован, то грош цена таким результатам.
Недавно в одной статейке на английском языке читал, что компании должны вкладывать в понятие Data Scientest и там конечно требования достаточно огромны, начиная от знания математического аппарата, умения программировать, знания Hadoop, R, Python, заканчивая знаниями отраслевой специфики, умением интерпретировать полученные результаты, умением защищать полученные результаты и презентовать их руководителям на «человеческом» языке. А если потенциальный претендент не обладает хотя бы одним навыком, то он не может называть себя Data Scientest. 
Если сравнить требования вакансий и требования, описанные в этой статье, то ни одна их этих вакансий вообще не соответствует этим требованиям, некоторые соответствуют процентов на 50%.
А если еще и посмотреть на реальность внутри компаний, на поверку окажется что для решения 95% задач абсолютно не требуются искомые в вакансии компетенции, то можно прийти к неутешительному выводу, что нам еще далековато до «ученых данных». Вероятно такие есть в университетах, может даже в IT-компаниях. Но уверен в реальности и не все они соответствуют требованиям, таких единицы.
Что самое интересное, что для компетентных специалистов и вакансий таких-то нет, т.е. либо задачки слабоваты либо уровень оплаты.
Вот и остается им участвовать в конкурсах Kaggle.
Надеюсь когда-нибудь дорастем.
Удачи вам!
Вверх
Яндекс.Метрика