Особенности профессии

A/B-тестирование 

0

A/B-тестирование (A/B testing, Split testing) — метод маркетингового исследования, суть которого заключается в том, что контрольная группа элементов сравнивается с набором тестовых групп, в которых один или несколько показателей в offer-е были изменены, для того, чтобы выяснить, какие из изменений улучшают целевой показатель, например hit rate, revenue, profit и т.д.

Примеры:

  • Сравнение различных скидок, например, 20% и 50% и определение оптимальной скидки
  • Сравнение двух offer-ов с разной механикой для определения оптимального предложения
  • Иногда проводят более экзотические модификации, например, меняют цвет баннера, размер текста, расположение УТП
Кроме этого должны быть соблюдены ряд условий:
  • Выборка должна быть однородная. Мы должны понимать, что hit rate для разных подсегментов одного сегмента с одним и тем же offer-ом, одинаковый. Иногда говорят, что необходимо провести A/A тестирование, прежде чем приступить к A/B тестированию. Если условие нарушаются, результаты A/B тестирования по выбору оптимального offera непредсказуемы.
  • Offer должен быть применим для сегмента. Например, мы сравниваем скидку 30% и 20% на годовой абонемент и тестируем на абонентах, которые постоянно задерживают оплату, пропускают периоды оплат. Отклик будет столь мизерным, что результаты будут мало применимы, даже если будут отличаться на порядок.
  • Объем выборок при тестировании offer-ов должен быть статистически значимым, в идеале чем больше, тем лучше, в этом случае результаты будут более точными

Удачи вам! Прежде чем запускать сложный offer, неплохо бы его потестировать!

Какая точность считается нормальной?

0

Каждый раз когда речь заходит о моделировании, мне очень часто приходится слышать вопрос — как вы считаете, какая точность является нормальной. И я всегда не могу на него ответить однозначно, назвав какую-то величину.  В моем блоге достаточно примеров, когда точность важна, когда я писал про моделирование потребления электроэнергии, когда каждый закупленный в пустую киловатт может пропасть, а не закупленный может не принести желанной прибыли, но мог быть реализован. В то же время бывают другие ситуации, когда точность прогноза не столь важна, особенно если для достижения точности приходится значительно усложнять модель, которая в конечном итоге плохо интерпретируется, а иногда и вовсе становится неустойчивой на более длительных отрезках времени.

Попробуем на примерах показать, что есть хорошо, а что есть плохо.

Пример 1

Модель на тестовой выборке показывает 60%. Я бы не советовал брать такую модель. Это очень низкий показатель, близкий по сути к угадыванию, которая на боевых данных может не дать хорошего результата, особенно, если сам прогнозируемый фактор имеет очень маленький вес.

Но бывают и другие ситуации, нужно с чего-то начать, и если сравнивать взять просто список клиентов и начать обзвон или применить модель а потом по полученному списку начать обзвон, то я бы советовал использовать модель, чем совсем бездумно начать звонить. Эффект может быть все же выше с моделью. Да, эффект будет незначительным, но это лучше, чем ничего.

Пример 2

Модель на тестовой выборке показывает 87%. Такая точность может дать неплохие результаты на реальных данных, но они могут быть далеки от идеала по следующим причинам: недостаточно данных для обучения. Модель была построена на маленькой выборке, не являющейся репрезентативной, что обязательно скажется на качестве прогноза. Но если задача начать, то это тоже неплохо.

Пример 3

Модель показывает результат 97%. Модель должна показывать неплохой результат, если конечно вы не заигрались с ее переобучиванием. Но в некоторых случаях и такой точности может быть недостаточно. Когда это может произойти. Если переменная, которую вы прогнозируете может зависеть от случайного фактора, вес которого может быть значительный. Например, вы прогнозируете отток абонентов и знаете, что в 50% случаях отток происходит по причине переезда. Да, модель может выделить тех абонентов, которые были похожи на тех, кто переезжал, но это не значит что спрогнозированный абонент переедет. Отсюда нужно всегда выделять факторы, которые случайны и по возможности работать с меньшей выборкой, потому как прогнозировать абонентов, которые переедут не ваша задача, ваша задача прогнозировать абонентов, которые уйдут в отток.

В этом случае достичь 97%, конечно никогда не удастся. Поэтому всегда важно определить что именно вы прогнозируете и от каких факторов зависит прогнозируемая величина.

Можно попробовать ответить универсально, если больше 95% то это хорошо, главное что вы прогнозируете ту величину, которую можно прогнозировать.

Также на точность может влиять сезонность, если у вас недостаточно данных, вы, например, использовали данные в пиковый сезон, а на фактический данных вам предстоит получить прогноз в сезон меньших продаж. В этом случае модель не будет устойчивой и величина в 97% вообще ничего не значит.

Удачи вам, будьте внимательны!

PSPP — бесплатная замена SPSS Statistics

1

Обнаружил интересный проект, по мнению авторов которого, они считают свое решение полноценной заменой SPSS Statistics, информацию можно найти по адресу https://www.gnu.org/software/pspp/. Там же можно найти и скачать дистрибутив и документацию.

Как пишут авторы есть всего несколько отличий: ваши лицензии никогда не закончатся, нет никаких ограничений по количеству строк и столбцов, система поддерживает больше миллиона значений и переменных, вся функциональность содержится в базовом пакете, не нужно искать никаких расширений, как это сделано в SPSS. Все эти ограничения конечно же положительные.

Небольшое добавление: если у вас windows придется немного повозится чтобы поставить cygwin.

Ну что же, нужно протестировать и составить свое впечатление. Мое убеждение о том, что инструмент сейчас обесценивается, только растет. В тренде именно отраслевые бизнес-решения.

Удачи вам и не спешите платить за инструмент, пусть даже вам его продает команда лучших маркетологов!

Что компаниям нужно от Data Scientist

0

Многие компании на рынке, вероятно после участия их IT в конференциях или начитавшись зарубежной литературы/прессы начали подбирать себе персонал, имеющий соответствующий опыт на позицию Data Scientist (Data — аналитик). Самое смешное, что сейчас многие просто меняют название вакансий аналитиков, добавляют в требования в Python и R, все, получается Data Scientist.

Не знаю, конечно, какую они цель преследуют и какие конкретно задачи решают, но после детального изучения таких вакансий заметил одну интересную особенность.

  • Практически в 95% случаев требуется знание Python и R, иногда требуется знание SQL. Как будто другой инструментарий компании попросту игнорируют или не хотят использовать. Причем иногда это именно обязательные требования. Мне очень странно это видеть, понятно, что это все Open-source инструменты (бесплатные), достаточно скачать интерпретаторы, но ведь очевидно, что поддерживать это хозяйство достаточно затратно с точки зрения персонала, документации кода и т.д.  Ок, я не против, но мне как-то режет это слух. Т.е. если человек использует какой-то другой пакет статистики он уже не Data scientist, open-source решений с визуальным интерфейсом полно, скорость обработки возрастает в разы, поддержка и передача функционала много проще, но главное требование умение писать код.  
  • Практически все требуют опыт от года. Хорошее требование, ничего не скажешь, но учитывая что в России практического использования все-таки не так много, переход на Open-source идет слабовато. Маленькие компании, которые могли бы этим заниматься особо этим и не занимаются, а большие достаточно состоятельные, чтобы использовать коммерческие решения, остаются только IT компании. Их не так много, соответственно есть дефицит.
  • Мало кто в требованиях пишет наличие отраслевого опыта. Предполагается, что любой Data Scientist придет и сразу врубиться в специфику бизнеса. Спешу расстроить, в некоторых компаниях вход нового сотрудника идет от полугода, соответственно чего он там настроит не понятно. И как будет интерпретировать модели. Мне достаточно часто приходилось видеть проблемы аналитиков, которые имеют маленький опыт и не учитывают множество факторов. Чаще всего проблемы возникают при интерпретации и проверках «от дурака», когда модель выдает совершенно немыслимый результат на фактических данных. Например, может получиться абсолютно нереальная величина, например, по длительности разговоров. Т.е .прогнозируемая величина может оказаться выше максимально возможной длительности в сутках. Я таких примеров могу привести множество. И хотя я сторонник универсальности аналитиков, я все же понимаю в этом случае, что опыт работы аналитиком достаточный, чтобы не делать элементарные ляпы в виде таких примеров. 
  • Самый на мой взгляд важный момент в этой профессии — интерпретация полученного в результате моделирования результата и умение обосновать и защитить полученный результат — я видел в описании лишь одной вакансии и то на английском языке. На мой взгляд, это должно быть самым главным требованием. Если «ученый данных» что-то там смоделировал, но даже на русском языке не может сформулировать, как этот результат может быть использован, то грош цена таким результатам.
Недавно в одной статейке на английском языке читал, что компании должны вкладывать в понятие Data Scientest и там конечно требования достаточно огромны, начиная от знания математического аппарата, умения программировать, знания Hadoop, R, Python, заканчивая знаниями отраслевой специфики, умением интерпретировать полученные результаты, умением защищать полученные результаты и презентовать их руководителям на «человеческом» языке. А если потенциальный претендент не обладает хотя бы одним навыком, то он не может называть себя Data Scientest. 
Если сравнить требования вакансий и требования, описанные в этой статье, то ни одна их этих вакансий вообще не соответствует этим требованиям, некоторые соответствуют процентов на 50%.
А если еще и посмотреть на реальность внутри компаний, на поверку окажется что для решения 95% задач абсолютно не требуются искомые в вакансии компетенции, то можно прийти к неутешительному выводу, что нам еще далековато до «ученых данных». Вероятно такие есть в университетах, может даже в IT-компаниях. Но уверен в реальности и не все они соответствуют требованиям, таких единицы.
Что самое интересное, что для компетентных специалистов и вакансий таких-то нет, т.е. либо задачки слабоваты либо уровень оплаты.
Вот и остается им участвовать в конкурсах Kaggle.
Надеюсь когда-нибудь дорастем.
Удачи вам!

Data sharing и его преимущества для бизнеса

0

Data sharing еще один тренд — дословно «обмен данными»  — этой такой подход в научном сообществе, который позволяет делиться своими данными с другими исследователями.

А что если бы можно было использовать данные, доступные в одном бизнесе в другом и наоборот. Какой нескончаемый потенциал этих данных, насколько знания о клиентах можно было бы повысить и сделать таргетированные предложения более точечными.

Я считаю, что этот тренд уже реализуется многими успешными корпорациями, например, телекомы идут в банковскую сферу, розница двигается в сторону банковских переводов, почта двигается в сторону e-commerce и логистики. Есть масса других примеров.

На мой взгляд такие знания о клиентах дают большие преимущества, здесь как раз 1+1 = 3 реализуется в полной мере.

Но есть и негативные моменты.

Много говорится о приватности пользователей, хотят ли клиенты, чтобы о них столько знали? К сожалению правда такова, что используя приложения, используя соц. сети и сервисы геолокации мы уже позволяем знать о себе очень много и отказываемся от приватности.

Не всегда эта информация идет нам на пользу. Например, потенциальные работодатели могут отказаться от многообещающего сотрудника по причине его нестандартных политических взглядов. Кроме этого, многие сотрудники потеряли работу только потому что на страницах соц. сетей выразили мнение, которое отражает их индивидуальную точку зрения, которая может противоречить мнению «большинства».

Что дальше?

Сеть Интернет содержит в себе множество информации о клиентах и с развитием инструментов text mining вероятно появятся целые открытые библиотеки, которые будут содержать информацию о пользователях и их предпочтениях. Возможно, такие данные в скором времени можно будет получить бесплатно или за деньги.

А с развитием тренда IoT (Интернета вещей), не удивлюсь, что в скором времени о всех пользователей микроволновок будет известно, что человек ел на обед или ужин, какой запас яиц у него остался в холодильнике, а в супермаркете людям будут напоминать, что у вас заканчивается сливочное масло, не хотите ли купить его по спец. цене.

Ждем с нетерпением появления новых инструментов, которая позволят улучшить нашу жизнь!

Удачи вам!

Вверх