Без рубрики

Размышляя об аналитике и подходам к обучению

0

Всем привет, сегодня мне хотелось бы затронуть тему, которая волнует многих начинающих и не только аналитиков. А вообще, где и как и главное чему обучают аналитиков? Лэндинги пестрят заголовками, освой профессию data scientist за 6 месяцев и будешь получать бешенные деньги. На рынке большой дефицит квалифицированных кадров. Людей, кто знает Python, а еще и библиотеки, используемые для анализа данных отрывают с руками. И это действительно так. Я не раз встречал таких людей и в проектных командах, и ко мне ребята приходили на собеседование, кто рвется в профессию. И порой действительно очень светлые головы, и некоторые даже знают математику, что тоже иногда редкость. Но людей, кто знает математику и бизнес, единицы и вот они точно редкость и стоят бешенных денег. И бизнес тут не в смысле отраслевой экспертизы, она тоже есть, а бизнес именно с точки зрения того, как правильно сформулировать математическую постановку задачи применительно к бизнесу, с тем, чтобы аналитика помогла решить такую задачу и бизнес получил финансовый результат.

Я прихожу к выводу, что на рынке не хватает обучения, которое бы показывало не просто вот data set, вот такая модель и вот такой результат, а более комплексную задачу именно в терминах бизнеса.

Какие задачи стоят у бизнеса, почему они не могут быть решены только с помощью моделей, какие другие составляющие влияют на результат, которые как раз и снижают эффективность. Какая должна быть команда в том или ином случае, чтобы результат был действительно впечатляющим.

Как вы считаете, было бы такое обучение полезно? Мне кажется оно было бы полезно не только аналитикам, но и заказчикам аналитики, они бы поняли, что не достаточно взять и купить дорогого data scientist и будет счастье, нужно учитывать много других аспектов, которые будут влиять на результат.

А вы что думаете?

Что такое аналитика в маркетинге — в слайдах

0

Наткнулся на интересную презентацию, делюсь с читателями

http://www.slideshare.net/ibg-on-fins/ss-31129952

С некоторыми слайдами полностью согласен, с некоторыми не очень, слишком большое передергивание.
Интересен слайд 7, на котором представлена зависимость полученного value от сложности используемого инструментария. Полностью согласен с этим графиком.

Кто не согласен, пишите в комментарии, подискутируем.

Удачи вам!

7 мая — день радио

0

Если среди читателей есть связисты, коллеги, поздравляю с профессиональным праздником, именно день радио считается профессиональным праздником связистов.

Событие, положенное в основу этого праздника, связано с деятельностью выдающегося русского физика и изобретателя Александра Степановича Попова. Более ста лет назад, 25 апреля по старому календарю (или 7 мая по новому) 1895 года на историческом заседании физического отделения Русского физико-химического общества (РФХО) в Санкт-Петербургском университете, А.С. Попов продемонстрировал созданную им первую в мире искровую беспроводную приемо-передающую радиосистему, пригодную для надежного обмена информационными сигналами.

Впервые 7 мая — День радио торжественно отмечался в 1925 году. Это был 30-ти летний юбилей, ранее в связи со сложными событиями в стране круглые даты праздника не отмечались.

 

Мало данных — проблема, много данных — большая проблема

0

Все вопросы, присылаемые на почту так или иначе связаны с проведением анализа при отсутствии данных. Что в таких случаях делать я уже писал раньше. Самый популярный способ это конечно же анализ похожих рынков в других регионах и странах, анализ рынков товаров-заменителей и дополняющих товаров. На текущий момент в сети Интернет находится множество открытых источников, где можно найти такую информацию совершенно бесплатно.
Кроме этого, я также говорил о том, что в последнее время появился тренд обогащения данных. Т.е. имея, например, всего лишь название населенного пункта, можно нарастить эту информацию другой адресной информацией, например, районом, областью, федеральным округом и т.д. Кроме этого, погеографическому признаку можно восстановить множество другой информации. Иногда даже изменение температуры воздуха, может указывать на сезонность того или иного бизнеса.

Самая большая проблема, когда Вы на рынок выводите совершенно новый продукт. Тут могут помочь интервью с тестерами продуктов — бета-тестирование и затем опрос. Поможет выявить недостатки, пожелания, а также накопить статистику для формирования прогноза продаж, например.

В общем выход есть даже в самой сложной ситуации, когда казалось бы совсем нет данных.

Сегодня мне бы хотелось поговорить о проблеме наличия слишком большого числа источников и параметров, которые могут повлиять на результаты анализов. Выбор источника, может оказаться самым критичным параметром. Можно выслушать мнение коллег, можно попробовать потестировать данные из нескольких источников и выбрать лучший, если риск в данном случае допустим. Я бы пошел по пути тестирования, но при этом анализ формировал параллельно и оценивал степень риска по всем данным.

Если источник выбран, но параметров слишком много. Как отделить зерно от плевел. Можно применить факторный анализ и уменьшить число переменных. На самом деле довольно простая вещь, но многие игнорируют и пытаются ввести множество факторов лишь на сотые доли процента улучшая результат. Кроме этого, хочу отметить, что не всегда увеличение параметров приводит к улучшению результата. А если факторы еще и коррелируют между собой, то это еще больший риск ухудшить результат. Не даром есть пословица — все гениальное — просто. Не бойтесь упрощать. Иногда сэкономленное время может принести больше выгоды, чем огромные усилия, потраченные на улучшение результата на сотые доли процента. Если конечно, Вы не теоретик и не работаете в космической промышленности, или сотые доли процента составляют цифры с огромным порядком нулей.

Кроме этого, я также уже рассказывал о том, что можно решать обратную задачу. Т.е. когда желаемый результат известен, можно подобрать параметры, которые наилучшим образом его описывают. Но будьте внимательны, его необходимо потестировать методом Ex-Post прежде чем хоть та толику ему начинать доверять. Иногда можно получить один и тот же ответ правильным способом и абсолютно неправильным. Поэтому будьте внимательны.

Сама цепочка довольно просто представляется:

Источники данных — данные — упрощение данных и выбор значимых факторов — выбор метода анализа — проведение анализа — результат. Сама цепочка не последовательная, она циклическая, где в любой момент времени Вы можете отойти на шаг или на несколько шагов назад и продолжать до тех пор, пока результат Вас не удовлетворит.

Выбор количества факторов

При анализе данных, я стараюсь по минимуму применять сложные алгоритмы, но лучше чем определением предела при выборе количества факторов описать алгоритм выбора количества, наверное, не возможно.

Итак, для любого числа факторов больше нуля, увеличиваем число факторов до тех пор, пока изменение результата при количестве факторов n и n+1, будет незначительным либо не будет превосходить приемлемой для Вас погрешности. При этом погрешность должна стремиться к нулю при увеличении числа факторов. Последнее замечание очень важно, так как если этого не происходит, то выбраны либо не те факторы и последние надо отбрасывать сразу, либо выбран не тот алгоритм анализа.

На мой взгляд с отуствием данных можно легко бороться, а вот с наличием большого числа факторов бороться действительно очень сложно. И иногда даже не знаю, что лучше. Так как я работаю в телекоме, у меня больше вторая проблема, когда данных действительно очень много и приходится постоянно заниматься сэмплированием или урезанием данных.

Удачи Вам!


Вверх
Яндекс.Метрика