Каждый раз когда речь заходит о моделировании, мне очень часто приходится слышать вопрос – как вы считаете, какая точность является нормальной. И я всегда не могу на него ответить однозначно, назвав какую-то величину.  В моем блоге достаточно примеров, когда точность важна, когда я писал про моделирование потребления электроэнергии, когда каждый закупленный в пустую киловатт может пропасть, а не закупленный может не принести желанной прибыли, но мог быть реализован. В то же время бывают другие ситуации, когда точность прогноза не столь важна, особенно если для достижения точности приходится значительно усложнять модель, которая в конечном итоге плохо интерпретируется, а иногда и вовсе становится неустойчивой на более длительных отрезках времени.

Попробуем на примерах показать, что есть хорошо, а что есть плохо.

Пример 1

Модель на тестовой выборке показывает 60%. Я бы не советовал брать такую модель. Это очень низкий показатель, близкий по сути к угадыванию, которая на боевых данных может не дать хорошего результата, особенно, если сам прогнозируемый фактор имеет очень маленький вес.

Но бывают и другие ситуации, нужно с чего-то начать, и если сравнивать взять просто список клиентов и начать обзвон или применить модель а потом по полученному списку начать обзвон, то я бы советовал использовать модель, чем совсем бездумно начать звонить. Эффект может быть все же выше с моделью. Да, эффект будет незначительным, но это лучше, чем ничего.

Пример 2

Модель на тестовой выборке показывает 87%. Такая точность может дать неплохие результаты на реальных данных, но они могут быть далеки от идеала по следующим причинам: недостаточно данных для обучения. Модель была построена на маленькой выборке, не являющейся репрезентативной, что обязательно скажется на качестве прогноза. Но если задача начать, то это тоже неплохо.

Пример 3

Модель показывает результат 97%. Модель должна показывать неплохой результат, если конечно вы не заигрались с ее переобучиванием. Но в некоторых случаях и такой точности может быть недостаточно. Когда это может произойти. Если переменная, которую вы прогнозируете может зависеть от случайного фактора, вес которого может быть значительный. Например, вы прогнозируете отток абонентов и знаете, что в 50% случаях отток происходит по причине переезда. Да, модель может выделить тех абонентов, которые были похожи на тех, кто переезжал, но это не значит что спрогнозированный абонент переедет. Отсюда нужно всегда выделять факторы, которые случайны и по возможности работать с меньшей выборкой, потому как прогнозировать абонентов, которые переедут не ваша задача, ваша задача прогнозировать абонентов, которые уйдут в отток.

В этом случае достичь 97%, конечно никогда не удастся. Поэтому всегда важно определить что именно вы прогнозируете и от каких факторов зависит прогнозируемая величина.

Можно попробовать ответить универсально, если больше 95% то это хорошо, главное что вы прогнозируете ту величину, которую можно прогнозировать.

Также на точность может влиять сезонность, если у вас недостаточно данных, вы, например, использовали данные в пиковый сезон, а на фактический данных вам предстоит получить прогноз в сезон меньших продаж. В этом случае модель не будет устойчивой и величина в 97% вообще ничего не значит.

Удачи вам, будьте внимательны!