Сегодня я бы хотел поговорить о сэмплировании при проведении анализа.

Давайте для начала разберемся с понятием, что такое сэмплирование и для чего оно применяется.

Сэмплирование заключается в отборе некоторого подмножества данных из основного множества данных. Иногда, количество транзакций настолько велико, что мощностей компьютера не хватает, для того, чтобы обработать это многообразие данных. Чтобы избавиться от этой проблемы, переходят к сэмплированию.

Давайте я приведу несколько примеров, когда семплирование обязательно Вам понадобится.

Например, Вы захотели построить диаграмму в Excele по 50 тыс. точкам. Вынужден Вас огорчить, Excel имеет ограничение на количество одновременно отображаемых точек, что-то около 30 тыс.

Вы захотели провести обработку анкетных данных в Excel 2003, а количество анкет 80 тыс. И тут у Вас возникнут проблемы, ограничение в 65,5 тыс. 2007 Excel имеет ограничение в 1 млн. строк.

Вы решили проанализировать структуру своей абонентской базы, нужно ли анализировать каждого клиента? А если я Вам скажу, что их 40 млн.?

Вы решили проанализировать реализацию товаров крупной розничной сети, не каждую же транзакцию анализировать.

Вот когда объем данных настолько велик, что невозможно их уместить в доступный под рукой инструмент или мощности компьютеров не хватает, переходят к сэмплированию данных.

Несколько способов сэмплирования, возможно кто-то предложит какие-то еще:

1. Выбирают 2 похожие строки и откидывают одну из них, при этом добавляют новый столбец, в котором указывают количество сгруппированным таким образом строк.

2. Выбирают несколько похожих строки группируют их по одинаковым характеристикам, по количественным характеристикам либо выбирают максимум подмножества, минимум, среднее, медиану и т.д.

3. Сортируют по убыванию/возрастанию и с конкретным шагом выбирают следующую строку.

4. Сортируют по убыванию/возрастанию и случайным числом определяют следующую строку.

Возможно Вы еще какие-то методы предложите.

Какие бы я советы дал при сэмплировании:

1.Перед сэмплированием проверить чтобы данные не содержали неких аномалий и выбросов.

2. Посчитать среднее, медиану, минимум, максимум и другие характеристики выбранного подмножества и исходного и сравнить. Если данные сильно отличаются, я бы попробовал другой метод сэмплирования, потому как результат анализа может сильно отличаться для сэмплированного подмножества данных и исходного.

3. Построить гистограммы рассеивания, графики исходного множества и сэмплированного, они визуально должны быть похожи. Опять же если есть возможность построить.

Если эти условия выполняются, то скорее всего Вы провели корректное сэмплирование и можете работать уже с намного меньшим количеством данных не переживая за результаты анализа.

Если у Вас остались вопросы, пишите на cases@fsecrets.ru.

Удачи Вам!