Новичкам

Подходы к контролю качества данных

0

Сегодня мне бы хотелось изложить возможные подходы к контролю качества данных. И не важно, получаете ли вы данные от специалистов вверенных вам подразделений или получаете из автоматизированных систем, которые туда первично также заносятся такими же специалистами, задача контроля данных всегда важна и актуально. Еще не придумано алгоритмов от человеческих ошибок.

Все алгоритмы контроля качества я бы разделил на несколько типов (возможно вы еще что-то добавите, будет интересный FAQ по данному вопросу):

1. Проверка «от дурака». Т.е .контроль данных на какие-то случайные значения, которые либо не могут существовать в принципе, либо отсутствуют те значения, которые должны быть.

Пример из банка, кредит физического лица составляет 700 млн.руб. Вероятнее всего эта ошибка появляется в результате того, что кто-то забыл поделить на 1000 руб. Т.е. указал как 700 000, но при этом уже само поле БД было в тыс. руб., вследствие чего произошла ошибка.

Это Далее >

Автоматизируем процесс подготовки отчетности

0

Сегодня хотел бы сказать несколько слов о скорости подготовки отчетности. Если ваша отчетность формируется полностью в автоматическом режиме, то, наверное, дальше будет читать не столь интересно, хотя данный опыт может быть полезен и в других областях.

Все мы сталкиваемся в своей работе с большой долей монотонных одинаковых операций, когда получая какие-нить выгрузки из транзакционных систем, нам приходится очень долго обрабатывать информацию, чтобы превратить наконец «сырую» информацию в красивый отчет для менеджмента компании (подставить свое). Самое интересное, что подавляющее большинство специалистов при этом клянут эту часть своей работы, предпочитая не сбор и трансформацию данных, а анализ, поиск новых алгоритмов, т.е. креативную составляющую работы аналитика. Чем дольше приходится решать задачу сбора информации и ее обработки, тем меньше остается времени на ее анализ, поиск «жемчужины» и т.д. Как правило, даже правило Парето отдыхает, потому как до 90% времени уходит именно на сбор информации, проверку ее качества и приведение ее в божеский вид, который уже действительно можно Далее >

Не важно «как», важно «что»

0

Сегодня короткая заметка на очень интересную тему. Думаю, многие сталкивались с тем, что менеджер превозносит свои заслуги, иногда ставя процесс на первое место, вместо достигнутого результата. Раньше я тоже этим грешил, пока не стал руководителем и не задумался над этой проблемой. Оценивая свою проделанную работу и проделанную работу своих коллег, подчиненных либо менеджеров смежных подразделений, могу точно сказать, что практически всегда оценка проводится по достигнутым результатам. Многие молодые сотрудники, приходя на предприятие не понимают этого и считают, что они хорошие работники лишь потому, что они выполняют так много ответственных, как им кажется, поручений руководителей. Они даже не догадываются, как они ошибаются. Часто они говорят, вот какую я работу проделал, вот так все красиво получается. При ближайшем рассмотрении, видно, что данную работу можно было упростить в 10-ки раз, добившись такого же результата в гораздо более короткое время. Обращаясь ко всем, вы поймите, не важно как Вы решили изящно ту или иную задачку, Далее >

Data quality – качество данных

0

Сегодня мне бы хотелось поговорить о самой большой проблеме всех внедрений BI – о проблеме качества данных. Особо острой проблема является в тех случаях, когда существует более чем один источник данных. Например, в British Telecom сейчас более 200 биллинговых систем. И несомненно, когда приходится считать какой-либо составной показатель из нескольких источников или выбирать показатель из множества конкурирующих источников (источники, которые содержат один и тот показатель), в этом случае мы всегда сталкиваемся с решением задачи обеспечения качества данных.

Недавно я встречался с Вице-Президентом Oracle по BI – Полом Родвиком и задал вопрос о подходах, которыми пользуются компании во время внедрения. О двух из них я несомненно слышал, но третий меня слегка удивил, хотя он имеет право на существование.

В настоящее время есть несколько принципов решения проблем:

1. «Глубокое решение» – подход, при котором создается единый источник, который является мастер-источником для всех остальных систем, т.е. идет двухсторонняя интеграция. Далее >

Что Data mining может, а чего нет?

0

Недавно натолкнулся на очень интересное интервью с Питером Фэйдером (Peter Fader) с редактором журнала CIO Insight Алланом Алтером (Allan Alter), мастером по количественным ислледованиям в маркетинге бизнес-школы Wharton, который обращается к IT-директорам компаний: «хватит накапливать множество абонентских данных и не правильно применять алгоритмы Data mining-а».

Несмотря на то, что интервью бралось еще в далеком 2007 году, мне оно кажется очень актуальным, тем более после появления новых трендов, таких как Big Data. Я уже ни раз говорил о том, что не всегда продвинутый инструментарий позволяет получить гораздо лучшие результаты при аналитической обработке данных, чем при построении простейших моделей в том же Excel. После прочтения этого интервью я еще больше укрепился в этом мнении.

Статья на столько понравилась, что решил сделать перевод для читателей блога.

CIO INSIGHT: Питер, расскажите о сильных и слабых сторонах использования инструментария Data Mining и Business Intelligence.

FADER: 

Инструментарий Далее >

Вверх