Big Data

PSPP — бесплатная замена SPSS Statistics

1

Обнаружил интересный проект, по мнению авторов которого, они считают свое решение полноценной заменой SPSS Statistics, информацию можно найти по адресу https://www.gnu.org/software/pspp/. Там же можно найти и скачать дистрибутив и документацию.

Как пишут авторы есть всего несколько отличий: ваши лицензии никогда не закончатся, нет никаких ограничений по количеству строк и столбцов, система поддерживает больше миллиона значений и переменных, вся функциональность содержится в базовом пакете, не нужно искать никаких расширений, как это сделано в SPSS. Все эти ограничения конечно же положительные.

Небольшое добавление: если у вас windows придется немного повозится чтобы поставить cygwin.

Ну что же, нужно протестировать и составить свое впечатление. Мое убеждение о том, что инструмент сейчас обесценивается, только растет. В тренде именно отраслевые бизнес-решения.

Удачи вам и не спешите платить за инструмент, пусть даже вам его продает команда лучших маркетологов!

Что компаниям нужно от Data Scientist

0

Многие компании на рынке, вероятно после участия их IT в конференциях или начитавшись зарубежной литературы/прессы начали подбирать себе персонал, имеющий соответствующий опыт на позицию Data Scientist (Data — аналитик). Самое смешное, что сейчас многие просто меняют название вакансий аналитиков, добавляют в требования в Python и R, все, получается Data Scientist.

Не знаю, конечно, какую они цель преследуют и какие конкретно задачи решают, но после детального изучения таких вакансий заметил одну интересную особенность.

  • Практически в 95% случаев требуется знание Python и R, иногда требуется знание SQL. Как будто другой инструментарий компании попросту игнорируют или не хотят использовать. Причем иногда это именно обязательные требования. Мне очень странно это видеть, понятно, что это все Open-source инструменты (бесплатные), достаточно скачать интерпретаторы, но ведь очевидно, что поддерживать это хозяйство достаточно затратно с точки зрения персонала, документации кода и т.д.  Ок, я не против, но мне как-то режет это слух. Т.е. если человек использует какой-то другой пакет статистики он уже не Data scientist, open-source решений с визуальным интерфейсом полно, скорость обработки возрастает в разы, поддержка и передача функционала много проще, но главное требование умение писать код.  
  • Практически все требуют опыт от года. Хорошее требование, ничего не скажешь, но учитывая что в России практического использования все-таки не так много, переход на Open-source идет слабовато. Маленькие компании, которые могли бы этим заниматься особо этим и не занимаются, а большие достаточно состоятельные, чтобы использовать коммерческие решения, остаются только IT компании. Их не так много, соответственно есть дефицит.
  • Мало кто в требованиях пишет наличие отраслевого опыта. Предполагается, что любой Data Scientist придет и сразу врубиться в специфику бизнеса. Спешу расстроить, в некоторых компаниях вход нового сотрудника идет от полугода, соответственно чего он там настроит не понятно. И как будет интерпретировать модели. Мне достаточно часто приходилось видеть проблемы аналитиков, которые имеют маленький опыт и не учитывают множество факторов. Чаще всего проблемы возникают при интерпретации и проверках «от дурака», когда модель выдает совершенно немыслимый результат на фактических данных. Например, может получиться абсолютно нереальная величина, например, по длительности разговоров. Т.е .прогнозируемая величина может оказаться выше максимально возможной длительности в сутках. Я таких примеров могу привести множество. И хотя я сторонник универсальности аналитиков, я все же понимаю в этом случае, что опыт работы аналитиком достаточный, чтобы не делать элементарные ляпы в виде таких примеров. 
  • Самый на мой взгляд важный момент в этой профессии — интерпретация полученного в результате моделирования результата и умение обосновать и защитить полученный результат — я видел в описании лишь одной вакансии и то на английском языке. На мой взгляд, это должно быть самым главным требованием. Если «ученый данных» что-то там смоделировал, но даже на русском языке не может сформулировать, как этот результат может быть использован, то грош цена таким результатам.
Недавно в одной статейке на английском языке читал, что компании должны вкладывать в понятие Data Scientest и там конечно требования достаточно огромны, начиная от знания математического аппарата, умения программировать, знания Hadoop, R, Python, заканчивая знаниями отраслевой специфики, умением интерпретировать полученные результаты, умением защищать полученные результаты и презентовать их руководителям на «человеческом» языке. А если потенциальный претендент не обладает хотя бы одним навыком, то он не может называть себя Data Scientest. 
Если сравнить требования вакансий и требования, описанные в этой статье, то ни одна их этих вакансий вообще не соответствует этим требованиям, некоторые соответствуют процентов на 50%.
А если еще и посмотреть на реальность внутри компаний, на поверку окажется что для решения 95% задач абсолютно не требуются искомые в вакансии компетенции, то можно прийти к неутешительному выводу, что нам еще далековато до «ученых данных». Вероятно такие есть в университетах, может даже в IT-компаниях. Но уверен в реальности и не все они соответствуют требованиям, таких единицы.
Что самое интересное, что для компетентных специалистов и вакансий таких-то нет, т.е. либо задачки слабоваты либо уровень оплаты.
Вот и остается им участвовать в конкурсах Kaggle.
Надеюсь когда-нибудь дорастем.
Удачи вам!

BDaaS — Big Data as a Service

0

Недавно услышал новый термин и сразу резануло ухо. Опять новомодное слово. Скоро все что сдается в аренду будет иметь приставку aaS — As a Service — как сервис. С одной стороны я согласен, что стоимость владения некой инфраструктурой действительно можно оптимизировать, если взять эту инфраструктуру в аренду. С другой стороны, зачем брать нечто в аренду, что не дает тебе никакого бизнес-value. Ведь не для всякого бизнеса Big Data вообще может дать какой-то результат. То есть этот результат будет, но выигрыш будет ничтожным по сравнению с тем, что может дать и традиционный инструментарий.

Причем что интересно, количество решений, позволяющих решать задачи класса Big Data растет просто ошеломляющими темпами, но при этом громких успешных кейсов не так-то и много и более того часть этих кейсов можно решать традиционным способом. На мой взгляд есть более перспективная ниша, а именно не просто Big Data as a Service а готовый сервис с преднастроенными моделями данных, позволяющих решать конкретные задачи бизнес-заказчика. Такие модели должны быть не просто построены на статичной архитектуре, а быть адаптивными к набору данных заказчика. И хотя я скептически отношусь к разного рода готовым моделям в BI. Готовое решение, с реальными зашитыми бизнес-кейсами внутри, которое можно потестировать на своих данных, является более многообещающим решением, на мой взгляд, чем использования технологий обработки данных.

Что толку тестировать инструмент без решения конкретной задачи, если можно решать уже конкретную бизнес-задачу на своих данных, оценивать эффективность и практически мгновенно понимать на сколько использование этого инструментария окупается.

На мой взгляд появление такого рода систем позволит сделать качественный скачок в обслуживании клиентов при небольших затратах организации.

Я пока мало слышал о таких готовых решениях, есть наработки по обработке данных соц. сетей при обработке отзывов, надеюсь мы будем слышать о таких решениях все чаще и они действительно рано или поздно вытеснят традиционный инструментарий.

Удачи вам! Стройте умный бизнес!

Удачи Вам!

Data sharing и его преимущества для бизнеса

0

Data sharing еще один тренд — дословно «обмен данными»  — этой такой подход в научном сообществе, который позволяет делиться своими данными с другими исследователями.

А что если бы можно было использовать данные, доступные в одном бизнесе в другом и наоборот. Какой нескончаемый потенциал этих данных, насколько знания о клиентах можно было бы повысить и сделать таргетированные предложения более точечными.

Я считаю, что этот тренд уже реализуется многими успешными корпорациями, например, телекомы идут в банковскую сферу, розница двигается в сторону банковских переводов, почта двигается в сторону e-commerce и логистики. Есть масса других примеров.

На мой взгляд такие знания о клиентах дают большие преимущества, здесь как раз 1+1 = 3 реализуется в полной мере.

Но есть и негативные моменты.

Много говорится о приватности пользователей, хотят ли клиенты, чтобы о них столько знали? К сожалению правда такова, что используя приложения, используя соц. сети и сервисы геолокации мы уже позволяем знать о себе очень много и отказываемся от приватности.

Не всегда эта информация идет нам на пользу. Например, потенциальные работодатели могут отказаться от многообещающего сотрудника по причине его нестандартных политических взглядов. Кроме этого, многие сотрудники потеряли работу только потому что на страницах соц. сетей выразили мнение, которое отражает их индивидуальную точку зрения, которая может противоречить мнению «большинства».

Что дальше?

Сеть Интернет содержит в себе множество информации о клиентах и с развитием инструментов text mining вероятно появятся целые открытые библиотеки, которые будут содержать информацию о пользователях и их предпочтениях. Возможно, такие данные в скором времени можно будет получить бесплатно или за деньги.

А с развитием тренда IoT (Интернета вещей), не удивлюсь, что в скором времени о всех пользователей микроволновок будет известно, что человек ел на обед или ужин, какой запас яиц у него остался в холодильнике, а в супермаркете людям будут напоминать, что у вас заканчивается сливочное масло, не хотите ли купить его по спец. цене.

Ждем с нетерпением появления новых инструментов, которая позволят улучшить нашу жизнь!

Удачи вам!

Нужно ли компании Data Lake

0

Недавно услышал новый термин, Data Lake (Озеро данных) — речь идет о подходе к хранению больших данных. Не нужно тратить большие деньги на преобразование данных, а нужно хранить их в первоначальном виде. Вероятно, тогда хранить эти данные дешевле. Главное, чтобы к ним был простой доступ и возможность их оперативного использования в случае необходимости.

CTO компании Teradata Стивен Бробст сформулировал  5 заповедей «озера данных» (взял в статье на Cnews).

Он приводит 5 простых советов по развертыванию «озер данных», которые позволят компаниям эффективнее использовать накапливаемые данные.

Не засоряйте «озеро данных». При том, что данные могут храниться в «озере» без структуры, все же имеет смысл сразу организовывать пространство для хранения и размещать данные по категориям. Тогда любой пользователь сможет быстрее найти и применить необходимые ему данные. А «озеро» не превратится в «болото».

Обеспечьте безопасность данных в «озере». Защита персональных данных и конфиденциальной информации сразу должна стать первостепенной задачей. Данные из «озера» не должны «утекать» или создавать проблемы с регуляторами.

Снабдите аналитиков необходимыми инструментами для исследования, профилирования и получения ответов на свои запросы из «озера данных». С данными сразу должны иметь возможность работы не только (и не столько) разработчики, но и бизнес-специалисты, которым эти инструменты будут полезны.

Поддерживайте доверие к данным. Данным из «озера» будут доверять, и для поддержки этого доверия нужно, как минимум, фиксировать их происхождение. Особое внимание следует уделить качеству метаданных.

Свяжите «озеро данных» с аналитической экосистемой предприятия. В «озере» должны накапливаться структурированные, полуструктурированные и неструктурированные данные, а само по себе «озеро» будет представлять симбиоз технологий Hadoop, реляционных баз данных и NoSQL, а также облачных сервисов. При этом «аппаратная» составляющая должна быть выбрана по принципу минимальной стоимости хранения информации. В идеале все данные должны храниться «вечно», но с минимальными издержками.

 

Несмотря на то, что термин новый, не скажу, что это какой-то новый подход. Раньше компании им также пользовались, допустим хранили данные на низкоскоростных жестких дисках, которые дешевле, а все что нужно использовать регулярно имеется в хранилище на быстрых дисках или in-memory. Я конечно во всем вижу маркетинговые ходы, и конечно Teradata не исключение, в том плане что новая философия больше навязывается с целью продать свое оборудование. Я же считаю, что не всем оно нужно, и не обязательно делать это самое озеро. Опять же нужно точно отдавать себе отчет, что данные будут использоваться, а не просто храниться, в надежде на авось пригодится. Более того, я считаю, что глубина хранения данных уже не столь актуальна, потому что мы настолько стремительно все меняемся с появлением новых технологий, что за год происходят значительные изменения в поведении, соответственно детальные сырцы с историей хранения больше года имеют все меньшую прикладную ценность. Поэтому прежде чем использовать новомодную философию, подумайте, действительно оно вам нужно?

Или вами движет намерение пощеголять новомодными словечками на конференции, вот мы сделали Data Lake, вот мы такие крутые.

Если вы технические спецы, спросите бизнес, как они это используют? Конечно, иногда такие вопросы воспринимаются в штыки, типа вам какая разница как используется, нам нужно. Называйте конкретную цену хранения, попросите защитить кейсы. Не всегда оно нужно, поверьте.

И в заключении небольшая классификация ПО. Очень мне понравился график Тома Андерсена. Не могу не поделиться.

Удачи вам! Подходите к хранению данных с умом.

Вверх