Недавно услышал новый термин, Data Lake (Озеро данных) – речь идет о подходе к хранению больших данных. Не нужно тратить большие деньги на преобразование данных, а нужно хранить их в первоначальном виде. Вероятно, тогда хранить эти данные дешевле. Главное, чтобы к ним был простой доступ и возможность их оперативного использования в случае необходимости.

CTO компании Teradata Стивен Бробст сформулировал  5 заповедей «озера данных» (взял в статье на Cnews).

Он приводит 5 простых советов по развертыванию «озер данных», которые позволят компаниям эффективнее использовать накапливаемые данные.

Не засоряйте «озеро данных». При том, что данные могут храниться в «озере» без структуры, все же имеет смысл сразу организовывать пространство для хранения и размещать данные по категориям. Тогда любой пользователь сможет быстрее найти и применить необходимые ему данные. А «озеро» не превратится в «болото».

Обеспечьте безопасность данных в «озере». Защита персональных данных и конфиденциальной информации сразу должна стать первостепенной задачей. Данные из «озера» не должны «утекать» или создавать проблемы с регуляторами.

Снабдите аналитиков необходимыми инструментами для исследования, профилирования и получения ответов на свои запросы из «озера данных». С данными сразу должны иметь возможность работы не только (и не столько) разработчики, но и бизнес-специалисты, которым эти инструменты будут полезны.

Поддерживайте доверие к данным. Данным из «озера» будут доверять, и для поддержки этого доверия нужно, как минимум, фиксировать их происхождение. Особое внимание следует уделить качеству метаданных.

Свяжите «озеро данных» с аналитической экосистемой предприятия. В «озере» должны накапливаться структурированные, полуструктурированные и неструктурированные данные, а само по себе «озеро» будет представлять симбиоз технологий Hadoop, реляционных баз данных и NoSQL, а также облачных сервисов. При этом «аппаратная» составляющая должна быть выбрана по принципу минимальной стоимости хранения информации. В идеале все данные должны храниться «вечно», но с минимальными издержками.

 

Несмотря на то, что термин новый, не скажу, что это какой-то новый подход. Раньше компании им также пользовались, допустим хранили данные на низкоскоростных жестких дисках, которые дешевле, а все что нужно использовать регулярно имеется в хранилище на быстрых дисках или in-memory. Я конечно во всем вижу маркетинговые ходы, и конечно Teradata не исключение, в том плане что новая философия больше навязывается с целью продать свое оборудование. Я же считаю, что не всем оно нужно, и не обязательно делать это самое озеро. Опять же нужно точно отдавать себе отчет, что данные будут использоваться, а не просто храниться, в надежде на авось пригодится. Более того, я считаю, что глубина хранения данных уже не столь актуальна, потому что мы настолько стремительно все меняемся с появлением новых технологий, что за год происходят значительные изменения в поведении, соответственно детальные сырцы с историей хранения больше года имеют все меньшую прикладную ценность. Поэтому прежде чем использовать новомодную философию, подумайте, действительно оно вам нужно?

Или вами движет намерение пощеголять новомодными словечками на конференции, вот мы сделали Data Lake, вот мы такие крутые.

Если вы технические спецы, спросите бизнес, как они это используют? Конечно, иногда такие вопросы воспринимаются в штыки, типа вам какая разница как используется, нам нужно. Называйте конкретную цену хранения, попросите защитить кейсы. Не всегда оно нужно, поверьте.

И в заключении небольшая классификация ПО. Очень мне понравился график Тома Андерсена. Не могу не поделиться.

Удачи вам! Подходите к хранению данных с умом.