본문 바로가기
IT 이야기

데이터 레이크

by 까삼스 이삐 2022. 1. 6.
728x90
반응형

데이터 레이크(Data Lake)는 조직에서 수집한 데이터를 원형 그대로 한 곳에 저장하는 것을 말합니다. 여기서 원형 그대로라는 말은 데이터를 저장하기 위해 어떠한 가공도 하지 않았다는 의미입니다.

 

https://pixabay.com/

 

그런데 왜 원형 그대로 데이터를 모은다는 의미로 레이크, 즉 '호수'라는 단어를 사용했을 까요? 그것은 바로 데이터 레이크라는 말을 Pentaho CTO James Dixon 2010년 자신의 블로그에 쓰면서 알려졌기 때문입니다.

 

If you think of a datamart as a store of bottled water – cleansed and packaged and structured for easy consumption – the data lake is a large body of water in a more natural state. The contents of the data lake stream in from a source to fill the lake, and various users of the lake can come to examine, dive in, or take samples.

 

데이터마트를 병에 든 물의 저장고로 생각한다면 - 데이터 레이크는 보다 자연스러운 상태의 거대한 물입니다. 데이터 레이크의 내용은 소스에서 유입되어 호수를 채우고 호수의 다양한 사용자는 조사, 잠수 또는 샘플 채취를 위해 올 수 있습니다.

<출처: James Dixon’s Blog>

 

개인적인 생각으로 호수는 바다나 강물과 달리 흐리지 않고 한 곳에 모아져 있습니다. 그래서 언제든지 원하는 데이터에 접근할 수 있기 때문에 호수라는 단어를 사용한 것 같습니다.

 

어쨌거나 데이터 레이크가 대두되기 시작한 것은 기존의 데이터웨어하우스 환경에서 여러 가지 문제들이 발생했기 때문입니다. 대표적인 문제점들은 다음과 같습니다.

 

  • DB와 데이터웨어하우스에 데이터를 모으는데 비용이 많이 들어감
  • 부서/조직 사일로 현상에 따른 데이터 사일로 현상
  • 정형데이터 등 가용 데이터 위주로 데이터 분석 한계
728x90

 

인터넷의 발달과 스마트폰의 대중화로 사용자가 생산하는 데이터가 급격히 증가했습니다. 그래서 기존의 데이터웨어하우스 시스템으로는 고객의 니즈를 정확히 맞추기 어렵다는 것입니다. 

 

다행히 BigData와 AI 기술이 발전하면서 정형화된 데이터가 아니어도 데이터 분석이 가능해져 데이터 레이크가 가능해진 것입니다.

 

시장 전망은 밝습니다.

가트너에 따르면, 데이터 인프라 지출은 2019년에 660억 달러로 사상 최대치를 기록했다. 이는 전체 인프라 소프트웨어 지출 중 24%에 해당하며, 향후 지속 성장할 것으로 예측된다. 데이터 레이크 시장으로 좁혀 보면, 2019 78 5,000만 달러 (한화 약 8.6조원)를 기록했으며, 2020~2024년간 20.6%의 연평균성장률(CAGR) 을 기록, 2024년에는 200 5,000만 달러( 23조원)에 달할 전망이다.
시장을 구분해보면 데이터 탐색, 통합·관리, 분석, 시각화 등 솔루션 부문은 2024 116억 달러, 관련 데이터 서비스 부문은 2024 85억 달러 규모로 성장할 전망이 다. [마켓앤마켓, 2020.1]
 
 
전문 분석 기관인 IDC에 따르면, 데이터 레이크는 RDB, HDFS, NoSQL 등 여러 형태의 스토 리지로 구성되며, 안전하고 통일된 방식으로 데이터에 접근하여 통합 활용을 지원 하는 기술로서, 향후 10년 동안 기술 생애주기상 최고 정점을 유지할 것으로 전망 된다.

출처: IDG Deep Dive 2022 IT 전망보고서 중 진화하는 데이터 레이크에 주목해야 할 시점데이터 레이크 현황과 전망

 

하지만 데이터를 정말 아무 생각없이 쌓기만 한다면 분석하는데 굉장히 많은 비용이 발생할 수 있습니다. 그래서 '데이터 늪'에 빠질 수 있는 것입니다. 이런 문제를 해결하기 위해서는 데이터를 쌓을 때 최소한의 식별자(태그)를 부여하고 분야별, 분류해서 저장하는 것이 필요해 보입니다.

 

같이 읽으면 좋은 글:

2020.09.11 - [IT 이야기] - Big Data의 특징과 중요성

 

Big Data의 특징과 중요성

빅 데이터(big data)란 기존 데이터베이스 관리 도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 뛰어 넘어서는 대량의 정형 데이터뿐만 아니라 비정형 데이터 집합을 포함한 데이터로

kka3seb.tistory.com

2020.07.04 - [IT 이야기] - 인공지능을 대하는 자세

 

인공지능을 대하는 자세

4차 산업혁명을 대하는 자세에서 언급한 것처럼 4차 산업혁명 시대의 핵심은 인공지능입니다. 그럼 이런 인공지능의 발달로 우리들의 미래에는 어떤 영향을 끼칠까요? 그리고 어디에 우선적

kka3seb.tistory.com

 

728x90
반응형

댓글