데이터베이스 vs 데이터 레이크 vs 데이터 웨어하우스 vs 데이터 마트

데이터베이스, 데이터 레이크, 데이터 웨어하우스, 데이터 마트 각 용어를 종종 들었습니다. 얼핏 들으면 이해가 되는 것 같으면서도 1~2 문장으로 설명된 개념은 명확하지 않았습니다.

자주 듣는 용어인 만큼 이번 포스트에서 명확하게 정리해보았습니다.

데이터 레이크, 데이터웨어 하우스, 데이터 마트를 간단하게 구별 할 수 있는 기준은 데이터의 범위, 사용자의 범위의 차이입니다.

정확히 어떻게 차이가 나는 거고, 각각은 어디에 쓰이는 걸까요?

Database

데이터베이스특정 데이터를 저장하는데 사용되는 저장 장소입니다.

데이터베이스에는 구조화된, 관계형, 관계형 데이터베이스 관리 시스템(RDBMS) 또는 구조화되지 않은 데이터 구조(‘NoSQL’로 알려짐) 등 다양한 종류가 있습니다.

새로운 데이터는 처리, 정리, 관리, 업데이트된 후 데이터베이스의 테이블에 저장됩니다.

MS Access, MySQL은 RDBMS의 예이고 MongoDB와 같은 플랫폼은 NoSQL 데이터베이스의 예입니다.

데이터베이스는 트랜잭션과 밀접하게 연결되어 있으므로 OLTP(online transaction processing)를 수행합니다.

데이터 레이크

데이터 레이크는 조직의 원시 및 처리된(비정형 및 정형) 데이터를 크고 작은 규모로 저장합니다.

데이터 웨어하우스나 데이터베이스와 달리 데이터 레이크는 조직이 향후 사용을 위해 가치 있다고 판단하는 모든 것을 캡처합니다.

데이터 레이크에는 웹 서버 로그, 클릭 스트림, 소셜 미디어, 센서 데이터 등 비정형 및 반정형 데이터를 저장할 수 있습니다.

DW로 넘어가기 전 구조화되지 않은 데이터 입니다.

데이터 웨어하우스와 마찬가지로 데이터 레이크도 데이터 분석 및 보고서 생성에 사용될 수 있습니다. 그러나 데이터 레이크에 사용되는 기술은 데이터 웨어하우스에 사용되는 기술보다 훨씬 더 복잡합니다.

데이터 레이크는 기계 학습과 함께 사용되는 경우가 많습니다. 기계 학습 테스트의 결과도 데이터 레이크에 저장되는 경우가 많습니다. 활용하는 데 필요한 복잡성과 기술 수준으로 인해 데이터 레이크에는 프로그래밍 언어 및 데이터 과학 기술에 경험이 있는 사용자가 필요합니다.

데이터 웨어하우스

기업이나 조직에서 다양한 소스에서 추출한 대규모의 데이터를 중앙 집중식으로 저장하고 관리하는 시스템입니다.

데이터 웨어하우스는 주로 정형 데이터와 엔터프라이즈 레벨의 리포팅과 분석을 지원하는 데 활용됩니다.

일반적으로 데이터 웨어하우스에 저장하려면 먼저 데이터를 전처리해야 합니다. 데이터 세트를 사전에 정리하고 필터링하고 정형화하는 데 추출, 전환, 적재(ETL) 도구가 사용됩니다

데이터 웨어하우스는 변환된(즉, 정리된) 기록 데이터를 캡처하므로 데이터 분석에 이상적인 도구입니다.

관계형 데이터베이스와 마찬가지로 일반적으로 SQL을 사용하여 데이터를 쿼리하고, 데이터 구성 및 무결성을 위해 테이블, 인덱스, 키, 뷰 및 데이터 유형을 사용합니다.

주요 목적은 분석이므로 OLAP(online analytical processing)에는 데이터 웨어하우스가 사용됩니다.

데이터 마트

데이터 웨어하우스의 부분이며, 대개 특정한 조직, 혹은 팀에서 사용하는 것을 목적으로 함

데이터 마트도 관계형 데이터베이스이지만, 실제 사용법은 데이터 웨어하우스와 크게 다릅니다

조직은 엔터프라이즈 데이터 웨어하우스에서 데이터 마트를 만들고 사용 사례가 완료되면 이를 폐기하는 방식을 선호합니다.

데이터웨어하우스와 비교시 보안에 이점이 있습니다. 필수적이지 않은 데이터는 제한하도록 하여 해당 데이터가 무책임하게 사용될 가능성을 제거 할 수 있습니다.

데이터웨어하우스와 비교시 속도에 이점이 있습니다. 데이터 마트에 있는 데이터가 줄어들기 때문에 처리 오버헤드가 줄어듭니다. 즉, 쿼리가 더 빠르게 실행됩니다.

마지막으로, 데이터 마트의 데이터는 해당 부서에 맞게 집계되고 준비되므로 데이터가 오용될 가능성이 줄어듭니다.

데이터 웨어하우스 vs 데이터베이스

데이터베이스는 데이터 분석에 사용되는 데이터 웨어하우스와 달리 트랜잭션을 기록하고 추적합니다.

데이터베이스에는 최신 정보가 저장되지만 창고에는 과거 정보와 현재 정보가 모두 저장됩니다.

데이터베이스는 하나의 기본 소스에서 데이터를 캡처하는 반면, 데이터 웨어하우스는 다양한 소스에서 정보를 제공합니다.

보고 및 분석 도구와 함께 데이터 웨어하우스는 회사의 전반적인 비즈니스 운영에 대한 통찰력을 제공합니다. 데이터베이스는 기본적인 일상 운영을 다루고 기록합니다.

데이터 레이크 VS 데이터 웨어하우스

데이터 레이크는 조직의 모든 데이터를 저장합니다. 데이터 웨어하우스는 구조화된 데이터 모델 생성 및 보고를 위해 정리된 데이터를 저장합니다.

데이터 레이크는 비용 효율적인 테라바이트 및 페타바이트 스토리지를 허용하는 다양한 하드웨어를 활용합니다.

데이터 레이크는 웹 서버 로그, 소셜 네트워크 활동, 센서 데이터 등과 같은 비전통적인 데이터 유형을 포함한 모든 데이터 유형에서 데이터를 추출합니다.

일반적으로 데이터 웨어하우스에 저장하려면 먼저 데이터를 전처리해야 합니다. 데이터 세트를 사전에 정리하고 필터링하고 정형화하는 데 추출, 전환, 적재(ETL) 도구가 사용됩니다.

데이터 웨어하우스는 분석을 위한 보고서를 생성해야 하는 운영 사용자를 위한 것입니다. 데이터 레이크는 데이터 웨어하우스에 저장된 데이터를 넘어서는 심층적인 분석을 위한 것입니다.

데이터 웨어하우스의 경우 사용자가 전처리를 수행할 수 있기 때문에 대체로 신뢰성이 더 높습니다. 중복 제거, 정렬, 요약 및 검증과 같은 몇 가지 기능을 미리 실행하여 데이터 정확성을 보장할 수 있습니다.

데이터 웨어하우스는 가장 빠른 쿼리 성능을 제공하도록 설계되었습니다. 비즈니스 사용자들은 보다 효율적으로 보고서를 생성할 수 있는 데이터 웨어하우스를 선호합니다. 반면, 데이터 레이크 아키텍처는 성능보다 스토리지 볼륨과 비용을 우선시합니다. 더 낮은 비용으로 훨씬 더 많은 스토리지 볼륨을 얻을 수 있으며, 합리적인 속도로 데이터에 액세스할 수 있습니다.

특징데이터 웨어하우스데이터 레이크
데이터관계형 데이터정형, 반정형 및 비정형 등 모든 데이터
스키마데이터 웨어하우스를 구현하기 전 설계되고 분석과 동시에 작성도 가능분석 시에 쓰여짐 (스키마 온 리드)
가격/성능빠른 쿼리 결과저렴한 스토리지를 사용
데이터 품질신뢰성이 높은 고도로 큐레이팅 된 중앙 데이터큐레이팅 되거나 될 수 없는 모든 데이터
사용자비즈니스 애널리스트, 데이터 과학자, 데이터 개발자비즈니스 애널리스트, 데이터 과학자, 데이터 개발자, 데이터 엔지니어, 데이터 아키텍트

데이터 웨어하우스 VS 데이터 마트

데이터 마트는 데이터 웨어하우스에서 추출된 더 작은 주제별 데이터 하위 집합입니다.

데이터 마트는 다른 기존 데이터 웨어하우스의 정보를 필터링하고 요약하는 경우가 많습니다.

데이터 마트는 특정 하위 그룹에 대한 필수 데이터 저장소입니다. 소수의 사용자만이 전체 데이터 웨어하우스에 액세스할 수 있습니다.

데이터 마트는 데이터 웨어하우스의 작은 하위 집합이기 때문에 오버헤드가 덜 필요하고 데이터를 더 빠르게 분석할 수 있습니다.

데이터 웨어하우스에 저장된 데이터는 여러 사용자와 프로젝트에 사용됩니다. 따라서 웨어하우스는 수명이 더 길고 본질적으로 더 복잡합니다.

반면, 데이터 마트는 프로젝트에 초점을 맞추어 제한적으로 사용될 수 있습니다.

특징데이터 웨어하우스데이터 마트
범위함께 통합된 중앙 집중식의 여러 주제특정 주제 영역
사용자전사적단일 조직 또는 부서
데이터 소스여러 소스단일 또는 몇 개의 소스, 또는 데이터 웨어하우스에 이미 수집된 데이터의 일부
크기대형이며 수백 GB ~ PB소형이며 최대 수십 GB 이내
설계하양식상향식
데이터 세부 정보완전한, 상세 데이터요약된 데이터를 포함할 수 있음

참고할 만한 글

Leave a Comment

목차