Hadoop의 HDFS 시작하기

“HDFS 시작하기” 입니다. 도커 컨테이너를 이용하여 단일 시스템이지만 분산 시스템이라고 가정하고 HDFS 명령어들을 테스트 할 수 있었습니다.해당 포스트는 KMOOC 빅데이터 프레임워크 강의 내용을 기반으로 정리한 글 입니다.

하둡 분산 파일 시스템 HDFS 이해하기

HDFS 이해하기

HDFS (Hadoop 분산 파일 시스템)는 Apache Hadoop 에코시스템의 초석으로, 컴퓨터 클러스터 전체에서 방대한 양의 데이터를 저장하고 관리하도록 설계되었습니다. HDFS의 아키텍처는 안정성, 확장성 및 효율적인 데이터 처리를 보장하므로 빅 데이터 애플리케이션에 널리 사용됩니다.

데이터베이스 vs 데이터 레이크 vs 데이터 웨어하우스 vs 데이터 마트

데이터베이스, 데이터 레이크, 데이터 웨어하우스, 데이터 마트 각 용어를 종종 들었습니다. 얼핏 들으면 이해가 되는 것 같으면서도 1~2 문장으로 설명된 개념은 명확하지 않았습니다. 자주 듣는 용어인 만큼 이번 포스트에서 명확하게 정리해보았습니다. 데이터 레이크, 데이터웨어 하우스, 데이터 마트를 간단하게 구별 할 수 있는 기준은 데이터의 범위, 사용자의 범위의 차이입니다. 정확히 어떻게 차이가 나는 거고, 각각은 어디에 … Read more

SQL 피봇 테이블 (Pivot table)

“피봇 테이블(Pivot Table)“은 특정한 기준에 따라 데이터를 재구조화하여 표현하는 방법을 말합니다. 피봇 테이블은 데이터를 더 직관적으로 이해하고 분석하기 위해 사용됩니다. 예를 들어 원본 데이터가 다음과 같을 때 date product quantity 2022-01-01 A 100 2022-01-01 B 150 2022-01-02 A 120 2022-01-02 B 180 <원본 데이터> 날짜와 제품을 기준으로 재구조화 하여 아래와 같이 피봇 테이블을 만들 수 … Read more

SQL 데이터 전처리 2 : 이상치 제거, 표준화, 정규화

“데이터 전처리“는 원시 데이터를 분석이나 모델링에 활용하기 적합하도록 정제하고 가공하는 과정으로, 결측치 처리, 이상치 제거, 변수 스케일링과 같은 단계를 포함하여 데이터의 품질을 향상시키는 작업을 의미합니다. 이는 정확하고 신뢰성 있는 결과를 얻기 위해 필수적인 단계로 여겨집니다. SQL 데이터 전처리는 2개로 나눠서 정리하고 있습니다. 이번 포스트에서는 2. 이상치 제거, 표준화, 정규화에 대해 정리해보겠습니다. 이상치 제거 이상치를 판단하기 위해서는 … Read more

SQL 데이터 전처리 1 : TRIM, IS NULL, COALESCE

소프트웨어 설계와 DB 모델링을 마치고 데이터를 수집하면 우리가 원하는 스키마에 원하는 데이터 유형으로 데이터를 받을 수 있습니다. 하지만 데이터를 가공하다 보면 원하지 않은 데이터를 변경하거나 제거해야 하는 경우가 반드시 존재합니다. 하물며 우리가 모델링한 DB에서 나온 데이터가 아닌 공개 DB나 어디서인가 데이터를 받았을 때는 절대 우리가 원하는 형태로 데이터가 존재하지 않습니다. 이럴 때, “데이터 전처리” 를 … Read more