Pub/Sub 구조 이해하기
pub/sub (publish/subscribe) 구조는 게시자가 구독자를 알 필요 없이 Topic에 메시지를 보내는 반면, 구독자는 게시자를 알 필요 없이 관심 있는 주제로부터 메시지를 받는 메시징 패턴입니다.
게시자와 구독자를 분리하면 분산 시스템에서 확장 가능하고 유연한 통신이 가능해지는데요.
pub/sub (publish/subscribe) 구조는 게시자가 구독자를 알 필요 없이 Topic에 메시지를 보내는 반면, 구독자는 게시자를 알 필요 없이 관심 있는 주제로부터 메시지를 받는 메시징 패턴입니다.
게시자와 구독자를 분리하면 분산 시스템에서 확장 가능하고 유연한 통신이 가능해지는데요.
“메시징 시스템”은 메시지를 보내고 받음으로써 서로 다른 애플리케이션이나 서비스 간의 통신을 가능하게 하는 소프트웨어 인프라입니다. 이 시스템은 일반적으로 메시지를 보내는 프로듀서, 메시지를 받는 컨슈머, 프로듀서에서 컨슈머로 …
“Kafka”는 실시간 데이터 파이프라인과 스트리밍 애플리케이션을 구축하는 데 사용되는데요. 이번에는 Kafka 동작에 대해 공부한 내용을 정리해보았습니다.
실시간 데이터 처리에는 일반적으로 대기 시간을 최소화하면서 데이터가 생성될 때 지속적으로 데이터를 수집, 분석 및 처리하는 작업을 의미합니다. 이를 통해 사기 탐지, 실시간 분석, 모니터링 시스템과 같은 애플리케이션에 중요한 즉각적인 통찰력과 대응이 가능해집니다.
Apache Spark Action 은 RDD(Resilient Distributed Dataset)의 변환에 의해 정의된 전체 계산 계획의 실행을 트리거하는 작업입니다. action은 Spark에 계산을 수행하고 결과를 생성하도록 지시하여 Spark가 클러스터 노드에서 실행될 작업을 시작하도록 합니다. action의 예로는 RDD의 모든 데이터를 드라이버 프로그램으로 검색하는 ‘collect()’, RDD의 요소 수를 계산하는 ‘count()’ 등이 있습니다. Spark Action 함수 정리 Action Function Purpose Example Input … Read more
Spark Transformation 은 작업을 즉시 실행하지 않고 원본 RDD의 각 요소에 함수를 적용하여 새 RDD를 생성하는 RDD(Resilient Distributed Datasets)에 대한 작업입니다.
Spark RDD 는 Resilient Distributed Dataset의 약자로써 “복원력 있는 분산 데이터세트”를 나타냅니다. Spark RDD 는 빅데이터 처리를 단순화하고 속도를 높이도록 설계된 Apache Spark의 핵심 데이터 모델입니다.
Apache Spark는 빅 데이터 처리 및 분석을 위해 설계된 오픈 소스 분산 컴퓨팅 시스템입니다. Spark는 Disk 기반의 Hadoop 처리 방식을 개선하여 처리속도를 높인 프레임워크인데요.
Hadoop MapReduce는 분산 데이터 처리를 위한 프로그래밍 모델이자 처리 기술입니다. key, value 형태의 자료구조를 기반으로 데이터를 처리하는 메커니즘를 가지는데요. MapReduce의 대략적인 모습은…
“Hadoop”은 분산 파일 (HDFS) + 분산 처리 프로그래밍 모델 (MapReduce)을 제공해줍니다. 데이터를 미리 HDFS 형태로 분산해서 저장시킨 다음 MapReduce를 이용해서 분산처리하는 것이죠