스트림 처리 프레임워크에 필요한 기타 요소

빅데이터 스택의 핵심 요소
queuing system,Kafka, RabbitMQ, Kinesis,
스트림 처리 계층
storm(apache storm, backtype storm), Spark, Samza, esper, apache S4
고속 스토리지
Cassandra, HBase, MongoDB, mySQL,flume,+ 빅데이터 스택의 핵심 요소?
대용량으로 여러 경로를 통해 들어오는 데이타를 수집하기 위한 터널이 필요한데 이 처리를 위해선 큐가 적절하다. 그 중에서도 많은 데이타를 동시에 처리하기 위한 대용량 지원성이 필수적인데 이를 위해서는 Kafka 와 같은 대용량 분산 큐 솔루션이 적절하다.

spark, storm, samza, esper, Apache S4, backtype storm

 HBase, JBoss, Amazon Kinesis,apache Kafka, flume,

akka, infinispan

 

7. Hstreaming

Pig의Load / Store에지정하는데이터소스와싱크를HDFS이외에실시갂 Data Streaming을받아들일수있도록I/O를확장
하둡의프레임워크상에서실시갂데이터프로세싱을할수있도록했음

8. Amazon Kinesis

AWS의 스트리밍 데이터를 위한 플랫폼.

9. apache Kafka

– 실시간 분산 로그 수집기
-대용량 분산 큐 솔루션

Producers 와 Consumers 의 사이를 연결해주는 Brokers 역할을 한다.
배치 단위 전송, 압축 기능 등 효율적인 전송 기능을 한다.
Kafka + Stream Processor 조합으로 활용되곤 한다.
JBoss RHQ 모니터링 통합 플랫폼으로 모니터링 할 수 있다.

 

10. flume

JVM의 고유 인스턴스에 포함된다.

에이전트 구성 요소도

 

11. akka

동기적 통신 라이브러리
Java, Scala 등 언어 사용

반응성(responsiveness) : nonblocking/asynchronous 에 따른 시간의 절약

탄력성(elasticity) :  유연한 스케일을 보장한다. Scale out 을 자동으로 보장

유연성(resilience)  : 장애나 에러 발생 시 일관성 있는 반응 유지

메시지 중심(message-driven) : event-driven. 메세지는 목적지가 있기 때문.

모듈화 : 컴포넌트(Actor)는 완벽하게 독립적이며 코드의 응집성, 느슨한 결합성, 캡슐화를 와벽하게 구축

 

12.infinispan
JBoss 커뮤니티의 오픈 소스 프로젝트 – Scala, Java
마이닝 데이터 저장소

13. kafka + strom integration

storm spout에서 Kafka 메세지 offset 직접 관리
storm 프로젝트의 통합 모듈에 포함
Production용이다,.

 

14. kafka + spark integration

kafka 프로젝트 통합 모듈 존재
high-level consumer API 로 구현
Production용은 아직 아니다.

 

 

Leave a comment