Cassandra, HBase, MongoDB, mySQL,flume,+ 빅데이터 스택의 핵심 요소?
대용량으로 여러 경로를 통해 들어오는 데이타를 수집하기 위한 터널이 필요한데 이 처리를 위해선 큐가 적절하다. 그 중에서도 많은 데이타를 동시에 처리하기 위한 대용량 지원성이 필수적인데 이를 위해서는 Kafka 와 같은 대용량 분산 큐 솔루션이 적절하다.
spark, storm, samza, esper, Apache S4, backtype storm
HBase, JBoss, Amazon Kinesis,apache Kafka, flume,
akka, infinispan
7. Hstreaming
Pig의Load / Store에지정하는데이터소스와싱크를HDFS이외에실시갂 Data Streaming을받아들일수있도록I/O를확장
하둡의프레임워크상에서실시갂데이터프로세싱을할수있도록했음
8. Amazon Kinesis
AWS의 스트리밍 데이터를 위한 플랫폼.
9. apache Kafka
– 실시간 분산 로그 수집기
-대용량 분산 큐 솔루션
Producers 와 Consumers 의 사이를 연결해주는 Brokers 역할을 한다.
배치 단위 전송, 압축 기능 등 효율적인 전송 기능을 한다.
Kafka + Stream Processor 조합으로 활용되곤 한다.
JBoss RHQ 모니터링 통합 플랫폼으로 모니터링 할 수 있다.
10. flume
JVM의 고유 인스턴스에 포함된다.
11. akka
동기적 통신 라이브러리
Java, Scala 등 언어 사용
반응성(responsiveness) : nonblocking/asynchronous 에 따른 시간의 절약
탄력성(elasticity) : 유연한 스케일을 보장한다. Scale out 을 자동으로 보장
유연성(resilience) : 장애나 에러 발생 시 일관성 있는 반응 유지
메시지 중심(message-driven) : event-driven. 메세지는 목적지가 있기 때문.
모듈화 : 컴포넌트(Actor)는 완벽하게 독립적이며 코드의 응집성, 느슨한 결합성, 캡슐화를 와벽하게 구축
12.infinispan
JBoss 커뮤니티의 오픈 소스 프로젝트 – Scala, Java
마이닝 데이터 저장소
13. kafka + strom integration
storm spout에서 Kafka 메세지 offset 직접 관리
storm 프로젝트의 통합 모듈에 포함
Production용이다,.
14. kafka + spark integration
kafka 프로젝트 통합 모듈 존재
high-level consumer API 로 구현
Production용은 아직 아니다.