Spark Standalone Cluster with Docker Swarm

이번에 연구실에서 Apache Spark Cluster를 구축할 일이 있어서 구축 방법을 문서화했다. 이 포스트에서는 그 문서에 살점을 조금 더 붙여서 올려본다. 아울러 데이터가 최대한 내부망에서 처리되는 것을 원하시는 교수님 + 클라우드로 연구비를 사용하기 힘듦 등의 이유로 AWS를 사용할 수 없는 환경이라 직접 설치 / 설정했음을 밝혀둔다. Why Standalone? YARN, Mesos, Kubernetes와 같은 방법 대신에 왜 Docker […]

How to Launch / Terminate AWS EMR Cluster

(1) AWS 상단의 Services 탭 클릭 > EMR (Elastic MapReduce) 클릭   (2) 좌상단의 Create cluster를 클릭   (3) 이름과 Logging 유무, 원하는 버전 (본인은 최신 버전인 emr-5.10.0을 선택), 원하는 Application (본인은 Spark를 이용하기 위해 Spark를 선택) , 원하는 인스턴스 타입과 갯수, 자신이 사용하는 ECC pem key를 적절히 선택하고 우 하단에 Create cluster 클릭   […]