SMALL 스파크 실행1 1-1. Apache Spark란 Apache Spark란? 아파치 스파크는 간단하게 스파크라고 많이 불리며, 현재 가장 활발하게 개발되고 있는 병렬 처리 오픈소스 엔진, 통합 컴퓨팅 엔진이며 클러스터 환경에서 데이터를 병렬로 처리하는 라이브러리의 집합이다. 이러한 기능들 덕분에 빅데이터에 관심 있는 여러 개발자와 데이터 과학자에게 표준 도구가 되어가고 있다. 스파크는 파이썬, 자바, 스칼라, R의 총 4가지의 언어를 지원하고 SQL 뿐만 아니라 스트리밍, 머신러닝에 이르기까지 넓은 범위의 라이브러리를 제공한다. 또한 스파크는 단일 노트북 환경에서부터 수천 대의 서버로 구성된 클러스터까지 다양한 환경에서 실행이 가능하다. 이러한 특성을 활용해 빅데이터 처리를 쉽게 할 수 있으며 엄청난 규모의 클러스터로 확장이 가능하다. 아래의 그림은 스.. 2021. 7. 7. 이전 1 다음 LIST