SMALL 어큐뮬레이터1 2-1. Spark의 저수준 API Spark의 저수준 API의 종류로는 RDD, 분산형 공유 변수(어큐뮬레이터, 브로드캐스트 변수)가 있다. 이는 모두 분산형 공유변수로 뒤에서 조금 더 자세히 알아보자. 대부분의 상황에서는 구조적 API를 사용하는 것이 좋으나 물리적 데이터의 배치를 아주 세밀하게 제어하는 경우나 RDD를 사용해 개발된 기존 코드를 유지해야 하는 경우 등 비즈니스나 기술적 문제를 처리하지 못하는 경우에는 저수준 API를 사용하여야 한다. 때문에 이번 포스팅에서는 저수준 API에 대해 알아보자. 먼저, 저수준 API를 사용하기 위해서는 SparkContext를 사용해야한다. SparkContext는 Sparksession을 이용해 접근할 수 있는데, 자세한 건 뒤에서 설명하도록 하겠다. [RDD(Resilient Distr.. 2021. 7. 23. 이전 1 다음 LIST