SMALL SEMINAR16 베이그런트 설치하기 베이그런트 : 사용자의 요구에 맞게 시스템 자원을 할당, 배치, 배포해 두었다가 필요할 때 시스템을 사용할 수 있는 상태로 만들어줌 (=프로비저닝) 설치 방법 1. 베이그런트 다운로드 페이지에 접속 후 각자의 운영 체제에 맞는 설치 파일을 다운로드 https://developer.hashicorp.com/vagrant/downloads Install | Vagrant | HashiCorp Developer Explore Vagrant product documentation, tutorials, and examples. developer.hashicorp.com 2. 설치된 설치 파일 실행 후 다음과 같이 설치 Next 클릭 라이선스 동의에 체크 후 Next 클릭 설치 경로 입력(기본 값으로 진행) 후 N.. 2023. 1. 2. 버추얼박스(VirtualBox) 설치하기 버추얼박스(VirtualBox) 간단 설명 이노테크(InnoTek)에서 개발한 가상화 소프트웨어 오라클에서 배포 현존하는 대부분의 운영 체제를 게스트 운영 체제로 사용 가능 확장팩을 제외한 소프트웨어의 모든 기능을 무료로 사용 가능 다른 가상화 소프트웨어보다 기능이 강력하고 안정적 버추얼박스(VirtualBox) 설치 방법 1. 버추얼박스 다운로드 페이지 접속 후 사용하는 운영 체제에 맞는 버전 다운로드 https://www.oracle.com/kr/virtualization/technologies/vm/downloads/virtualbox-downloads.html Oracle VM VirtualBox - Downloads | Oracle Technology Network | Oracle 대한민국 Or.. 2023. 1. 2. MongoDB Error: couldn't connect to server 127.0.0.1:27017 오류해결 오랜만에 몽고DB 사용하려 하는데 다음과 같은 에러가 뜸.. 해결 방법은 stack overflow를 참고하였다. https://stackoverflow.com/questions/13312358/mongo-couldnt-connect-to-server-127-0-0-127017 mongo - couldn't connect to server 127.0.0.1:27017 I am coming from riak and redis where I never had an issue with this services starting, or to interact. This is a pervasive problem with mongo and am rather clueless. Restarting does not help.. 2022. 12. 7. 2-1. Spark의 저수준 API Spark의 저수준 API의 종류로는 RDD, 분산형 공유 변수(어큐뮬레이터, 브로드캐스트 변수)가 있다. 이는 모두 분산형 공유변수로 뒤에서 조금 더 자세히 알아보자. 대부분의 상황에서는 구조적 API를 사용하는 것이 좋으나 물리적 데이터의 배치를 아주 세밀하게 제어하는 경우나 RDD를 사용해 개발된 기존 코드를 유지해야 하는 경우 등 비즈니스나 기술적 문제를 처리하지 못하는 경우에는 저수준 API를 사용하여야 한다. 때문에 이번 포스팅에서는 저수준 API에 대해 알아보자. 먼저, 저수준 API를 사용하기 위해서는 SparkContext를 사용해야한다. SparkContext는 Sparksession을 이용해 접근할 수 있는데, 자세한 건 뒤에서 설명하도록 하겠다. [RDD(Resilient Distr.. 2021. 7. 23. 1-2. 스파크 간단히 살펴보기 이전 포스팅에서는 아파치 스파크의 역사와 철학, 설치 방법에 대해서 알아보았다. 이번 포스팅에서는 스파크의 기본 배경지식을 알아본 후에 클러스터, 스파크 애플리케이션과 구조적 API를 살펴보면서 스파크의 핵심 용어와 개념을 접하고 사용법을 익혀보자. 스파크의 기본 아키텍처 보통 '컴퓨터'라고 하면 집이나 직장 책상 위에 놓인 장비 한대를 떠올린다. 이 컴퓨터는 영화를 보거나, 문서 작업을 하기에는 아주 적합하지만 한 대의 컴퓨터로는 수행하기 힘든 작업이 존재한다. 특히 데이터를 처리하는 경우를 말하는데, 위에서 말한 컴퓨터는 대규모 정보를 연산할만한 자원이나 성능이 없고, 연산이 가능하다 해도 너무 많은 시간이 소요된다. 때문에 컴퓨터 클러스터라는 기술이 여러 컴퓨터의 자원을 모아 하나의 컴퓨터처럼 사용.. 2021. 7. 10. 1-1. Apache Spark란 Apache Spark란? 아파치 스파크는 간단하게 스파크라고 많이 불리며, 현재 가장 활발하게 개발되고 있는 병렬 처리 오픈소스 엔진, 통합 컴퓨팅 엔진이며 클러스터 환경에서 데이터를 병렬로 처리하는 라이브러리의 집합이다. 이러한 기능들 덕분에 빅데이터에 관심 있는 여러 개발자와 데이터 과학자에게 표준 도구가 되어가고 있다. 스파크는 파이썬, 자바, 스칼라, R의 총 4가지의 언어를 지원하고 SQL 뿐만 아니라 스트리밍, 머신러닝에 이르기까지 넓은 범위의 라이브러리를 제공한다. 또한 스파크는 단일 노트북 환경에서부터 수천 대의 서버로 구성된 클러스터까지 다양한 환경에서 실행이 가능하다. 이러한 특성을 활용해 빅데이터 처리를 쉽게 할 수 있으며 엄청난 규모의 클러스터로 확장이 가능하다. 아래의 그림은 스.. 2021. 7. 7. 이전 1 2 3 다음 LIST