Data Engineering

2024.03.21· Data Engineering/Spark

*이 글은 '스파크 완벽 가이드' 책을 기반으로 작성되었습니다.* 조인 표현식 스파크는 왼쪽과 오른쪽 데이터셋에 잇는 하나 이상의 키값을 비교하고 왼쪽 데이터셋과 오른쪽 데이터셋의 결합 여부를 결정하는 조인 표현식의 평가 결과에 따라 두 개의 데이터셋을 조인한다. 동등 조인 왼쪽과 오른쪽 데이터셋에 지정된 키가 동일한지 비교 키가 일치하면 데이터셋을 결합 일치하지 않으면 데이터셋을 결합하지 않음 일치하는 키가 없는 로우는 조인에 포함X 스파크는 동등 조인 뿐만 아니라 더 복잡한 조인 정책도 지원하며, 복합 데이터 타입을 조인에 사용할 수도 있다. 조인 타입 샘플 데이터 생성 person = spark.createDataFrame([ (0, "Bill Chambers", 0, [100]), (1, "Mat..

[Spark] Spark, Zeppelin 도커 컴포즈로 구성 (Apple Silicon Mac)

2024.03.11· Data Engineering/Spark

*이 글은 '스파크 완벽 가이드' 책을 기반으로 작성되었습니다.* 책에서 도커로 시작하는 방법이 나오지만, M1 맥북을 사용 중이라 amd 기반으로 작성된 도커파일과 호환이 되지 않아 arm 아키텍처용으로 다시 만들었다. dockerfile의 내용은 다음과 같다. ubuntu: 22.04 spark: 2.3.2 zeppelin: 0.8.0 FROM ubuntu:22.04 # 환경 변수 설정 ENV Z_VERSION=0.8.0 \ LOG_TAG="[ZEPPELIN_0.8.0]" \ Z_HOME="/zeppelin" \ LANG="en_US.UTF-8" \ LC_ALL="en_US.UTF-8" \ JAVA_HOME="/usr/lib/jvm/java-8-openjdk-arm64" \ SPARK_VERSION=..

티스토리툴바