전체보기

프리티어 인스턴스만 제공하는 AWS와는 다르게, GCP에서는 계정을 생성하면 90일 간 사용할 수 있는 300달러의 무료 크레딧을 준다.물론 사용할 수 있는 리소스의 제한은 있지만, 정해진 리소스 안에서 쿠버네티스 클러스터를 연습하기엔 충분하다. GCP 웹사이트에 들어가서, 우측 상단에 '무료로 시작하기'를 누르면 아래와 같은 화면이 나타난다.동의하고 다음 단계에서 결제 정보 등 항목들을 입력하면 바로 300달러의 무료 크레딧이 주어진다.결제수단 등록은 필수지만 무료 크레딧이 소진되거나 기간이 종료되어도 자동 결제로 이어지진 않는다고 한다. 크레딧이 잘 발급 되었다면, 상단에 '콘솔' 을 누른 후 본인의 프로젝트 명으로 프로젝트를 생성해보자.해당 프로젝트를 선택하고 나면, 콘솔 메인 화면에 'GKE 클러..
· etc
ScrapyScrapy는 BeautifulSoup 처럼 단순히 HTML 또는 XML 문서를 파싱하기 위한 라이브러리가 아니라,웹 스크래핑과 크롤링을 위해 설계된 종합적인 도구이다.비동기 처리, 분산 처리, 내장 파이프라인 등의 특징으로 작업을 효율적으로 처리할 수 있다.또한, 자동으로 해당 웹사이트의 robots.txt를 파싱하여 규칙을 준수한다는 장점이 있다.Scrapy 아키텍처SchedulerURL을 스크래핑할 순서를 제어Downloader인터넷에서 웹페이지를 가져와 Spider에 전달ResponseDownloader가 가져온 웹페이지의 HTML 내용SpiderResponse를 처리하고 데이터를 추출하며 새로운 스크래핑 작업 생성Item Pipeline추출한 데이터를 처리하고 저장하는데 사용Scrap..
*이 글은 '스파크 완벽 가이드' 책을 기반으로 작성되었습니다.* 조인 표현식 스파크는 왼쪽과 오른쪽 데이터셋에 잇는 하나 이상의 키값을 비교하고 왼쪽 데이터셋과 오른쪽 데이터셋의 결합 여부를 결정하는 조인 표현식의 평가 결과에 따라 두 개의 데이터셋을 조인한다. 동등 조인 왼쪽과 오른쪽 데이터셋에 지정된 키가 동일한지 비교 키가 일치하면 데이터셋을 결합 일치하지 않으면 데이터셋을 결합하지 않음 일치하는 키가 없는 로우는 조인에 포함X 스파크는 동등 조인 뿐만 아니라 더 복잡한 조인 정책도 지원하며, 복합 데이터 타입을 조인에 사용할 수도 있다. 조인 타입 샘플 데이터 생성 person = spark.createDataFrame([ (0, "Bill Chambers", 0, [100]), (1, "Mat..
*이 글은 '스파크 완벽 가이드' 책을 기반으로 작성되었습니다.* 책에서 도커로 시작하는 방법이 나오지만, M1 맥북을 사용 중이라 amd 기반으로 작성된 도커파일과 호환이 되지 않아 arm 아키텍처용으로 다시 만들었다. dockerfile의 내용은 다음과 같다. ubuntu: 22.04 spark: 2.3.2 zeppelin: 0.8.0 FROM ubuntu:22.04 # 환경 변수 설정 ENV Z_VERSION=0.8.0 \ LOG_TAG="[ZEPPELIN_0.8.0]" \ Z_HOME="/zeppelin" \ LANG="en_US.UTF-8" \ LC_ALL="en_US.UTF-8" \ JAVA_HOME="/usr/lib/jvm/java-8-openjdk-arm64" \ SPARK_VERSION=..
피치 못할 사정으로 docker desktop이 손 쓸 수 없는 상황이 됐을 때, 단순한 삭제 후 재설치를 해도 문제가 해결되지 않을 때 관련된 모든 데이터를 날리기 위해 지워야 할 것들이다. # Docker Desktop의 주요 데이터 디렉토리 ~/Library/Containers/com.docker.docker # 추가적인 Docker Desktop 지원 파일 ~/Library/Application Support/Docker Desktop # Docker Desktop 환경 설정 파일 ~/Library/Preferences/com.docker.docker.plist # Docker 설정과 인증서를 포함하는 숨겨진 디렉토리 ~/.docker 조심스럽게 하나씩 지우고 재설치 해가면서 상태를 확인해보자. ..
Vmware Fusion에 올린 우분투로 젠킨스를 공부하고 있었는데, 불편한 점들이 많아 도커 상에서 젠킨스 환경을 구축해 보려고 한다. 도커 파일만으로 구성할 수도 있지만 볼륨 사용에 제한이 있어 도커 컴포즈를 사용하기로 했다. 작성한 yaml 파일은 다음과 같다. version: "3" services: jenkins: image: jenkins/jenkins:2.440.1-lts-jdk17 ports: - "8080:8080" volumes: - ./var/jenkins_home:/var/jenkins_home 사용할 버전은 2.440.1-lts-jdk17 버전으로, 8080 포트를 사용할 것이고, 로컬 상의 var 폴더 내부에 jenkins_home 폴더를 젠킨스의 jenkins_home의 볼륨으..
_GU_
'분류 전체보기' 카테고리의 글 목록