목록Data Engineering/AWS (2)
내가 보려고 만든 블로그
AWS가 GUI를 제공하여 손쉽게 파일을 관리할 수 있긴 하지만 파일의 수가 많아지면 이를 일일이 다 클릭기반으로 관리할 수가 없다. 이때 필요한 것이 바로 Boto3이다. AWS에서 제공하는 sdk로 이를 이용해 S3도 손쉽게 다룰 수있다. import boto3 s3 = boto3.client('s3' , region_name = 'ap-northeast-2') obj_list = s3.list_objects(Bucket ='amplitude-class101-41574' , Prefix = 'class101/194714' ) contents = obj_list['Contents'] 위와 같이 버켓내 파일들의 리스트를 볼 수 가 있다. paginator = s3.get_paginator('list_ob..
회사에서 사용하고 있는 앰플리튜드의 일부 로그데이터를 적재해야 하는 일을 맡게 되었다. 앰플리튜드에서 제공하는 기능 덕분에 데이터를 적재하는 것은 어렵지 않았으나, 데이터가 다음과 같이 1. 압축된 형태로 들어왔으며 2. complete이라는 파일이 같이 적재가 되어 Glue 크롤러를 통해 읽어올 수가 없었다. ETL을 위해 새로 코드를 짜야 할 만큼 큰 작업은 아니기에 glue studio를 통해 간단하게 처리를 해보기로 하였다. 스파크 기반이며 클릭기반으로 ETL을 할 수 있도록 UI를 제공한다. 하지만 아직 베타서비스인지 ETL을 하며 2가지 버그를 발견하였다. 사용법은 매우 간단해서 Extract 해 올 디렉토리 , 저장할 공간 , 파일 타입등을 지정만 해주면 된다. 만일 추가적으로 코드를 손보고..