반응형

 

 

AWS Glue는 데이터 ETL(Extract, Transform, Load) 를 위한 서버리스 데이터 통합 서비스다.

 


1. AWS Glue

AWS Glue는 서버리스 데이터 통합 서비스라고 나오는데, 주요 기능으로 AWS Glue Studio와 데이터 카탈로그, 크롤러, 워크플로우 등이 있다.

 

2. AWS Glue 크롤러(AWS Glue Crawler)

AWS Glue에서 제공하는 크롤러의 경우, DB에 직접 붙어서 DB 또는 스키마를 직접 가져와서 데이터 카탈로그, DB, 테이블 등을 자동으로 생성할 수 있다. 크롤러의 경우에는 생성하기 전에 Connection을 생성해야 한다.

 

3. AWS Glue Data Catalog

AWS Glue의 Data Catalog의 경우에는 수동으로 생성할 때 많이 사용을 한다. 위의 크롤러의 경우에는 DB에 접근하여 자동으로 카탈로그, DB, 테이블 등을 생성해 주는데, 데이터 카탈로그는 DB 생성을 하고, 테이블들의 구조 등을 다 생성해줘야 한다.

 

그래서, 카탈로그, DB, 테이블들이 생성이 되었으면 Glue Job을 통해 데이터를 가져올 경우 해당 DB나 테이블에 데이터를 넣는 Job을 생성할 수 있다.

 

4. AWS Glue Job

기존의 Spring Batch Job처럼 어떤 작업을 하는 Job을 만들 수 있다.

 

AWS Glue Job을 생성할 때, Advanced Properties에서 Job parameters를 추가하면 해당 Glue Job의 Script에 getResolvedOptions에 해당 key가 자동으로 들어가진 않는다.

 

 

즉, Job에 Restful API를 설정하여 특정 주소에서 데이터를 가져올 경우, API를 통해 데이터를 가져와서 Job을 실행시켜 Table이나 DB에 데이터를 저장한다.

 

근데, 여기서 Job의 경우에는 배치성으로도 적용시킬 수 있지만 MWAA를 통해 실행 및 관리를 하기도 한다.

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기