AWS Glue는 데이터 ETL(Extract, Transform, Load) 를 위한 서버리스 데이터 통합 서비스다.
1. AWS Glue
AWS Glue는 서버리스 데이터 통합 서비스라고 나오는데, 주요 기능으로 AWS Glue Studio와 데이터 카탈로그, 크롤러, 워크플로우 등이 있다.
2. AWS Glue 크롤러(AWS Glue Crawler)
AWS Glue에서 제공하는 크롤러의 경우, DB에 직접 붙어서 DB 또는 스키마를 직접 가져와서 데이터 카탈로그, DB, 테이블 등을 자동으로 생성할 수 있다. 크롤러의 경우에는 생성하기 전에 Connection을 생성해야 한다.
3. AWS Glue Data Catalog
AWS Glue의 Data Catalog의 경우에는 수동으로 생성할 때 많이 사용을 한다. 위의 크롤러의 경우에는 DB에 접근하여 자동으로 카탈로그, DB, 테이블 등을 생성해 주는데, 데이터 카탈로그는 DB 생성을 하고, 테이블들의 구조 등을 다 생성해줘야 한다.
그래서, 카탈로그, DB, 테이블들이 생성이 되었으면 Glue Job을 통해 데이터를 가져올 경우 해당 DB나 테이블에 데이터를 넣는 Job을 생성할 수 있다.
4. AWS Glue Job
기존의 Spring Batch Job처럼 어떤 작업을 하는 Job을 만들 수 있다.
AWS Glue Job을 생성할 때, Advanced Properties에서 Job parameters를 추가하면 해당 Glue Job의 Script에 getResolvedOptions에 해당 key가 자동으로 들어가진 않는다.
즉, Job에 Restful API를 설정하여 특정 주소에서 데이터를 가져올 경우, API를 통해 데이터를 가져와서 Job을 실행시켜 Table이나 DB에 데이터를 저장한다.
근데, 여기서 Job의 경우에는 배치성으로도 적용시킬 수 있지만 MWAA를 통해 실행 및 관리를 하기도 한다.
'IT > AWS' 카테고리의 다른 글
[AWS] AWS SageMaker boto3로 s3 Buckets List 가져오기 (0) | 2024.05.28 |
---|---|
[AWS] AWS 글로벌 인프라 구조 - 가용 영역(AZ, Availability Zone) (2) | 2024.03.14 |
[AWS] AWS 글로벌 인프라 구조 - Region (0) | 2024.03.14 |
[AWS] an error occurred AccessDeniedException when calling the GetCommit operation 에러 문제 해결 방법 (0) | 2024.03.07 |
[AWS] AWS Default VPC 삭제 방법 (0) | 2024.03.04 |
[AWS] AWS CloudTrail 생성하는 방법 (0) | 2024.02.05 |
[AWS] AWS IAM 계정 비밀번호 초기화하는 방법 (0) | 2024.02.01 |
[AWS] AWS Organizations란?(GetCostAndUsage에 대한 권한이 없습니다.) (0) | 2024.02.01 |
최근댓글