3.5.4. S3 구문 분석 설명
S3 선택 엔진에는 CSV, Parquet, JSON 등 세 가지 파일 형식 모두에 대한 구문 분석기가 있어 더 처리 가능한 구성 요소로 명령을 분리한 다음 각 구성 요소를 정의하는 태그에 연결됩니다.
3.5.4.1. S3 CSV 구문 분석 링크 복사링크가 클립보드에 복사되었습니다!
입력 직렬화가 있는 CSV 정의에서는 다음 기본값을 사용합니다.
-
row-delimiter에는
{\n}'을 사용합니다. -
인용에는
{"}를 사용합니다. -
이스케이프 문자에는
{\}를 사용합니다.
csv-header-info 는 AWS-CLI에 표시되는 경우 구문 분석됩니다. 스키마가 포함된 입력 오브젝트의 첫 번째 행입니다. 현재 출력 직렬화 및 압축 유형이 지원되지 않습니다. S3 선택 엔진에는 S3 개체를 구문 분석하는 CSV 구문 분석기가 있습니다.
- 각 행은 row-delimiter로 끝납니다.
- 필드 분리기는 인접한 열을 구분합니다.
-
연속 필드 구분자는
NULL열을 정의합니다. - 인용 문자는 필드를 재정의합니다. 즉, 필드 구분 기호는 따옴표 사이의 문자입니다.
- 이스케이프 문자는 행 구분 기호를 제외한 특수 문자를 비활성화합니다.
다음은 CSV 구문 분석 규칙의 예입니다.
| 기능 | 설명 | 입력 (토큰) |
|---|---|---|
|
| 연속 필드 구분 기호 |
|
|
| 인용 문자는 필드 구분자를 덮어씁니다. |
|
|
| 이스케이프 문자는 메타 문자를 덮어씁니다. |
오브젝트 소유자의 |
|
| 닫은 따옴표가 없습니다. 행 구분 기호는 닫는 줄입니다. |
|
|
| FileHeaderInfo tag | USE 값은 첫 번째 줄의 각 토큰이 열 이름임을 의미합니다. IGNORE 값은 첫 번째 행을 건너뛰는 것을 의미합니다. |