3.5.4. S3 解析の説明
S3 select エンジンには、CSV、Parquet、JSON の 3 つのファイル形式すべてに対応するパーサーがあり、コマンドをより処理しやすいコンポーネントに分割します。コンポーネントは、各コンポーネントを定義するタグにアタッチされます。
3.5.4.1. S3 CSV の解析 リンクのコピーリンクがクリップボードにコピーされました!
入力シリアライゼーションを含む CSV 定義では、次のデフォルト値が使用されます。
-
行区切り文字には
{\n}`を使用します。 -
引用には
{“}を使用します。 -
エスケープ文字には
{\}を使用します。
csv-header-info は、AWS-CLI に表示される USE で解析されます。これは、スキーマを含む入力オブジェクトの最初の行です。現在、シリアル化および圧縮タイプの出力はサポートされていません。S3 select エンジンには、S3-objects を解析する CSV パーサーがあります。
- 各行は、行区切り文字で終わります。
- フィールド区切り文字は、隣接する列を区切ります。
-
連続するフィールドの区切り文字は
NULL列を定義します。 - 引用符は、フィールド区切り文字をオーバーライドします。フィールド区切り文字は、引用符の間の任意の文字です。
- エスケープ文字は、行区切り文字以外の特殊文字を無効にします。
以下は、CSV 解析ルールの例です。
| 機能 | 説明 | 入力 (トークン) |
|---|---|---|
|
| 連続するフィールド区切り文字 |
|
|
| 引用符は、フィールドの区切り文字をオーバーライドします。 |
|
|
| エスケープ文字はメタ文字をオーバーライドします。 |
オブジェクトの所有者の |
|
| 終わりの引用符はありません。行区切り文字は終了行になります。 |
|
|
| FileHeaderInfo タグ | USE の値は、最初の行の各トークンが column-name であることを示します。IGNORE 値は最初の行をスキップすることを意味します。 |