3.3. 特徴量のデータソースの指定
ML エンジニアまたはデータサイエンティストは、定義する機能のデータソースを指定する必要があります。
データソースは、バッチデータやトレーニングデータセットにオフラインストアを使用する場合と、モデル推論にオンラインストアを使用する場合とで異なります。必要に応じて、Parquet または Delta 形式のファイルをデータソースとして使用できます。ローカルファイルまたは Amazon Simple Storage Service (S3) などのストレージ内のファイルを指定できます。
オフラインストアの場合は、バッチデータソースを指定します。BigQuery、Snowflake、Redshift などのデータウェアハウス、または Amazon S3 や Google Cloud Platform (GCP) などのデータレイクを指定できます。Feature Store を使用すると、両方のタイプのデータソースにわたってデータを取り込んでクエリーを実行できます。
オンラインストアの場合は、Redis、GCP Datastore、DynamoDB などのデータベースバックエンドを指定します。
前提条件
- ML ワークフローのデータソースの場所がわかっている。
手順
- 任意のエディターで、新しい Python ファイルを作成します。
ファイルの先頭で、ファイル内で定義する特徴量のデータソースを指定します。
たとえば、データソースを Parquet 形式のファイルとして指定するには、次のコードを使用します。
Copy to Clipboard Copied! Toggle word wrap Toggle overflow - ファイルを保存します。