3.3. 特徴量のデータソースの指定


ML エンジニアまたはデータサイエンティストは、定義する機能のデータソースを指定する必要があります。

データソースは、バッチデータやトレーニングデータセットにオフラインストアを使用する場合と、モデル推論にオンラインストアを使用する場合とで異なります。必要に応じて、Parquet または Delta 形式のファイルをデータソースとして使用できます。ローカルファイルまたは Amazon Simple Storage Service (S3) などのストレージ内のファイルを指定できます。

オフラインストアの場合は、バッチデータソースを指定します。BigQuery、Snowflake、Redshift などのデータウェアハウス、または Amazon S3 や Google Cloud Platform (GCP) などのデータレイクを指定できます。Feature Store を使用すると、両方のタイプのデータソースにわたってデータを取り込んでクエリーを実行できます。

オンラインストアの場合は、Redis、GCP Datastore、DynamoDB などのデータベースバックエンドを指定します。

前提条件

  • ML ワークフローのデータソースの場所がわかっている。

手順

  1. 任意のエディターで、新しい Python ファイルを作成します。
  2. ファイルの先頭で、ファイル内で定義する特徴量のデータソースを指定します。

    たとえば、データソースを Parquet 形式のファイルとして指定するには、次のコードを使用します。

    from feast import FileSource
    from feast.data_format import ParquetFormat
    
    parquet_file_source = FileSource(
        file_format=ParquetFormat(),
        path="file:///feast/customer.parquet",
    )
    Copy to Clipboard Toggle word wrap
  3. ファイルを保存します。
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2026 Red Hat
トップに戻る