第5章 必要なコンポーネントの登録
OpenStack Data Processing には、ovn クラスターを起動し、使用するのに必要な要素を含む Hadoop イメージが必要です。具体的には、Red Hat OpenStack Platform には、必要なデータ処理プラグインを持つ Red Hat Enterprise Linux を含むイメージが必要です。
実行するジョブに適した Hadoop イメージを取得したら、それを OpenStack Data Processing サービスに登録します。改善点を報告する場合は、以下のように行います。
- イメージを Image サービスにアップロードします。手順は、「イメージの アップロード」を参照してください。
- イメージのアップロード後に、ダッシュボードで プロジェクト > Data Processing > Image Registry を選択します。
- イメージの 登録 をクリックし、イメージ ドロップダウンメニューから Hadoop イメージを選択します。
- OpenStack Data Processing サービスが設定を適用し、各インスタンス/ノードでプロセスを管理するために使用するユーザー名を入力します。Red Hat Enterprise Linux( 4章makeform イメージの作成で使用した)が提供する公式イメージでは、この目的のためにこの目的のために設定されたユーザー名は cloud-user です。
デフォルトでは、OpenStack Data Processing サービスは、プラグインおよび Version ドロップダウンメニューに必要な プラグイン およびバージョンタグを追加します。タグの選択が正しいことを確認してから、Add plugin tags をクリックして追加します。OpenStack Data Processing サービスでは、カスタムタグを使用して、登録されたイメージを区別またはグループ化することも可能です。Add custom tag ボタンを使用してタグを追加します。タグは Description フィールドの下にボックスに表示されます。
カスタムタグを削除するには、その名前の横にある x をクリックします。
- 完了をクリックします。イメージがイメージ レジストリー の表に表示されます。
5.1. 入力および出力データソースの登録
イメージを登録したら、データ入力ソースと出力先を登録します。どちらのオブジェクトとして最初にオブジェクトとしてアップロードする必要があります。方法は、「オブジェクトの アップロード」を参照してください。
データオブジェクトは別の Hadoop 互換の分散ファイルシステムから直接登録することもできます(例: HDFS)。選択した分散ファイルシステムにデータをアップロードする方法は、のドキュメントを参照してください。
- Dashboard で プロジェクト > Data Processing > Data Sources の順に 選択します。
- Create Data Source をクリックします。データソースの名前を Name フィールドに入力します。
- Description フィールドを使用してデータソースを記述します(任意)。
データソースのタイプおよび URL を選択します。この手順は、ソースのロケーションによって異なります。
データが Object Storage サービスにある場合は、Data Source Type ドロップダウンメニューから Swift を選択します。以下のようになります。
- URL フィールドに swift://CONTAINER/OBJECT としてデータソースのコンテナーおよびオブジェクト名を指定します。
- データソースにログインが必要な場合は、Source username および Source password フィールドに必要な認証情報を指定します。
データが Hadoop Distributed File System(HDFS)にある場合は、Data Source Type ドロップダウンメニューから、対応するソースを選択します。次に、URL フィールドにデータソースの URL を hdfs://HDFSHOST:PORT/OBJECTPATH として入力します。ここでは、以下のようになります。
- HDFSHOST は、HDFS ホストのホスト名に置き換えます。
- PORT はデータソースにアクセスできるポートです。
- OBJECTPATH は、HDFSHOST のデータソースへの利用可能なパスです。
データが S3 オブジェクトストアにある場合は、Data Source Type ドロップダウンメニューから、対応するソースを選択します。次に、URL フィールドにデータソース URL を s3://bucket/path/to/object の形式で入力します。
クラスター設定またはジョブ実行設定で以下のパラメーターがまだ設定されていない場合は、それらをここに設定する必要があります。
- S3 アクセスキー
- S3 シークレットキー
- S3 エンドポイント は、プロトコルのない S3 サービスの URL です。
- ブール値である必要がある SSL を使用し ます。
- パスのバケットは、仮想ホストまたはパス URL を 示します。また、ブール値である必要があります。
- 完了をクリックします。データソースが Data Sources テーブルで利用可能になるはずです。
ジョブに必要な各データ入出力オブジェクトについて以下の手順を実行します。