第3章 ワークフロー
OpenStack Data Processing は、特別に設計されたインスタンスを定義する事前に設定されたクラスターテンプレートを使用して、ovn クラスターをプロビジョニングし、スケーリングします。これらのインスタンスは、Hadoop クラスターを構成する個々のノードを形成します。次に、これらの Hadoop クラスターを使用して、データを処理するジョブ/binaries を実行することができます。
OpenStack Data Processing を使用する予定の場合には、すでに dn フレームワーク内で機能するために必要なコンポーネントについて理解しておく必要があります。そのため、本セクションに記載する一般的なワークフローでは、以下のコンポーネントがすでに準備されていることを前提としています。
- Hadoop イメージ(特に Hadoop データ処理プラグインを含む Red Hat Enterprise Linux イメージ)。サポートされるプラグインの一覧は、1章概要 を参照してください。
- 処理する入力データ。Object Storage サービスにアップロードすることが推奨されます。
- 入力データの処理に使用するジョブのバイナリーおよびライブラリー(Object Storage サービスにお好ましい)。
Object Storage サービスにコンテンツをアップロードする方法の詳細は、「オブジェクトの アップロード」を参照して ください。
さらに、ジョブを実行するのに必要な計算リソースの一般的な概念もあるはずです。これにより、必要なノード種別(およびそれぞれの数)を判断しやすくなります。
以下の高レベルのワークフローでは、OpenStack Data Processing サービスを設定して使用し、クラスターを起動し、それらのクラスターでジョブを実行する方法を説明します。
OpenStack Data Processing(4章makeform イメージの作成)に必要なプラグインコンポーネントが含まれるイメージを作成します。これは Hadoop イメージです。
このイメージの作成手順は、選択した Hadoop プラグインによって異なります。
以下のコンポーネントを OpenStack Data Processing サービスに登録します。
- Hadoop イメージ
- データソース(入力データと出力データが移動される場所)
ノードグループテンプレートを作成します。各テンプレートは、特に注目すべき、任意のノードに対して、多くの便利な Hadoop 固有の設定を定義します。
- ノードグループが使用すべきで、そのプラグインとバージョンは何ですか。
- ノードで実行するプロセス。
クラスターテンプレートを作成またはアップロードします。クラスターテンプレートは以下のように定義します。
- ノードグループの構成: 実際には、各ノードグループのノード数がクラスターを構成する必要があるノードの数です。
- クラスタースコープの Hadoop 設定: 各 Hadoop コンポーネント(HIVE、AMBARI、HDFS など)に設定する必要のある特定のパラメーター。
- Hadoop クラスターを起動し(クラスターテンプレートを使用)、クラスターでジョブを実行します(データソースで登録されたジョブバイナリーを実行します)。必要に応じて、クラスターをスケーリングすることもできます(タイプのノードを追加または削除)。
- ジョブバイナリー、スクリプト、またはライブラリーを OpenStack Data Processing Service に登録し、ジョブを作成し、それらを Hadoop クラスターで起動します。ジョブは、登録されたデータソースの処理に使用するジョブのバイナリー、スクリプト、またはライブラリーを定義します。
次の数セクションで、各ワークフローの手順について詳しく説明します。