1.3. 一般的な用語集
この用語集では、Red Hat OpenShift AI の一般的な用語を定義します。
- アクセラレーター
- ハイパフォーマンスコンピューティングにおいて、CPU から計算負荷の一部を引き受け、システムの効率を高めるために使用される特殊な回路。たとえば、ディープラーニングでは、メインアプリケーションを CPU で実行しながら、コンピュートワークロードの一部を GPU にオフロードするために、GPU アクセラレーションコンピューティングがよく使用されます。
- 人工知能 (AI)
- 予測、推奨、または決定を行うために、モデルという形で知識を取得、処理、作成、適用する能力。
- バイアス検出
- AI モデルが特定の属性に基づいて不公平な結果を出しているかどうかを検出するための公平性メトリクスを計算するプロセス。
- カスタムリソース (CR)
- Kubernetes CustomResourceDefinition API を通じて実装されるリソース。カスタムリソースは、Pod リソースやサービスリソースなどの組み込みの Kubernetes リソースとは異なります。CR はすべて API グループに含まれます。
- カスタムリソース定義 (CRD)
-
Red Hat OpenShift では、カスタムリソース定義 (CRD) は、クラスター内に新しい一意のオブジェクトの
Kindを定義し、Kubernetes API サーバーがそのライフサイクル全体を扱えるようにするものです。 - 接続
- データサイエンスプロジェクトから S3 互換のオブジェクトストレージ、データベース、または OCI 準拠のコンテナーレジストリーに接続するために必要なパラメーターを保存する設定。
- 接続タイプ
- OCI 準拠のコンテナーレジストリー、S3 互換のオブジェクトストレージ、Uniform Resource Identifiers (URI) など、データサイエンスプロジェクトから接続する外部ソースのタイプ。
- データサイエンスパイプライン
- データサイエンティストや AI エンジニアがモデルのトレーニングおよび評価パイプラインなどのパイプラインを自動化するために使用するワークフローエンジン。データサイエンスパイプラインには、実験的な追跡機能、アーティファクトストレージ、バージョン管理も含まれます。
- データサイエンスプロジェクト
- データサイエンス作業を整理するための OpenShift プロジェクト。各プロジェクトは、それぞれ専用の Kubernetes namespace にスコープが限定されます。
- 非接続環境
- インターネットへのアクティブな接続がない制限されたネットワーク上の環境。
- 分散ワークロード
- OpenShift クラスター内の複数のノードで同時に実行されるデータサイエンスワークロード。
- ファインチューニング
- 事前トレーニング済みのモデルに追加のトレーニングを実施して、特定のタスクを実行するようにそのモデルを適応させるプロセス。ファインチューニングには、(1) モデルの既存パラメーターを更新すること (フルファインチューニング) や、(2) モデルの既存パラメーターの一部を更新するか、モデルに新しいパラメーターを追加して、モデルの既存パラメーターを固定したままトレーニングすること (高パラメーター効率ファインチューニング) が含まれる場合があります。
- グラフィックスプロセッシンユニット (GPU)
- ディスプレイへの出力を目的としたフレームバッファー内の画像の作成を高速化するために、メモリーを迅速に操作および変更するように設計された特殊なプロセッサー。GPU は並列処理機能を備えているため、機械学習で多用されています。
- 推論
- トレーニング済みの AI モデルを使用して、モデルに提供された入力データに基づいて予測または結論を生成するプロセス。
- 推論サーバー
- 推論を実行するサーバー。推論サーバーは、入力要求を機械学習モデルに送り、出力を返します。
- 大規模言語モデル (LLM)
- 大量のテキストでトレーニングされた、多数のパラメーターを持つ言語モデル。
- 機械学習 (ML)
- データとアルゴリズムを使用して人間の学習方法を模倣し、AI モデルの精度を徐々に向上させることに取り組む人工知能 (AI) とコンピューターサイエンスの分野。
- モデル
- 機械学習の文脈において、予測や決定を提供するためにデータセットでトレーニングおよびテストされた一連の機能とアルゴリズム。
- モデルレジストリー
- 初期段階からデプロイ段階までの機械学習モデルの関連メタデータを保持する中央リポジトリー。メタデータは、デプロイメント環境やプロジェクトの起源などの概要情報から、トレーニングのハイパーパラメーター、パフォーマンスメトリクス、デプロイメントイベントなどの複雑な詳細まで多岐にわたります。
- モデルサーバー
- 機械学習モデルのホスト、受信リクエストを処理する API の公開、推論の実行、およびモデル予測の返答を実行するコンテナー。
- モデルサービングランタイム
- 機械学習モデルをデプロイするためのモデルサーバーを作成し、推論に最適化された API を構築するのに役立つコンポーネントまたはフレームワーク。
- MLOps
- 実稼働環境の機械学習 (またはディープラーニング) のライフサイクル管理を支援するために、データサイエンティストと運用プロフェッショナル間の連携を促進するためのプラクティス。MLOps は、自動化を強化して実稼働 ML の品質を向上させることを目指す一方で、ビジネス要件と規制要件にも重点を置いています。モデルの開発、トレーニング、検証、デプロイ、監視、管理が含まれ、CI/CD などの方法が使用されます。
- ノートブックインターフェイス
- 実行可能なコード、そのコードの説明テキスト、および実行されたコードの結果が含まれる対話型のドキュメント。
- オブジェクトストレージ
- クラウドで通常使用されるデータの保存方法。クラウドでは、ファイル階層を使用せずに、すべてのオブジェクトを同じレベルで保存するストレージプールまたはリポジトリーに、データが個別のユニットまたはオブジェクトとして保存されます。
- OpenShift Container Platform クラスター
- コンテナー化されたアプリケーションの構築と実行に必要なコントローラー、Pod、サービス、設定を含む物理マシンのグループ。
- 永続ストレージ
- モデルデプロイメント、データサイエンスパイプライン、ワークベンチなどのコンポーネントを横断してファイル、モデル、その他のアーティファクトを保持する永続ボリューム。
- 永続ボリューム要求 (PVC)
- 永続ボリューム要求 (PVC) は、ユーザーによるクラスターのストレージに対する要求です。
- 量子化
- 基礎モデルの重みを圧縮して推論を高速化し、必要なメモリーを削減する方法。
- サービング
- トレーニング済みの機械学習モデルをネットワークアクセス可能なサービスとしてホストするプロセス。実際のアプリケーションは、REST または gRPC API を使用してサービスに推論リクエストを送信し、予測を受け取ることができます。
- ServingRuntime
- 1 つ以上の特定のモデル形式をサービングできる Pod のテンプレートを定義するカスタムリソース定義 (CRD)。各 ServingRuntime CRD は、ランタイムのコンテナーイメージや、そのランタイムがサポートするモデル形式のリストなど、重要な情報を定義します。ランタイムの他の設定は、コンテナー仕様の環境変数を介して伝達できます。また、この Pod は要求に応じてモデルをディスクからメモリーに動的にロードおよびアンロードし、ロードされたモデルの推論リクエストを処理する gRPC サービスエンドポイントを公開します。
- vLLM
- 一般的なモデルやフレームワークと統合された大規模言語モデルを実行するための、高スループットで効率的な推論エンジン。
- ワークベンチ
- ML モデルの開発と実験のための分離された環境。ワークベンチには通常、JupyterLab、RStudio、Visual Studio Code などの統合開発環境 (IDE) が含まれています。
- ワークベンチイメージ
- モデル開発に必要なツールとライブラリーがプリインストールされたイメージ。機械学習 (ML) モデルを開発するための IDE が含まれています。
- YAML
- 人間が読めるデータシリアライズ言語。これは通常、設定ファイルや、データが保存または送信されるアプリケーションで使用されます。