第6章 既知の問題
このセクションでは、Red Hat OpenShift Data Science 2.4 の既知の問題と、これらの問題を回避する既知の方法について説明します。
DATA-SCIENCE-PIPELINES-165 - S3 バケットが書き込み可能でない場合のエラーメッセージ
データ接続を設定し、S3 バケットが書き込み可能でない場合にパイプラインをアップロードしようとすると、Failed to store pipelines
というエラーメッセージが表示されますが、有用ではありません。
- 回避策
- データ接続の認証情報が正しいこと、および指定したバケットへの書き込みアクセス権があることを確認してください。
KUBEFLOW-177 - OAuth-proxy で転送されないアプリケーションのベアラートークン
アプリケーションの内部認証メカニズムがベアラートークンに基づいている場合、アプリケーションをカスタムワークベンチイメージとして使用できません。OAuth プロキシー設定によりヘッダーからベアラートークンが削除されるため、アプリケーションは適切に動作できなくなります。
ODH-DASHBOARD-1335 - 編集権限の名前を共同作成者に変更
編集 という用語は正確ではありません。
- ほとんど のリソースでは、Edit パーミッションを持つユーザーはリソースの編集や、リソースの作成および削除が可能です。
- Edit 権限を持つユーザーは、プロジェクトを編集できません。
Contributor という用語は、この権限によって付与されるアクションをより正確に表します。
ODH-DASHBOARD-1758 - OOTB カスタムサービングランタイムを数回複製するときにエラーが発生しました
モデル提供ランタイムを複数回複製すると、複製は失敗し、Serving runtime name "<name>" already exists
というエラーメッセージが表示されます。
- 回避策
-
metadata.name
フィールドを一意の値に変更します。
ODH-DASHBOARD-1771 - パイプラインステップの初期化中の JavaScript エラー
実行が開始されると Run details ページが機能しなくなることがあります。
- 回避策
- ページを更新します。
ODH-DASHBOARD-1781 - 開始済み実行ステータスのツールチップが表示されない
データサイエンスパイプラインの実行では、表示されるステータスアイコンのツールチップテキストが表示されないことがあります。
- 回避策
- 詳細は、Pipeline の Run details ページを表示し、実行出力を確認します。
ODH-DASHBOARD-1908 - 空の環境変数でワークベンチを作成できない
ワークベンチを作成するときに、Add variable をクリックしてもリストから環境変数のタイプを選択しないと、ワークベンチを作成できません。このフィールドは必須としてマークされておらず、エラーメッセージも表示されません。
ODH-DASHBOARD-1928 - カスタム提供ランタイムの作成エラーメッセージが有用でない
カスタムのモデル提供ランタイムを作成または編集しようとしてエラーが発生した場合、エラーメッセージにはエラーの原因が表示されません。
エラーメッセージの例: Request failed with status code 422
- 回避策
- エラーの理由を特定するには、提供ランタイムの YAML コードを確認してください。
ODH-DASHBOARD-1991 - ovms-gpu-ootb に推奨アクセラレーターのアノテーションがない
モデルサーバーをプロジェクトに追加する場合、Serving runtime リストには NVIDIA GPU の Recommended serving runtime ラベルは表示されません。
- 回避策
- model-server テンプレートのコピーを作成し、ラベルを手動で追加します。
ODH-DASHBOARD-2140 - ダッシュボードに表示されるパッケージバージョンがインストールされたバージョンと一致しない
ダッシュボードには、JupyterLab や Notebook などのパッケージの不正確なバージョン番号が表示される場合があります。パッケージが手動で更新された場合、イメージ内のパッケージのバージョン番号が異なる場合があります。
- 回避策
パッケージの実際のバージョン番号を確認するには、次の例に示すように、
pip list
コマンドを実行してパッケージ名を検索します。$ pip list | grep jupyterlab jupyterlab 3.5.3 $ pip list | grep notebook notebook 6.5.3
RHODS-12432 - notebook-culler ConfigMap を削除すると、ダッシュボードで権限が拒否される
redhat-ods-applications
namespace で notebook-controller-culler-config
ConfigMap を削除すると、OpenShift AI ダッシュボードの Cluster Settings ページへの変更を保存できなくなります。保存操作は、HTTP request has failed
というエラーで失敗します。
- 回避策
cluster-admin
権限を持つユーザーとして以下の手順を実行します。-
oc
クライアントを使用してクラスターにログインします。 次のコマンドを入力して、
redhat-ods-applications
アプリケーション namespace のOdhDashboardConfig
カスタムリソースを更新します。$ oc patch OdhDashboardConfig odh-dashboard-config -n redhat-ods-applications --type=merge -p '{"spec": {"dashboardConfig": {"notebookController.enabled": true}}}'
-
RHODS-12717: OpenStack 上の Open Virtual Network を使用した OpenShift Container Platform でパイプラインサーバーの作成が失敗する可能性がある
Open Virtual Network on OpenStack を使用して OpenShift Container Platform でパイプラインサーバーを作成しようとすると、Pipeline server failed
エラーで作成が失敗する場合があります。OCPBUGS-22251 を参照してください。
RHODS-12798 - Pod が "unable to init seccomp" エラーで失敗する
seccomp
メモリーリークを引き起こす既知のカーネルバグが原因で、Pod は Running
のステータスではなく CreateContainerError
ステータスまたは Pending
ステータスで失敗します。Pod が失敗した namespace でイベントをチェックするか、oc describe pod
コマンドを実行すると、以下のエラーが表示されます。
runc create failed: unable to start container process: unable to init seccomp: error loading seccomp filter into kernel: error loading seccomp filter: errno 524
- 回避策
-
Red Hat ソリューション記事 https://access.redhat.com/solutions/7030968 で説明されているように、
net.core.bpf_jit_limit
の値を増やします。
RHODS-12899 - OpenVINO ランタイムに NVIDIA GPU のアノテーションが欠落している
Red Hat OpenShift AI には現在、カスタマイズなしで使用できる、提供ランタイム OpenVINO モデルサーバー (GPU をサポート) が含まれおり、NVIDIA GPU をサポートしています。OpenShift AI 2.4 で導入されたアクセラレータープロファイル機能を使用すると、設定されたアクセラレータープロファイルに基づいて、モデル提供で特定のアクセラレーターを選択できます。クラスターで以前の OpenShift Data Science リリースで NVIDIA GPU が有効になっている場合、システムは OpenShift Data Science 2.4 へのアップグレード中にデフォルトの NVIDIA アクセラレータープロファイルを自動的に作成します。ただし、OpenVINO モデルサーバー (GPU をサポート) ランタイムには、NVIDIA GPU のサポートを示すアノテーションが付けられていません。したがって、ユーザーがモデルサーバーのユーザーインターフェイスで OpenVINO model server (GPU をサポート) ランタイムを選択し、NVIDIA GPU アクセラレーターを選択すると、選択したアクセラレーターが選択したランタイムと互換性がないという警告がシステムによって表示されます。このような場合には、警告を無視してもかまいません。アクセラレータープロファイル機能は現在、Red Hat OpenShift AI でテクノロジープレビュー機能として利用できます。テクノロジープレビューの機能 を参照してください。
RHODS-12903 - 正常に送信された Elyra パイプラインが実行に失敗する
プライベート TLS 証明書を使用し、Elyra で生成されたパイプラインをデータサイエンスパイプラインサーバーに対して正常に送信すると、パイプラインステップの実行に失敗し、次のエラーメッセージが表示されます。
File "/opt/app-root/src/bootstrapper.py", line 747, in <module> main() File "/opt/app-root/src/bootstrapper.py", line 730, in main Actions ... WARNING: Retrying (Retry (total-4, connect=None, read=None, redirect=None, status=None)) after connection broken by 'NewConnectionError('<pip._vendor.urllib3.connection.HTTPSConnection obj In this situation, a new runtime image should be created, to include the correct CA bundle, as well as all the required pip packages.
- 回避策
- この問題を解決するには、Red Hat サポートにお問い合わせください。
RHODS-12904 - プライベート証明書を使用すると、Elyra から送信されたパイプラインが失敗することがある
プライベート TLS 証明書を使用し、Elyra からパイプラインを送信すると、パイプラインが失敗し、certificate verify failed
というエラーメッセージが表示される場合があります。この問題は、次の状況のいずれかまたは両方が原因で発生する可能性があります。
- パイプラインサーバーに使用されるオブジェクトストレージがプライベート TLS 証明書を使用している。
- データサイエンスパイプラインサーバー API エンドポイントがプライベート TLS 証明書を使用している。
- 回避策
- ワークベンチに正しい認証局 (CA) バンドルを提供し、正しい CA バンドルが認識されるようにさまざまな環境変数を設定します。この問題を解決するには、Red Hat サポートにお問い合わせください。
RHODS-12906 - プライベート証明書を使用するオブジェクトストレージで ModelMesh を使用できない
場合によっては、プライベート TLS 証明書を使用するオブジェクトストレージプロバイダーにモデルを保存すると、モデルを提供する Pod がオブジェクトストレージからファイルをプルできず、signed by unknown authority
というエラーメッセージが表示されます。
- 回避策
- データ接続によって作成されたシークレットを手動で更新して、シークレットに正しい CA バンドルが含まれるようにします。この問題を解決するには、Red Hat サポートにお問い合わせください。
RHODS-12928 - サポートされていない文字を使用すると、複数のダッシュを含む Kubernetes リソース名が生成される場合がある
リソースを作成し、サポートされていない文字を名前として指定すると、各スペースがダッシュに置き換えられ、他のサポートされていない文字が削除されるため、リソース名が無効になる可能性があります。
RHODS-12937 - 以前にデプロイされたモデルサーバーが、非接続環境でのアップグレード後に機能しなくなることがある
非接続環境では、Red Hat OpenShift AI 2.5 にアップグレードした後、以前にデプロイされたモデルサーバーが機能しなくなる可能性があります。ダッシュボード上でモデルのステータスが誤って OK
と報告される場合があります。
- 回避策
inferenceservices
リソースを更新して、storage
セクションをstorageUri
セクションに置き換えます。次の手順では、<placeholders> は、実際の環境の値に置き換えます。既存の
inferenceservices
リソースからstorage
パラメーターセクションを削除します。"storage": "key": "<your_key>", "path": "<your_path>"
以下に例を示します。
"storage": "key": "aws-connection-minio-connection", "path": "mnist-8.onnx"
次の例に示すように、指定された形式
s3://bucket-name/path/to/object
でstorageUri
セクションをinferenceservices
リソースに追加します。以下に例を示します。
storageUri: 's3://bucket/mnist-8.onnx'
次のように秘密鍵名を取得します。
secret_key=$(oc get secret -n <project_name> | grep -i aws-connection | awk '{print $1}')
以下のようにアノテーションを更新します。
oc annotate $(oc get inferenceservices -n <project_name> -o name) -n <project_name> serving.kserve.io/secretKey="$secret_key"
RHODS-12946 - 非接続環境またはプライベート証明書を使用している場合、PyPI ミラーからインストールできない
非接続環境では、Red Hat OpenShift AI は公開されている PyPI リポジトリーに接続できないため、ネットワーク内にリポジトリーを指定する必要があります。プライベート TLS 証明書を使用しており、データサイエンスパイプラインが Python パッケージをインストールするように設定されている場合、パイプラインの実行に失敗します。
- 回避策
- 以下の Red Hat ソリューション記事 https://access.redhat.com/solutions/7045831 で説明されているように、必要な環境変数と証明書をパイプラインに追加します。
RHODS-12986 - Red Hat OpenShift AI 2.5 へのアップグレード後に発生する可能性のある調整エラー
Red Hat OpenShift Data Science 2.4 にアップグレードした後、調整エラーが Red Hat OpenShift Data Science Operator Pod ログと DataScienceCluster
カスタムリソース(CR)条件に表示される場合があります。
エラーの例
2023-11-23T09:45:37Z ERROR Reconciler error {"controller": "datasciencecluster", "controllerGroup": "datasciencecluster.opendatahub.io", "controllerKind": "DataScienceCluster", "DataScienceCluster": {"name":"default-dsc"}, "namespace": "", "name": "default-dsc", "reconcileID": "0c1a32ca-7ffd-4310-8259-f6baabf3c868", "error": "1 error occurred:\n\t* Deployment.apps \"rhods-prometheus-operator\" is invalid: spec.selector: Invalid value: v1.LabelSelector{MatchLabels:map[string]string{\"app.kubernetes.io/part-of\":\"model-mesh\", \"app.opendatahub.io/model-mesh\":\"true\", \"k8s-app\":\"rhods-prometheus-operator\"}, MatchExpressions:[]v1.LabelSelectorRequirement(nil)}: field is immutable\n\n"}
- 回避策
- Red Hat OpenShift Data Science Operator Pod を再起動します。
RHOAIENG-11 - 個別にインストールされた CodeFlare Operator のインスタンスはサポートされていない
Red Hat OpenShift AI では、CodeFlare Operator はベース製品に含まれており、別個の Operator には含まれていません。Red Hat またはコミュニティーから個別にインストールされた CodeFlare Operator のインスタンスはサポートされていません。
- 回避策
- 次の Red Hat ソリューション記事 https://access.redhat.com/solutions/7043796 で説明されているように、インストールされた CodeFlare Operator を削除し、Red Hat OpenShift AI をインストールおよび設定します。
RHOAIENG-12 - 一部のブラウザーから Ray ダッシュボードにアクセスできない
一部のブラウザーでは、ブラウザーがダッシュボード URL の接頭辞を http
から https
に自動的に変更するため、分散ワークロード機能を使用する場合は Ray ダッシュボードにアクセスできないことがあります。分散ワークロード機能は現在、Red Hat OpenShift Data Science 2.4 でテクノロジープレビュー機能として利用可能です。テクノロジープレビューの機能 を参照してください。
- 回避策
-
URL 接頭辞を
https
からhttp
に変更します。
RHOAIENG-52 - 自己署名証明書を使用したクラスターでトークン認証が失敗する
自己署名証明書を使用し、ノートブックまたは Python スクリプトでパイプラインの一部として Python codeflare-sdk
を使用すると、トークン認証は失敗します。
RHOAIENG-133 - ノートブックの再起動後、既存のワークベンチが Elyra パイプラインを実行できない
Elyra JupyterLab 拡張機能を使用して JupyterLab 内でデータサイエンスパイプラインを作成および実行し、ワークベンチを作成してワークベンチ内でノートブックイメージを指定した 後に パイプラインサーバーを設定すると、ノートブックを再起動した後でもパイプラインを実行できません。
- 回避策
- 実行中のノートブックを停止します。
- ワークベンチを編集して小さな変更を加えます。たとえば、新しいダミー環境変数を追加したり、既存の不要な環境変数を削除したりします。変更を保存します。
- ノートブックを再起動します。
- JupyterLab の左側のサイドバーで、Runtimes をクリックします。
- デフォルトのランタイムが選択されていることを確認します。
RHOAIENG-807 - ワークベンチの再起動時に Accelerator プロファイル容認が削除されました
容認を含む accelerator プロファイルを使用するワークベンチを作成すると、ワークベンチを再起動すると容認情報が削除されます。つまり、再起動を完了できません。新しく作成された GPU 対応ワークベンチが初めて起動する可能性がありますが、生成された Pod が保留中のままであるため、その後正常に再起動されることはありません。
NOTEBOOKS-218 - Elyra パイプラインエディターから保存されたデータサイエンスパイプラインが互換性のないランタイムを参照している
OpenShift Data Science バージョン 1.31 以前で、Elyra パイプラインエディターに .pipeline
形式でパイプラインを保存すると、パイプラインは OpenShift Data Science バージョン 1.32 以降と互換性のないランタイムを参照します。
その結果、OpenShift Data Science をバージョン 1.32 以降にアップグレードした後、パイプラインは実行に失敗します。
- 回避策
- OpenShift Data Science バージョン 1.32 以降にアップグレードした後、関連するランタイムイメージを再度選択します。
NOTEBOOKS-210 - Jupyter でノートブックを PDF ファイルとしてエクスポートできない
Jupyter でノートブックを PDF ファイルとしてエクスポートすると、エラーが発生してエクスポートプロセスが失敗します。
DATA-SCIENCE-PIPELINES-OPERATOR-349 - Import Pipeline ボタンが早期にアクセス可能になる
データサイエンスプロジェクトに属するワークベンチにパイプラインをインポートすると、パイプラインサーバーが完全に使用可能になる前に Import Pipeline ボタンがアクセス可能になります。
- 回避策
- ブラウザーのページを更新して、パイプラインを再度インポートします。
DATA-SCIENCE-PIPELINES-OPERATOR-362 - 不明な認証局によって署名されたオブジェクトストレージを使用するパイプラインサーバーが失敗する
不明な認証局によって署名されたオブジェクトストレージを使用すると、データサイエンスパイプラインサーバーが失敗します。そのため、現在、自己署名証明書でてオブジェクトストレージ使用できません。この問題は、非接続環境で確認されています。
- 回避策
- Red Hat ソリューションの記事 https://access.redhat.com/solutions/7040631 の説明に従って、自己署名証明書を持つオブジェクトストレージを使用するようにシステムを設定します。
ODH-DASHBOARD-1776 - ユーザーにプロジェクト管理者権限がない場合のエラーメッセージ
プロジェクトに対する管理者権限がない場合、一部の機能にアクセスできず、エラーメッセージにはその理由が説明されません。たとえば、1 つの namespace にしかアクセスできない環境でモデルサーバーを作成すると、Error creating model server
のエラーメッセージが表示されます。ただし、モデルサーバーはそのまま正常に作成されます。
RHODS-11791: アップグレード後に使用状況データの収集が有効になる
以前に Allow collection of usage data
オプションの選択を解除していた (つまり、無効にしていた) 場合、OpenShift Data Science をアップグレードすると、このオプションが選択されます (つまり、有効になります)。
- 回避策
Allow collection of usage data
オプションを手動でリセットします。これを行うには、次のアクションを実行します。OpenShift Data Science ダッシュボードの左側のメニューで、Settings
Cluster settings をクリックします。 Cluster Settings ページが開きます。
-
Usage data collection セクションで、
Allow collection of usage data
の選択を解除します。 - Save Changes をクリックします。
ODH-DASHBOARD-1741: 名前が数字で始まるワークベンチは作成できません
名前が数字で始まるワークベンチを作成しようとすると、ワークベンチは起動しません。
- 回避策
- ワークベンチを削除し、文字で始まる名前を付けて新しいワークベンチを作成します。
RHODS-6913 (ODH-DASHBOARD-1699) - すべての設定変更に対してワークベンチが自動的に再起動しない
設定の変更を加えるとワークベンチが再起動されることを示す警告メッセージが、ワークベンチの設定の編集時に表示されます。次の場合、ワークベンチは自動的に再起動しないため、この警告は誤解を招きます。
- 名前を編集する
- 説明を編集する
- 既存の環境変数のキーおよび値を編集、追加、または削除する
- 回避策
- ワークベンチを手動で再起動します。
KUBEFLOW-157: OpenShift Data Science ダッシュボードからすでにログアウトしている場合、JupyterLab からのログアウトが機能しない
JupyterLab からログアウトする前に OpenShift Data Science ダッシュボードからログアウトすると、JupyterLab からのログアウトは成功しません。たとえば、Jupyter ノートブックの URL がわかっている場合は、これをブラウザーで再度開くことができます。
- 回避策
- OpenShift Data Science ダッシュボードからログアウトする前に、JupyterLab からログアウトします。
RHODS-9789: データベース名またはユーザー名フィールドにダッシュがあるカスタムデータベースが含まれる場合はパイプラインサーバーは起動に失敗する
カスタムデータベースを使用するパイプラインサーバーを作成する場合、dbname フィールドまたは username フィールドに設定した値にダッシュが含まれていると、パイプラインサーバーは起動に失敗します。
- 回避策
- パイプラインサーバーを編集して、対象のフィールドからダッシュを削除します。
RHODS-9412: 編集権限を持つユーザーがワークベンチを作成した場合、Elyra パイプラインが実行に失敗する
プロジェクトの編集権限を付与されたユーザーがプロジェクトワークベンチを作成すると、そのユーザーには次の動作が表示されます。
-
ワークベンチの作成プロセス中に、Kubernetes ロールバインディングの作成に関連する
Error creating workbench
メッセージがユーザーに表示されます。 - 前述のエラーメッセージにもかかわらず、OpenShift Data Science は引き続きワークベンチを作成します。ただし、このエラーメッセージは、ユーザーがワークベンチを使用して Elyra データサイエンスパイプラインを実行できないことを意味します。
ユーザーがワークベンチを使用して Elyra パイプラインを実行しようとすると、Jupyter は初期化の失敗を説明する
Error making request
メッセージを表示します。- 回避策
- 管理者権限を持つユーザー (プロジェクト所有者など) は、編集権限を持つユーザーに代わってワークベンチを作成する必要があります。その後、そのユーザーはワークベンチを使用して Elyra パイプラインを実行できるようになります。
RHODS-8921: 累積文字数制限を超えるとパイプラインサーバーを作成できない
データサイエンスプロジェクト名とパイプラインサーバー名の累積文字制限が 62 文字を超えると、パイプラインサーバーを正常に作成できません。
- 回避策
- データサイエンスプロジェクトの名前を 30 文字を超えないように変更します。
RHODS-8865: Amazon Web Services (AWS) シンプルストレージサービス (S3) バケットリソースを指定しないとパイプラインサーバーの起動に失敗する
データサイエンスプロジェクトのデータ接続を作成する場合、AWS_S3_BUCKET フィールドは必須フィールドとして指定されません。ただし、このフィールドの値を指定せずにパイプラインサーバーを設定しようとすると、パイプラインサーバーは正常に起動できません。
RHODS-7718: ダッシュボード権限のないユーザーは、実行中のノートブックとワークベンチを無期限に使用し続けることができる
Red Hat OpenShift Data Science 管理者がユーザーの権限を取り消しても、引き続きユーザーは実行中のノートブックとワークベンチを無期限で使用できます。
- 回避策
- OpenShift Data Science 管理者がユーザーの権限を取り消す場合、管理者はそのユーザーに対して実行中のノートブックとワークベンチも停止する必要があります。
RHODS-6907: 永続ボリューム (PV) がワークベンチに接続されていない時に PV のサイズを増やそうとすると失敗する
ワークベンチに接続されていない永続ボリューム (PV) のサイズを増やそうとすると失敗します。データサイエンスプロジェクトのストレージを変更する場合、ユーザーは引き続きユーザーインターフェイスで PV のサイズを編集できますが、この操作は何の効果もありません。
RHODS-6539: OpenShift Data Science で Anaconda Professional Edition を検証および有効化できない
Anaconda Professional Edition のダッシュボードのキー検証が機能しないため、Anaconda Professional Edition を有効にできません。
RHODS-6955: ワークベンチを編集しようとするとエラーが発生する可能性がある
ワークベンチの編集時に、以下のようなエラーが発生する可能性があります。
Error creating workbench Operation cannot be fulfilled on notebooks.kubeflow.org "workbench-name": the object has been modified; please apply your changes to the latest version and try again
RHODS-6383: ワークベンチの作成プロセス中に必要なときに ImagePullBackOff エラーメッセージが表示されない
コンテナーレジストリーからコンテナーイメージをプルする際に、Pod で問題が発生する可能性があります。エラーが発生した場合、関連する Pod は ImagePullBackOff
状態になります。ワークベンチの作成プロセス中に ImagePullBackOff
エラーが発生した場合は、適切なメッセージが表示されません。
- 回避策
-
イベントログで
ImagePullBackOff
エラーの詳細を確認します。これを行うには、ワークベンチの起動時にワークベンチのステータスをクリックします。
RHODS-6373: 累積文字数制限を超えると、ワークベンチが起動しない
データサイエンスプロジェクトのタイトルとワークベンチタイトルの累積文字数制限が 62 文字を超えると、ワークベンチが起動しません。
RHODS-6356: ダッシュボードにログインしたことがないユーザーのノートブック作成プロセスが失敗する
ダッシュボードのノートブック Administration ページには、OpenShift のユーザーグループと管理者グループに属するユーザーが表示されます。ただし、管理者がダッシュボードにログインしたことのないユーザーに代わってノートブックサーバーを起動しようとすると、サーバーの作成プロセスが失敗し、次のエラーメッセージが表示されます。
Request invalid against a username that does not exist.
- 回避策
- 該当するユーザーにダッシュボードへのログインを依頼します。
RHODS-6216: ModelMesh oauth-proxy コンテナーが断続的に不安定になる
ModelMesh oauth-proxy
コンテナーの失敗により、ModelMesh Pod が正しくデプロイされません。この問題は、ModelMesh ランタイム環境で認証が有効になっている場合にのみ断続的に発生します。追加の ModelMesh インスタンスが異なる namespace にデプロイされている場合は、発生する可能性が高くなります。
RHODS-5906: NVIDIA GPU Operator に OpenShift 4.11.12 との互換性がない
OpenShift 4.11.12 クラスターで GPU ノードをプロビジョニングすると、nvidia-driver-daemonset
Pod が CrashLoopBackOff 状態で停止します。NVIDIA GPU Operator は OpenShift 4.11.9 および 4.11.13 と互換性があります。
RHODS-5763: ノートブックの選択中に表示される誤ったパッケージバージョン
Start a notebook server ページには、Anaconda ノートブックイメージの正しくないバージョン番号が表示されます。
RHODS-5543: NVIDIA GPU Operator を使用すると、Node Autoscaler によって必要以上のノードが作成される
使用可能なリソースが不十分なために Pod をスケジュールできないと、Node Autoscaler は新しいノードを作成します。新しく作成されたノードが関連する GPU ワークロードを受け取るまで、遅延があります。したがって、Pod をスケジュールすることはできず、Node Autoscaler は、ノードの 1 つが GPU ワークロードを受け取る準備ができるまで、追加の新しいノードを継続的に作成します。この問題の詳細は、When using the NVIDIA GPU Operator, more nodes than needed is created by the Node Autoscaler を参照してください。
- 回避策
-
machineset.spec.template.spec.metadata
でcluster-api/accelerator
ラベルを適用します。これにより、オートスケーラーは、GPU ドライバーがデプロイされるまで、これらのノードを準備ができていないと見なします。
RHODS-5216: アプリケーションランチャーメニューに OpenShift Cluster Manager へのリンクが誤って表示される
Red Hat OpenShift Data Science は、アプリケーションランチャーメニューから OpenShift Cluster Manager へのリンクを誤って表示します。このリンクをクリックすると、URL が無効なため、"Page Not Found" エラーが発生します。
RHODS-5251: ノートブックサーバー管理ページにパーミッションアクセスを失ったユーザーが表示される
以前に Jupyter でノートブックサーバーを起動したユーザーがその権限を失った場合 (たとえば、OpenShift Data Science 管理者がユーザーのグループ設定を変更したり、許可されたグループからユーザーを削除したりした場合)、管理者は引き続きサーバーの Administration ページでユーザーのノートブックサーバーを表示します。その結果、管理者は、権限が取り消されたユーザーに属するノートブックサーバーを再起動できるようになります。
RHODS-4799: Tensorboard を表示するには手動の手順が必要
TensorFlow または PyTorch ノートブックイメージを使用しており、TensorBoard を使用してデータを表示する場合に、ノートブック環境に環境変数を追加して、独自のコードで使用する環境変数をインポートするといった手作業の手順が必要です。
- 回避策
- ノートブックサーバーを起動するときに、次のコードを使用して TENSORBOARD_PROXY_URL 環境変数の値を設定し、OpenShift Data Science ユーザー ID を使用します。
import os os.environ["TENSORBOARD_PROXY_URL"]= os.environ["NB_PREFIX"]+"/proxy/6006/"
RHODS-4718: Intel® oneAPI AI Analytics Toolkits のクイックスタートが、存在しないサンプルノートブックを参照している
ダッシュボードの リソース ページにある Intel® oneAPI AI アナリティクスツールキットクイックスタートでは、手順の一部としてサンプルノートブックをロードする必要がありますが、関連するリポジトリーに存在しないノートブックを参照しています。
RHODS-4627: Anaconda Profressional Edition ライセンスの検証を担当する Cron ジョブが一時停止し、毎日は実行されない
Anaconda Professional Edition ライセンスの検証を担当する CronJob は、OpenShift Data Science Operator により自動的に一時停止します。その結果、Cron ジョブはスケジュールどおりに毎日実行されません。さらに、Anaconda Professional Edition のライセンスの有効期限が切れると、Anaconda Professional Edition は OpenShift Data Science ダッシュボードで無効と示されません。
RHODS-4502: ダッシュボードの NVIDIA GPU Operator タイルに不要にボタンが表示される
NVIDIA GPU Operator がインストールされると、Jupyter で GPU が自動的に使用可能になります。したがって、Explore ページの Nvidia GPU Operator タイルにある Enable ボタンは不要です。さらに、Enable ボタンをクリックすると、Operator がインストールされていない場合でも、NVIDIA GPU Operator タイルが Enabled ページに移動します。
RHODS-3985: ISV Operator のアンインストール後に、ダッシュボードに Enabled ページのコンテンツが表示されない
ISV Operator をアンインストールすると、ダッシュボードの Enabled ページにコンテンツが表示されません。代わりに、以下のエラーが表示されます。
Error loading components HTTP request failed
- 回避策
- 30 - 40 秒待ってから、ブラウザーでページを更新します。
RHODS-3984: ノートブックの選択中に表示される誤ったパッケージバージョン
OpenShift Data Science インターフェイスで、Start a notebook server ページ に、oneAPI AI Analytics Toolkit ノートブックイメージに含まれる JupyterLab パッケージおよび Notebook パッケージの誤ったバージョン番号が表示されます。このページには、このイメージが使用する Python バージョンの誤った値が表示される場合もあります。
- 回避策
-
oneAPI AI Analytics Toolkit ノートブックサーバーを起動するときに、ノートブックセルで
!pip list
コマンドを実行すると、ノートブックサーバーにインストールされている Python パッケージと、所有しているパッケージのバージョンを確認できます。
RHODS-2956: ノートブックインスタンスの作成時にエラーが発生する可能性がある
Jupyter でノートブックインスタンスを作成すると、Directory not found
エラーが断続的に表示されます。このエラーメッセージは、Dismiss をクリックすると無視できます。
RHODS-2881ダッシュボードのアクションが明確に表示されない
無効になったアプリケーションのライセンスを再検証し、無効になったアプリケーションのタイルを削除するダッシュボードアクションは、ユーザーには明確に表示されません。これらのアクションは、ユーザーがアプリケーションタイルの Disabled
ラベルをクリックすると表示されます。その結果、意図したワークフローがユーザーにとって明確でない場合があります。
RHODS-2879: ライセンスの再検証アクションが不必要に表示される
無効になったアプリケーションのライセンスを再検証するダッシュボードアクションは、ライセンス検証またはアクティベーションシステムがないアプリケーションでは不要に表示されます。さらに、ユーザーが再検証できないライセンスを再検証しようとしても、アクションを完了できない理由を示すフィードバックが表示されません。
RHODS-2650: Pachyderm のデプロイメント中にエラーが発生する可能性がある
Pachyderm Operator のインスタンスを作成すると、Webhook エラーが断続的に表示され、作成プロセスを正常に開始できなくなります。Webhook エラーは、Pachyderm Operator がヘルスチェックに失敗して再起動したか、Operator プロセスがコンテナーに割り当てられたメモリー制限を超えてメモリー不足 (OOM) キルをトリガーしたことを示しています。
- 回避策
- エラーが表示されなくなるまで、Pachyderm インスタンスの作成プロセスを繰り返します。
RHODS-2096: IBM Watson Studio は OpenShift Data Science では使用できない
IBM Watson Studio は、OpenShift Data Science が OpenShift Dedicated 4.9 以降にインストールされている場合は使用できません。これは、OpenShift Dedicated のこれらのバージョンと互換性がないためです。OpenShift Dedicated 4.9 以降で Watson Studio を手動で設定する方法は、Marketplace サポート にお問い合わせください。