Red Hat Ansible Automation Platform Operator 备份和恢复指南
本指南提供了在 OpenShift Container Platform 上备份和恢复 Red Hat Ansible Automation Platform Operator 安装的步骤和参考信息
摘要
前言
感谢您对 Red Hat Ansible Automation Platform 的关注。Ansible Automation Platform 是一个商业产品,它可以帮助团队通过增加控制、知识、协调基于 Ansible 的环境来更好地管理多阶的复杂部署环境。
使用本指南中的步骤创建备份资源,可用于在失败时恢复 Red Hat Ansible Automation Platform 部署。
第 1 章 Red Hat Ansible Automation Platform 的备份和恢复
为了防止意外的数据丢失和应用程序错误,对 Red Hat Ansible Automation Platform 部署执行定期备份至关重要。除了数据丢失的防止外,备份还允许您回退到不同的部署状态。
1.1. 关于备份和恢复
红帽建议在 Red Hat OpenShift Container Platform 环境中备份 Red Hat Ansible Automation Platform 部署,以防止数据丢失。
Red Hat Ansible Automation Platform 部署的备份资源包括:
-
在 {PlatormNameShort} 自定义资源对象的
spec
部分中自定义特定值部署 -
备份
postgresql
数据库 -
secret_key
,admin_password
, 和broadcast_websocket
secrets - 数据库配置
确保备份资源的安全,因为它们可以包含敏感信息。
1.1.1. 备份建议
恢复数据丢失需要您定期计划并创建 Red Hat Ansible Automation Platform 部署的备份资源。红帽建议在以下情况下备份 Red Hat Ansible Automation Platform 部署:
- 在升级 Red Hat Ansible Automation Platform 部署前
- 在升级 Openshift 集群前
- 每周一次。如果您的环境被配置为自动升级,这尤其重要。
第 2 章 创建 Red Hat Ansible Automation Platform 备份资源
备份 Red Hat Ansible Automation Platform 部署涉及为部署的自动化中心和自动化控制器实例创建备份资源。使用以下步骤为 Red Hat Ansible Automation Platform 部署创建备份资源。
2.1. 备份 Automation 控制器部署
使用这个流程备份控制器的部署,包括作业、清单和凭证。
先决条件
- 您必须使用 Openshift 集群进行身份验证。
- Ansible Automation Platform Operator 已安装到集群中。
- 自动化控制器使用 Ansible Automation Platform Operator 部署到。
流程
- 登录到 Red Hat OpenShift Container Platform。
- 进入到 → 。
- 选择项目命名空间中安装的 Ansible Automation Platform Operator。
- 选择 Automation Controller Backup 选项卡。
- 点 。
- 输入备份的名称。
-
输入正在备份的部署的 Ansible Automation Platform 实例的 Deployment 名称。例如,如果您的自动化控制器必须备份,且部署名称为
aap-controller
,在 Deployment name 字段中输入 'aap-controller'。 如果要使用自定义、预先创建的 pvc:
- (可选)输入备份持久性卷声明的名称。
(可选)输入 Backup PVC 存储要求,以及 Backup PVC 存储类。
注意如果没有提供 pvc 或存储类,集群的默认存储类将用于创建 pvc。
如果您有大型数据库,根据备份管理 pod 资源要求中的内容指定您的存储请求。
注意您可以在 postgres pod 中运行以下命令来检查现有 postgres 数据库数据目录的大小。
$ df -h | grep "/var/lib/pgsql/data"
点
。创建指定部署的备份 tarball,并可用于数据恢复或部署回滚。将来的备份存储在同一 pvc 上的单独 tar 文件中。
验证
- 登录到 Red Hat OpenShift Container Platform
- 进入到 → 。
- 选择项目命名空间中安装的 Ansible Automation Platform Operator。
- 选择 AutomationControllerBackup 选项卡。
- 选择您要验证的备份资源。
滚动到 Conditions,并检查 Successful 状态为
True
。注意如果 Successful 为
False
,备份会失败。检查自动化控制器 Operator 日志中的错误以修复问题。
2.2. 备份 Automation hub 部署
使用这个流程备份 hub 的部署,包括所有托管的 Ansible 内容。
先决条件
- 您必须使用 Openshift 集群进行身份验证。
- Ansible Automation Platform Operator 已安装到集群中。
- Automation hub 使用 Ansible Automation Platform Operator 部署到。
流程
- 登录到 Red Hat OpenShift Container Platform。
- 进入到 → 。
- 选择项目命名空间中安装的 Ansible Automation Platform Operator。
- 选择 Automation Hub Backup 选项卡。
- 点 。
- 输入备份的名称。
-
输入正在备份的部署的 Ansible Automation Platform 实例的 Deployment 名称。例如,如果您的自动化中心必须备份,且部署名称为
aap-hub
,在 Deployment name 字段中输入 'aap-hub'。 如果要使用自定义、预先创建的 pvc:
- (可选)输入备份持久性卷声明, 备份持久性卷命名空间, 备份 PVC 存储要求, 和 备份 PVC 存储类的名称。
点
。创建指定部署的备份,并可用于数据恢复或部署回滚。
第 3 章 恢复 Red Hat Ansible Automation Platform 部署
如果丢失了系统或升级问题的信息,您可以使用部署实例的备份资源。使用以下步骤恢复自动化控制器和自动化中心部署文件。
3.1. 恢复自动化控制器部署
使用这个流程从 AutomationControllerBackup 恢复以前的控制器部署。您提供的部署名称将是要创建的新 AutomationController 自定义资源的名称。
为新 AutomationController 自定义资源指定的名称必须与现有部署不匹配,否则恢复过程将失败。如果指定的名称与现有部署匹配,请参阅故障排除来解决这个问题。
先决条件
- 您必须使用 Openshift 集群进行身份验证。
- 自动化控制器已部署到集群中。
- 集群中的 PVC 上提供了 AutomationControllerBackup。
流程
- 登录到 Red Hat OpenShift Container Platform。
- 进入到 → 。
- 选择项目命名空间中安装的 Ansible Automation Platform Operator。
- 选择 Automation Controller Restore 选项卡。
- 点 。
- 输入恢复部署的名称。
为恢复的部署输入新部署名称。
注意这应该与原始部署名称不同。
- 选择要从中恢复的 Backup 源。建议的备份 CR。
- 输入 AutomationControllerBackup 对象的备份名称。
点
。创建了一个新部署,并将备份恢复到其中。这可能需要大约 5 到 15 分钟,具体取决于您的数据库的大小。
验证
- 登录到 Red Hat OpenShift Container Platform
- 进入到 → 。
- 选择项目命名空间中安装的 Ansible Automation Platform Operator。
- 选择 AutomationControllerRestore 选项卡。
- 选择您要验证的恢复资源。
滚动到 Conditions,并检查 Successful 状态为
True
。注意如果 Successful 为
False
,则恢复会失败。检查自动化控制器 Operator 日志中的错误以修复问题。
3.2. 恢复 Automation hub 部署
使用这个流程将以前的 hub 部署恢复到命名空间中。您提供的部署名称将是要创建的新 AutomationHub 自定义资源的名称。
为新 AutomationHub 自定义资源指定的名称必须与现有部署不匹配,否则恢复过程将失败。
先决条件
- 您必须使用 Openshift 集群进行身份验证。
- Automation hub 已部署到集群中。
- 集群中的 PVC 上提供了 AutomationHubBackup。
流程
- 登录到 Red Hat OpenShift Container Platform。
- 进入到 → 。
- 选择项目命名空间中安装的 Ansible Automation Platform Operator。
- 选择 Automation Hub Restore 选项卡。
- 点 。
- 输入恢复部署的名称。
- 选择要从中恢复的 Backup 源。建议的备份 CR。
- 输入 AutomationHubBackup 对象的备份名称。
点
。创建了一个新部署,并将备份恢复到其中。
第 4 章 故障排除
使用这些信息诊断和解决备份和恢复过程中的问题。
4.1. 自动化控制器自定义资源的名称与现有部署相同
为新 AutomationController 自定义资源指定的名称必须与现有部署不匹配,否则恢复过程将失败。
如果您的 AutomationController 客户资源与现有部署匹配,请执行以下步骤来解决这个问题。
流程
删除现有的 AutomationController 和关联的 postgres PVC:
oc delete automationcontroller <YOUR_DEPLOYMENT_NAME> -n <YOUR_NAMESPACE> oc delete pvc postgres-13-<YOUR_DEPLOYMENT_NAME>-13-0 -n <YOUR_NAMESPACE>
使用带有相同 deployment_name 的 AutomationControllerRestore :
oc apply -f restore.yaml