airflow.providers.google.cloud.sensors.dataflow¶
本模块包含一个 Google Cloud Dataflow 传感器。
类¶
检查 Google Cloud Dataflow 中作业的状态。 |
|
检查 Google Cloud Dataflow 中与单个作业相关的指标。 |
|
检查 Google Cloud Dataflow 中与单个作业相关的作业消息。 |
|
检查 Google Cloud Dataflow 中与单个作业相关的自动伸缩事件。 |
模块内容¶
- class airflow.providers.google.cloud.sensors.dataflow.DataflowJobStatusSensor(*, job_id, expected_statuses, project_id=PROVIDE_PROJECT_ID, location=DEFAULT_DATAFLOW_LOCATION, gcp_conn_id='google_cloud_default', impersonation_chain=None, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), poll_interval=10, **kwargs)[源代码]¶
基类:
airflow.sensors.base.BaseSensorOperator
检查 Google Cloud Dataflow 中作业的状态。
另请参阅
有关如何使用此 Operator 的更多信息,请参阅指南: Sensors(传感器)
- 参数:
job_id (str) – 要检查的作业 ID。
expected_statuses (set[str] | str) – 操作的预期状态。请参阅: https://cloud.google.com/dataflow/docs/reference/rest/v1b3/projects.jobs#Job.JobState
project_id (str) – 可选,要在其中启动作业的 Google Cloud 项目 ID。如果设置为 None 或缺失,则使用 Google Cloud 连接中的默认 project_id。
location (str) – Dataflow 作业的位置(例如 europe-west1)。请参阅: https://cloud.google.com/dataflow/docs/concepts/regional-endpoints
gcp_conn_id (str) – 用于连接 Google Cloud 的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务账号,使用短期凭据模拟,或用于获取列表中最后一个账号的 access_token 的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,则原始账号必须授予此账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须授予直接前一个身份 Service Account Token Creator IAM 角色,列表中第一个账号授予此角色给原始账号(模版化)。
deferrable (bool) – 如果为 True,则在 deferrable 模式下运行传感器。
poll_interval (int) – 两次连续检查作业之间等待的时间(秒)。
- template_fields: collections.abc.Sequence[str] = ('job_id',)[源代码]¶
- class airflow.providers.google.cloud.sensors.dataflow.DataflowJobMetricsSensor(*, job_id, callback=None, fail_on_terminal_state=True, project_id=PROVIDE_PROJECT_ID, location=DEFAULT_DATAFLOW_LOCATION, gcp_conn_id='google_cloud_default', impersonation_chain=None, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), poll_interval=10, **kwargs)[源代码]¶
基类:
airflow.sensors.base.BaseSensorOperator
检查 Google Cloud Dataflow 中与单个作业相关的指标。
另请参阅
有关如何使用此 Operator 的更多信息,请参阅指南: Sensors(传感器)
- 参数:
job_id (str) – 要检查的作业 ID。
callback (Callable | None) – 回调函数,它将使用读取的作业指标列表调用。它可以执行您希望的任何操作。请参阅: https://cloud.google.com/dataflow/docs/reference/rest/v1b3/MetricUpdate
fail_on_terminal_state (bool) – 如果设置为 true,当作业处于终端状态时,传感器将引发 Exception。
project_id (str) – 可选,要在其中启动作业的 Google Cloud 项目 ID。如果设置为 None 或缺失,则使用 Google Cloud 连接中的默认 project_id。
location (str) – Dataflow 作业的位置(例如 europe-west1)。请参阅: https://cloud.google.com/dataflow/docs/concepts/regional-endpoints
gcp_conn_id (str) – 用于连接 Google Cloud 的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务账号,使用短期凭据模拟,或用于获取列表中最后一个账号的 access_token 的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,则原始账号必须授予此账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须授予直接前一个身份 Service Account Token Creator IAM 角色,列表中第一个账号授予此角色给原始账号(模版化)。
deferrable (bool) – 如果为 True,则在 deferrable 模式下运行传感器。
poll_interval (int) – 两次连续检查作业之间等待的时间(秒)。
- template_fields: collections.abc.Sequence[str] = ('job_id',)[源代码]¶
- class airflow.providers.google.cloud.sensors.dataflow.DataflowJobMessagesSensor(*, job_id, callback=None, fail_on_terminal_state=True, project_id=PROVIDE_PROJECT_ID, location=DEFAULT_DATAFLOW_LOCATION, gcp_conn_id='google_cloud_default', impersonation_chain=None, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), poll_interval=10, **kwargs)[源代码]¶
基类:
airflow.sensors.base.BaseSensorOperator
检查 Google Cloud Dataflow 中与单个作业相关的作业消息。
另请参阅
有关如何使用此 Operator 的更多信息,请参阅指南: Sensors(传感器)
- 参数:
job_id (str) – 要检查的 Dataflow 作业 ID。
callback (Callable | None) – 一个函数,可以接受序列化的作业消息列表。它可以执行您希望它做的任何事情。如果未提供回调函数,则在成功完成时,任务将以 True 值退出。有关作业消息内容的更多信息,请参阅: https://cloud.google.com/python/docs/reference/dataflow/latest/google.cloud.dataflow_v1beta3.types.JobMessage
fail_on_terminal_state (bool) – 如果设置为 True,当作业达到终端状态时,传感器将引发异常。不会返回任何作业消息。
project_id (str) – 可选,要在其中启动作业的 Google Cloud 项目 ID。如果设置为 None 或缺失,则使用 Google Cloud 连接中的默认 project_id。
location (str) – Dataflow 作业的位置(例如 europe-west1)。如果设置为 None,则将使用 DEFAULT_DATAFLOW_LOCATION 的值。请参阅: https://cloud.google.com/dataflow/docs/concepts/regional-endpoints
gcp_conn_id (str) – 用于连接 Google Cloud 的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务账号,使用短期凭据模拟,或用于获取列表中最后一个账号的 access_token 的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,则原始账号必须授予此账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须授予直接前一个身份 Service Account Token Creator IAM 角色,列表中第一个账号授予此角色给原始账号(模版化)。
deferrable (bool) – 如果为 True,则在 deferrable 模式下运行传感器。
poll_interval (int) – 两次连续检查作业之间等待的时间(秒)。
- template_fields: collections.abc.Sequence[str] = ('job_id',)[源代码]¶
- class airflow.providers.google.cloud.sensors.dataflow.DataflowJobAutoScalingEventsSensor(*, job_id, callback=None, fail_on_terminal_state=True, project_id=PROVIDE_PROJECT_ID, location=DEFAULT_DATAFLOW_LOCATION, gcp_conn_id='google_cloud_default', impersonation_chain=None, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), poll_interval=60, **kwargs)[source]¶
基类:
airflow.sensors.base.BaseSensorOperator
检查 Google Cloud Dataflow 中与单个作业相关的自动伸缩事件。
另请参阅
有关如何使用此 Operator 的更多信息,请参阅指南:传感器
- 参数:
job_id (str) – 要检查的 Dataflow 作业 ID。
callback (Callable | None) – 一个函数,可以接受一个序列化的自动扩缩事件列表。它可以执行任何你希望它执行的操作。如果未提供回调函数,则在成功完成时任务将以 True 值退出。有关自动扩缩事件内容的更多信息,请参见:https://cloud.google.com/python/docs/reference/dataflow/latest/google.cloud.dataflow_v1beta3.types.AutoscalingEvent
fail_on_terminal_state (bool) – 如果设置为 True,当作业达到终止状态时,传感器将抛出异常。不会返回任何自动扩缩事件。
project_id (str) – 可选,要在其中启动作业的 Google Cloud 项目 ID。如果设置为 None 或缺失,则使用 Google Cloud 连接中的默认 project_id。
location (str) – Dataflow 作业的位置(例如 europe-west1)。如果设置为 None,则将使用 DEFAULT_DATAFLOW_LOCATION 的值。请参阅: https://cloud.google.com/dataflow/docs/concepts/regional-endpoints
gcp_conn_id (str) – 用于连接 Google Cloud 的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务账号,使用短期凭据模拟,或用于获取列表中最后一个账号的 access_token 的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,则原始账号必须授予此账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须授予直接前一个身份 Service Account Token Creator IAM 角色,列表中第一个账号授予此角色给原始账号(模版化)。
deferrable (bool) – 如果为 True,则在 deferrable 模式下运行传感器。
poll_interval (int) – 两次连续检查作业之间等待的时间(秒)。
- template_fields: collections.abc.Sequence[str] = ('job_id',)[source]¶