airflow.providers.google.cloud.sensors.dataflow

此模块包含一个 Google Cloud Dataflow 传感器。

模块内容

DataflowJobStatusSensor

检查 Google Cloud Dataflow 中作业的状态。

DataflowJobMetricsSensor

检查与 Google Cloud Dataflow 中单个作业关联的指标。

DataflowJobMessagesSensor

检查与 Google Cloud Dataflow 中单个作业关联的作业消息。

DataflowJobAutoScalingEventsSensor

检查与 Google Cloud Dataflow 中单个作业关联的自动缩放事件。

class airflow.providers.google.cloud.sensors.dataflow.DataflowJobStatusSensor(*, job_id, expected_statuses, project_id=PROVIDE_PROJECT_ID, location=DEFAULT_DATAFLOW_LOCATION, gcp_conn_id='google_cloud_default', impersonation_chain=None, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), poll_interval=10, **kwargs)[source]

基类: airflow.sensors.base.BaseSensorOperator

检查 Google Cloud Dataflow 中作业的状态。

另请参阅

有关如何使用此操作符的更多信息,请查看指南:传感器

参数
  • job_id (str) – 要检查的作业的 ID。

  • expected_statuses (set[str] | str) – 操作的预期状态。请参阅:https://cloud.google.com/dataflow/docs/reference/rest/v1b3/projects.jobs#Job.JobState

  • project_id (str) – 可选,要在其中启动作业的 Google Cloud 项目 ID。如果设置为 None 或缺失,则使用 Google Cloud 连接中的默认 project_id。

  • location (str) – Dataflow 作业的位置(例如 europe-west1)。请参阅:https://cloud.google.com/dataflow/docs/concepts/regional-endpoints

  • gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐户,用于使用短期凭据模拟,或获取列表中最后一个帐户的 access_token 所需的帐户链式列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户服务帐户令牌创建者 IAM 角色。如果设置为序列,则列表中的标识必须将服务帐户令牌创建者 IAM 角色授予紧随其后的标识,列表中的第一个帐户将此角色授予原始帐户(已模板化)。

  • deferrable (bool) – 如果为 True,则在可延迟模式下运行传感器。

  • poll_interval (int) – 检查作业的两个连续调用之间等待的时间(秒)。

template_fields: collections.abc.Sequence[str] = ('job_id',)[source]
poke(context)[source]

派生此类时重写。

execute(context)[source]

Airflow 在 worker 上运行此方法,并使用触发器延迟。

execute_complete(context, event)[source]

在任务在延迟后恢复在 worker 上执行时执行此方法。

如果触发器返回一个带有成功状态的事件,则返回 True,否则引发异常。

hook()[source]
airflow.providers.google.cloud.sensors.dataflow.DataflowJobMetricsSensor(*, job_id, callback=None, fail_on_terminal_state=True, project_id=PROVIDE_PROJECT_ID, location=DEFAULT_DATAFLOW_LOCATION, gcp_conn_id='google_cloud_default', impersonation_chain=None, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), poll_interval=10, **kwargs)[源代码]

基类: airflow.sensors.base.BaseSensorOperator

检查与 Google Cloud Dataflow 中单个作业关联的指标。

另请参阅

有关如何使用此操作符的更多信息,请查看指南: 传感器

参数
  • job_id (str) – 要检查的作业的 ID。

  • callback (Callable | None) – 回调函数,使用读取的作业指标列表调用。请参阅: https://cloud.google.com/dataflow/docs/reference/rest/v1b3/MetricUpdate

  • fail_on_terminal_state (bool) – 如果设置为 true,当作业处于终端状态时,传感器将引发异常

  • project_id (str) – 可选,要在其中启动作业的 Google Cloud 项目 ID。如果设置为 None 或缺失,则使用 Google Cloud 连接中的默认 project_id。

  • location (str) – Dataflow 作业的位置(例如 europe-west1)。请参阅:https://cloud.google.com/dataflow/docs/concepts/regional-endpoints

  • gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐户,用于使用短期凭据模拟,或获取列表中最后一个帐户的 access_token 所需的帐户链式列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户服务帐户令牌创建者 IAM 角色。如果设置为序列,则列表中的标识必须将服务帐户令牌创建者 IAM 角色授予紧随其后的标识,列表中的第一个帐户将此角色授予原始帐户(已模板化)。

  • deferrable (bool) – 如果为 True,则在可延迟模式下运行传感器。

  • poll_interval (int) – 检查作业的两个连续调用之间等待的时间(秒)。

template_fields: collections.abc.Sequence[str] = ('job_id',)[源代码]
poke(context)[源代码]

派生此类时重写。

execute(context)[源代码]

Airflow 在 worker 上运行此方法,并使用触发器延迟。

execute_complete(context, event)[源代码]

在任务在延迟后恢复在 worker 上执行时执行此方法。

如果触发器返回带有成功状态的事件 - 将事件结果传递给回调函数。如果没有提供回调函数,则返回事件结果。

如果触发器返回带有错误状态的事件 - 则引发异常。

hook()[源代码]
airflow.providers.google.cloud.sensors.dataflow.DataflowJobMessagesSensor(*, job_id, callback=None, fail_on_terminal_state=True, project_id=PROVIDE_PROJECT_ID, location=DEFAULT_DATAFLOW_LOCATION, gcp_conn_id='google_cloud_default', impersonation_chain=None, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), poll_interval=10, **kwargs)[源代码]

基类: airflow.sensors.base.BaseSensorOperator

检查与 Google Cloud Dataflow 中单个作业关联的作业消息。

另请参阅

有关如何使用此操作符的更多信息,请查看指南: 传感器

参数
  • job_id (str) – 要检查的 Dataflow 作业的 ID。

  • callback (Callable | None) – 一个可以接受序列化作业消息列表的函数。它可以执行任何您想让它执行的操作。如果没有提供回调函数,则在成功完成后,任务将以 True 值退出。有关作业消息内容的更多信息,请参阅: https://cloud.google.com/python/docs/reference/dataflow/latest/google.cloud.dataflow_v1beta3.types.JobMessage

  • fail_on_terminal_state (bool) – 如果设置为 True,当作业达到终端状态时,传感器将引发异常。不会返回任何作业消息。

  • project_id (str) – 可选,要在其中启动作业的 Google Cloud 项目 ID。如果设置为 None 或缺失,则使用 Google Cloud 连接中的默认 project_id。

  • location (str) – Dataflow 作业的位置(例如 europe-west1)。如果设置为 None,则将使用 DEFAULT_DATAFLOW_LOCATION 的值。请参阅: https://cloud.google.com/dataflow/docs/concepts/regional-endpoints

  • gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐户,用于使用短期凭据模拟,或获取列表中最后一个帐户的 access_token 所需的帐户链式列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户服务帐户令牌创建者 IAM 角色。如果设置为序列,则列表中的标识必须将服务帐户令牌创建者 IAM 角色授予紧随其后的标识,列表中的第一个帐户将此角色授予原始帐户(已模板化)。

  • deferrable (bool) – 如果为 True,则在可延迟模式下运行传感器。

  • poll_interval (int) – 检查作业的两个连续调用之间等待的时间(秒)。

template_fields: collections.abc.Sequence[str] = ('job_id',)[源代码]
poke(context)[源代码]

派生此类时重写。

execute(context)[源代码]

Airflow 在 worker 上运行此方法,并使用触发器延迟。

execute_complete(context, event)[源代码]

在任务在延迟后恢复在 worker 上执行时执行此方法。

如果触发器返回带有成功状态的事件 - 将事件结果传递给回调函数。如果没有提供回调函数,则返回事件结果。

如果触发器返回带有错误状态的事件 - 则引发异常。

hook()[源代码]
class airflow.providers.google.cloud.sensors.dataflow.DataflowJobAutoScalingEventsSensor(*, job_id, callback=None, fail_on_terminal_state=True, project_id=PROVIDE_PROJECT_ID, location=DEFAULT_DATAFLOW_LOCATION, gcp_conn_id='google_cloud_default', impersonation_chain=None, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), poll_interval=60, **kwargs)[source]

基类: airflow.sensors.base.BaseSensorOperator

检查与 Google Cloud Dataflow 中单个作业关联的自动缩放事件。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南: 传感器

参数
  • job_id (str) – 要检查的 Dataflow 作业的 ID。

  • callback (Callable | None) – 一个可以接收序列化的自动缩放事件列表的函数。它可以做任何你想做的事情。如果未提供回调函数,则在成功完成时,任务将以 True 值退出。有关自动缩放事件内容的更多信息,请参阅: https://cloud.google.com/python/docs/reference/dataflow/latest/google.cloud.dataflow_v1beta3.types.AutoscalingEvent

  • fail_on_terminal_state (bool) – 如果设置为 True,则当作业达到终端状态时,传感器将引发异常。不会返回自动缩放事件。

  • project_id (str) – 可选,要在其中启动作业的 Google Cloud 项目 ID。如果设置为 None 或缺失,则使用 Google Cloud 连接中的默认 project_id。

  • location (str) – Dataflow 作业的位置(例如 europe-west1)。如果设置为 None,则将使用 DEFAULT_DATAFLOW_LOCATION 的值。请参阅: https://cloud.google.com/dataflow/docs/concepts/regional-endpoints

  • gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐户,用于使用短期凭据模拟,或获取列表中最后一个帐户的 access_token 所需的帐户链式列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户服务帐户令牌创建者 IAM 角色。如果设置为序列,则列表中的标识必须将服务帐户令牌创建者 IAM 角色授予紧随其后的标识,列表中的第一个帐户将此角色授予原始帐户(已模板化)。

  • deferrable (bool) – 如果为 True,则在可延迟模式下运行传感器。

  • poll_interval (int) – 检查作业的两个连续调用之间等待的时间(秒)。

template_fields: collections.abc.Sequence[str] = ('job_id',)[source]
poke(context)[source]

派生此类时重写。

execute(context)[source]

Airflow 在 worker 上运行此方法,并使用触发器延迟。

execute_complete(context, event)[source]

在任务在延迟后恢复在 worker 上执行时执行此方法。

如果触发器返回带有成功状态的事件 - 将事件结果传递给回调函数。如果没有提供回调函数,则返回事件结果。

如果触发器返回带有错误状态的事件 - 则引发异常。

hook()[source]

此条目是否有帮助?