airflow.providers.google.cloud.sensors.dataflow

本模块包含一个 Google Cloud Dataflow 传感器。

DataflowJobStatusSensor

检查 Google Cloud Dataflow 中作业的状态。

DataflowJobMetricsSensor

检查 Google Cloud Dataflow 中与单个作业相关的指标。

DataflowJobMessagesSensor

检查 Google Cloud Dataflow 中与单个作业相关的作业消息。

DataflowJobAutoScalingEventsSensor

检查 Google Cloud Dataflow 中与单个作业相关的自动伸缩事件。

模块内容

class airflow.providers.google.cloud.sensors.dataflow.DataflowJobStatusSensor(*, job_id, expected_statuses, project_id=PROVIDE_PROJECT_ID, location=DEFAULT_DATAFLOW_LOCATION, gcp_conn_id='google_cloud_default', impersonation_chain=None, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), poll_interval=10, **kwargs)[源代码]

基类: airflow.sensors.base.BaseSensorOperator

检查 Google Cloud Dataflow 中作业的状态。

另请参阅

有关如何使用此 Operator 的更多信息,请参阅指南: Sensors(传感器)

参数:
  • job_id (str) – 要检查的作业 ID。

  • expected_statuses (set[str] | str) – 操作的预期状态。请参阅: https://cloud.google.com/dataflow/docs/reference/rest/v1b3/projects.jobs#Job.JobState

  • project_id (str) – 可选,要在其中启动作业的 Google Cloud 项目 ID。如果设置为 None 或缺失,则使用 Google Cloud 连接中的默认 project_id。

  • location (str) – Dataflow 作业的位置(例如 europe-west1)。请参阅: https://cloud.google.com/dataflow/docs/concepts/regional-endpoints

  • gcp_conn_id (str) – 用于连接 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务账号,使用短期凭据模拟,或用于获取列表中最后一个账号的 access_token 的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,则原始账号必须授予此账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须授予直接前一个身份 Service Account Token Creator IAM 角色,列表中第一个账号授予此角色给原始账号(模版化)。

  • deferrable (bool) – 如果为 True,则在 deferrable 模式下运行传感器。

  • poll_interval (int) – 两次连续检查作业之间等待的时间(秒)。

template_fields: collections.abc.Sequence[str] = ('job_id',)[源代码]
job_id[源代码]
expected_statuses[源代码]
project_id = None[源代码]
location = 'us-central1'[源代码]
gcp_conn_id = 'google_cloud_default'[源代码]
impersonation_chain = None[源代码]
deferrable = True[源代码]
poll_interval = 10[源代码]
poke(context)[源代码]

从该类派生时覆盖此方法。

execute(context)[源代码]

Airflow 在工作器上运行此方法,并使用触发器进行延迟。

execute_complete(context, event)[源代码]

当任务在延迟后在工作器上恢复执行时,执行此方法。

如果触发器返回一个带有成功状态的事件,则返回 True,否则引发异常。

property hook: airflow.providers.google.cloud.hooks.dataflow.DataflowHook[源代码]
class airflow.providers.google.cloud.sensors.dataflow.DataflowJobMetricsSensor(*, job_id, callback=None, fail_on_terminal_state=True, project_id=PROVIDE_PROJECT_ID, location=DEFAULT_DATAFLOW_LOCATION, gcp_conn_id='google_cloud_default', impersonation_chain=None, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), poll_interval=10, **kwargs)[源代码]

基类: airflow.sensors.base.BaseSensorOperator

检查 Google Cloud Dataflow 中与单个作业相关的指标。

另请参阅

有关如何使用此 Operator 的更多信息,请参阅指南: Sensors(传感器)

参数:
  • job_id (str) – 要检查的作业 ID。

  • callback (Callable | None) – 回调函数,它将使用读取的作业指标列表调用。它可以执行您希望的任何操作。请参阅: https://cloud.google.com/dataflow/docs/reference/rest/v1b3/MetricUpdate

  • fail_on_terminal_state (bool) – 如果设置为 true,当作业处于终端状态时,传感器将引发 Exception。

  • project_id (str) – 可选,要在其中启动作业的 Google Cloud 项目 ID。如果设置为 None 或缺失,则使用 Google Cloud 连接中的默认 project_id。

  • location (str) – Dataflow 作业的位置(例如 europe-west1)。请参阅: https://cloud.google.com/dataflow/docs/concepts/regional-endpoints

  • gcp_conn_id (str) – 用于连接 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务账号,使用短期凭据模拟,或用于获取列表中最后一个账号的 access_token 的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,则原始账号必须授予此账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须授予直接前一个身份 Service Account Token Creator IAM 角色,列表中第一个账号授予此角色给原始账号(模版化)。

  • deferrable (bool) – 如果为 True,则在 deferrable 模式下运行传感器。

  • poll_interval (int) – 两次连续检查作业之间等待的时间(秒)。

template_fields: collections.abc.Sequence[str] = ('job_id',)[源代码]
job_id[源代码]
project_id = None[源代码]
callback = None[源代码]
fail_on_terminal_state = True[源代码]
location = 'us-central1'[源代码]
gcp_conn_id = 'google_cloud_default'[源代码]
impersonation_chain = None[源代码]
deferrable = True[源代码]
poll_interval = 10[源代码]
poke(context)[源代码]

从该类派生时覆盖此方法。

execute(context)[源代码]

Airflow 在工作器上运行此方法,并使用触发器进行延迟。

execute_complete(context, event)[源代码]

当任务在延迟后在工作器上恢复执行时,执行此方法。

如果触发器返回带有成功状态的事件 - 将事件结果传递给回调函数。如果没有提供回调函数,则返回事件结果。

如果触发器返回带有错误状态的事件 - 引发异常。

property hook: airflow.providers.google.cloud.hooks.dataflow.DataflowHook[源代码]
class airflow.providers.google.cloud.sensors.dataflow.DataflowJobMessagesSensor(*, job_id, callback=None, fail_on_terminal_state=True, project_id=PROVIDE_PROJECT_ID, location=DEFAULT_DATAFLOW_LOCATION, gcp_conn_id='google_cloud_default', impersonation_chain=None, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), poll_interval=10, **kwargs)[源代码]

基类: airflow.sensors.base.BaseSensorOperator

检查 Google Cloud Dataflow 中与单个作业相关的作业消息。

另请参阅

有关如何使用此 Operator 的更多信息,请参阅指南: Sensors(传感器)

参数:
  • job_id (str) – 要检查的 Dataflow 作业 ID。

  • callback (Callable | None) – 一个函数,可以接受序列化的作业消息列表。它可以执行您希望它做的任何事情。如果未提供回调函数,则在成功完成时,任务将以 True 值退出。有关作业消息内容的更多信息,请参阅: https://cloud.google.com/python/docs/reference/dataflow/latest/google.cloud.dataflow_v1beta3.types.JobMessage

  • fail_on_terminal_state (bool) – 如果设置为 True,当作业达到终端状态时,传感器将引发异常。不会返回任何作业消息。

  • project_id (str) – 可选,要在其中启动作业的 Google Cloud 项目 ID。如果设置为 None 或缺失,则使用 Google Cloud 连接中的默认 project_id。

  • location (str) – Dataflow 作业的位置(例如 europe-west1)。如果设置为 None,则将使用 DEFAULT_DATAFLOW_LOCATION 的值。请参阅: https://cloud.google.com/dataflow/docs/concepts/regional-endpoints

  • gcp_conn_id (str) – 用于连接 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务账号,使用短期凭据模拟,或用于获取列表中最后一个账号的 access_token 的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,则原始账号必须授予此账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须授予直接前一个身份 Service Account Token Creator IAM 角色,列表中第一个账号授予此角色给原始账号(模版化)。

  • deferrable (bool) – 如果为 True,则在 deferrable 模式下运行传感器。

  • poll_interval (int) – 两次连续检查作业之间等待的时间(秒)。

template_fields: collections.abc.Sequence[str] = ('job_id',)[源代码]
job_id[源代码]
project_id = None[源代码]
callback = None[源代码]
fail_on_terminal_state = True[源代码]
location = 'us-central1'[源代码]
gcp_conn_id = 'google_cloud_default'[源代码]
impersonation_chain = None[源代码]
deferrable = True[源代码]
poll_interval = 10[源代码]
poke(context)[源代码]

从该类派生时覆盖此方法。

execute(context)[源代码]

Airflow 在工作器上运行此方法,并使用触发器进行延迟。

execute_complete(context, event)[源代码]

当任务在延迟后在工作器上恢复执行时,执行此方法。

如果触发器返回带有成功状态的事件 - 将事件结果传递给回调函数。如果没有提供回调函数,则返回事件结果。

如果触发器返回带有错误状态的事件 - 引发异常。

property hook: airflow.providers.google.cloud.hooks.dataflow.DataflowHook[源代码]
class airflow.providers.google.cloud.sensors.dataflow.DataflowJobAutoScalingEventsSensor(*, job_id, callback=None, fail_on_terminal_state=True, project_id=PROVIDE_PROJECT_ID, location=DEFAULT_DATAFLOW_LOCATION, gcp_conn_id='google_cloud_default', impersonation_chain=None, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), poll_interval=60, **kwargs)[source]

基类: airflow.sensors.base.BaseSensorOperator

检查 Google Cloud Dataflow 中与单个作业相关的自动伸缩事件。

另请参阅

有关如何使用此 Operator 的更多信息,请参阅指南:传感器

参数:
  • job_id (str) – 要检查的 Dataflow 作业 ID。

  • callback (Callable | None) – 一个函数,可以接受一个序列化的自动扩缩事件列表。它可以执行任何你希望它执行的操作。如果未提供回调函数,则在成功完成时任务将以 True 值退出。有关自动扩缩事件内容的更多信息,请参见:https://cloud.google.com/python/docs/reference/dataflow/latest/google.cloud.dataflow_v1beta3.types.AutoscalingEvent

  • fail_on_terminal_state (bool) – 如果设置为 True,当作业达到终止状态时,传感器将抛出异常。不会返回任何自动扩缩事件。

  • project_id (str) – 可选,要在其中启动作业的 Google Cloud 项目 ID。如果设置为 None 或缺失,则使用 Google Cloud 连接中的默认 project_id。

  • location (str) – Dataflow 作业的位置(例如 europe-west1)。如果设置为 None,则将使用 DEFAULT_DATAFLOW_LOCATION 的值。请参阅: https://cloud.google.com/dataflow/docs/concepts/regional-endpoints

  • gcp_conn_id (str) – 用于连接 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务账号,使用短期凭据模拟,或用于获取列表中最后一个账号的 access_token 的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,则原始账号必须授予此账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须授予直接前一个身份 Service Account Token Creator IAM 角色,列表中第一个账号授予此角色给原始账号(模版化)。

  • deferrable (bool) – 如果为 True,则在 deferrable 模式下运行传感器。

  • poll_interval (int) – 两次连续检查作业之间等待的时间(秒)。

template_fields: collections.abc.Sequence[str] = ('job_id',)[source]
job_id[source]
project_id = None[source]
callback = None[source]
fail_on_terminal_state = True[source]
location = 'us-central1'[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
deferrable = True[source]
poll_interval = 60[source]
poke(context)[source]

从该类派生时覆盖此方法。

execute(context)[source]

Airflow 在工作器上运行此方法,并使用触发器进行延迟。

execute_complete(context, event)[source]

当任务在延迟后在工作器上恢复执行时,执行此方法。

如果触发器返回带有成功状态的事件 - 将事件结果传递给回调函数。如果没有提供回调函数,则返回事件结果。

如果触发器返回带有错误状态的事件 - 引发异常。

property hook: airflow.providers.google.cloud.hooks.dataflow.DataflowHook[source]

此条目有帮助吗?