airflow.providers.google.cloud.sensors.bigquery

此模块包含 Google BigQuery 传感器。

BigQueryTableExistenceSensor

检查 Google Bigquery 中是否存在某个表。

BigQueryTablePartitionExistenceSensor

检查 Google Bigquery 中某个表内是否存在某个分区。

模块内容

class airflow.providers.google.cloud.sensors.bigquery.BigQueryTableExistenceSensor(*, project_id, dataset_id, table_id, gcp_conn_id='google_cloud_default', impersonation_chain=None, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[source]

基类: airflow.sensors.base.BaseSensorOperator

检查 Google Bigquery 中是否存在某个表。

参数:
  • project_id (str) – 要查找表的 Google 云项目。提供给 hook 的连接必须能访问指定的项目。

  • dataset_id (str) – 要查找表的数据集名称。存储桶。

  • table_id (str) – 要检查其存在性的表的名称。

  • gcp_conn_id (str) – (可选) 用于连接到 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务账号,用于使用短期凭据模拟身份,或按顺序链接的账号列表,需要这些账号来获取列表中最后一个账号的 access_token,该账号将在请求中被模拟身份。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,列表中的身份必须授予 Service Account Token Creator IAM 角色给直接前一个身份,列表中第一个账号将此角色授予发起账号 (可模板化)。

template_fields: collections.abc.Sequence[str] = ('project_id', 'dataset_id', 'table_id', 'impersonation_chain')[source]
ui_color = '#f0eee4'[source]
project_id[source]
dataset_id[source]
table_id[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
deferrable = True[source]
poke(context)[source]

继承此类时覆盖此方法。

execute(context)[source]

Airflow 在 worker 上运行此方法,并使用 trigger 进行延迟。

execute_complete(context, event=None)[source]

当 trigger 触发时作为回调函数 - 立即返回。

依赖 trigger 抛出异常,否则假定执行成功。

class airflow.providers.google.cloud.sensors.bigquery.BigQueryTablePartitionExistenceSensor(*, project_id, dataset_id, table_id, partition_id, gcp_conn_id='google_cloud_default', impersonation_chain=None, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[source]

基类: airflow.sensors.base.BaseSensorOperator

检查 Google Bigquery 中某个表内是否存在某个分区。

参数:
  • project_id (str) – 要查找表的 Google 云项目。提供给 hook 的连接必须能访问指定的项目。

  • dataset_id (str) – 要查找表的数据集名称。存储桶。

  • table_id (str) – 要检查其存在性的表的名称。

  • partition_id (str) – 要检查其存在性的分区的名称。

  • gcp_conn_id (str) – (可选) 用于连接到 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务账号,用于使用短期凭据模拟身份,或按顺序链接的账号列表,需要这些账号来获取列表中最后一个账号的 access_token,该账号将在请求中被模拟身份。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,列表中的身份必须授予 Service Account Token Creator IAM 角色给直接前一个身份,列表中第一个账号将此角色授予发起账号 (可模板化)。

template_fields: collections.abc.Sequence[str] = ('project_id', 'dataset_id', 'table_id', 'partition_id', 'impersonation_chain')[source]
ui_color = '#f0eee4'[source]
project_id[source]
dataset_id[source]
table_id[source]
partition_id[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
deferrable = True[source]
poke(context)[source]

继承此类时覆盖此方法。

execute(context)[source]

如果 deferrable 为 True,Airflow 会在 worker 上运行此方法,并使用 triggers 进行延迟。

execute_complete(context, event=None)[source]

当 trigger 触发时作为回调函数 - 立即返回。

依赖 trigger 抛出异常,否则假定执行成功。

此条目是否有帮助?