airflow.providers.amazon.aws.triggers.glue

模块内容

GlueJobCompleteTrigger

监视 Glue 作业,并在其完成时触发。

GlueCatalogPartitionTrigger

异步等待分区在 AWS Glue Catalog 中出现。

GlueDataQualityRuleSetEvaluationRunCompleteTrigger

当 AWS Glue 数据质量评估运行完成时触发。

GlueDataQualityRuleRecommendationRunCompleteTrigger

当 AWS Glue 数据质量建议运行完成时触发。

class airflow.providers.amazon.aws.triggers.glue.GlueJobCompleteTrigger(job_name, run_id, verbose, aws_conn_id, job_poll_interval)[源代码]

基类: airflow.triggers.base.BaseTrigger

监视 Glue 作业,并在其完成时触发。

参数
  • job_name (str) – glue 作业名称

  • run_id (str) – 要监视的该作业的特定运行的 ID

  • verbose (bool) – 是否在 airflow 日志中打印作业的日志

  • aws_conn_id (str | None) – 用于 AWS 凭证的 Airflow 连接。

serialize()[源代码]

返回重建此触发器所需的信息。

返回

(类路径,重新实例化所需的关键字参数)元组。

返回类型

tuple[str, dict[str, Any]]

async run()[源代码]

在异步上下文中运行触发器。

触发器应在想要触发事件时产生一个事件,并在完成时返回 None。因此,单事件触发器应先产生事件然后立即返回。

如果它产生事件,则很可能会很快恢复,但也可能不会(例如,如果工作负载正在被转移到另一个触发器进程,或者多事件触发器被用于单事件任务延迟)。

在任何情况下,Trigger 类都应假设它们将被持久化,然后依赖于在不再需要它们时调用的 cleanup()。

class airflow.providers.amazon.aws.triggers.glue.GlueCatalogPartitionTrigger(database_name, table_name, expression='', waiter_delay=60, aws_conn_id='aws_default', region_name=None, verify=None, botocore_config=None)[源代码]

基类: airflow.triggers.base.BaseTrigger

异步等待分区在 AWS Glue Catalog 中出现。

参数
  • database_name (str) – 分区所在的目录数据库的名称。

  • table_name (str) – 要等待的表的名称,支持点表示法 (my_database.my_table)

  • expression (str) – 要等待的分区子句。这会按原样传递给 AWS Glue Catalog API 的 get_partitions 函数,并支持 SQL 类似的表示法,如 ds='2015-01-01' AND type='value' 和比较运算符,如 "ds>=2015-01-01"。请参阅 https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-catalog-partitions.html #aws-glue-api-catalog-partitions-GetPartitions

  • aws_conn_id (str | None) – 存储凭证和额外配置的 Airflow 连接的 ID

  • region_name (str | None) – 可选的 aws 区域名称(例如:us-east-1)。如果未指定,则使用连接中的区域。

  • waiter_delay (int) – 两次检查之间等待的秒数。默认为 60 秒。

serialize()[源代码]

返回重建此触发器所需的信息。

返回

(类路径,重新实例化所需的关键字参数)元组。

返回类型

tuple[str, dict[str, Any]]

hook()[源代码]
async poke(client)[源代码]
async run()[源代码]

在异步上下文中运行触发器。

触发器应在想要触发事件时产生一个事件,并在完成时返回 None。因此,单事件触发器应先产生事件然后立即返回。

如果它产生事件,则很可能会很快恢复,但也可能不会(例如,如果工作负载正在被转移到另一个触发器进程,或者多事件触发器被用于单事件任务延迟)。

在任何情况下,Trigger 类都应假设它们将被持久化,然后依赖于在不再需要它们时调用的 cleanup()。

class airflow.providers.amazon.aws.triggers.glue.GlueDataQualityRuleSetEvaluationRunCompleteTrigger(evaluation_run_id, waiter_delay=60, waiter_max_attempts=75, aws_conn_id='aws_default')[源代码]

基类: airflow.providers.amazon.aws.triggers.base.AwsBaseWaiterTrigger

当 AWS Glue 数据质量评估运行完成时触发。

参数
  • evaluation_run_id (str) – AWS Glue 数据质量规则集评估运行标识符。

  • waiter_delay (int) – 尝试之间等待的时间(以秒为单位)。(默认值:60)

  • waiter_max_attempts (int) – 要进行的最大尝试次数。(默认值:75)

  • aws_conn_id (str | None) – 用于 AWS 凭证的 Airflow 连接。

hook()[源代码]

在子类中重写以返回正确的钩子。

class airflow.providers.amazon.aws.triggers.glue.GlueDataQualityRuleRecommendationRunCompleteTrigger(recommendation_run_id, waiter_delay=60, waiter_max_attempts=75, aws_conn_id='aws_default')[源代码]

基类: airflow.providers.amazon.aws.triggers.base.AwsBaseWaiterTrigger

当 AWS Glue 数据质量建议运行完成时触发。

参数
  • recommendation_run_id (str) – AWS Glue 数据质量规则推荐运行标识符。

  • waiter_delay (int) – 尝试之间等待的时间(以秒为单位)。(默认值:60)

  • waiter_max_attempts (int) – 要进行的最大尝试次数。(默认值:75)

  • aws_conn_id (str | None) – 用于 AWS 凭证的 Airflow 连接。

hook()[源代码]

在子类中重写以返回正确的钩子。

此条目是否有帮助?