airflow.providers.amazon.aws.operators.glue_crawler

GlueCrawlerOperator

创建、更新和触发 AWS Glue Crawler。

模块内容

class airflow.providers.amazon.aws.operators.glue_crawler.GlueCrawlerOperator(config, poll_interval=5, wait_for_completion=True, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[source]

基类: airflow.providers.amazon.aws.operators.base_aws.AwsBaseOperator[airflow.providers.amazon.aws.hooks.glue_crawler.GlueCrawlerHook]

创建、更新和触发 AWS Glue Crawler。

AWS Glue Crawler 是一项无服务器服务,它管理包含 AWS 云中数据存储推断模式、格式和数据类型的元数据表目录。

另请参阅

有关如何使用此 operator 的更多信息,请参阅指南:创建 AWS Glue crawler

参数:
  • config – AWS Glue crawler 的配置

  • poll_interval (int) – 两次检查 crawler 状态的连续调用之间的等待时间(秒)

  • wait_for_completion (bool) – 是否等待抓取执行完成。(默认值:True)

  • deferrable (bool) – 如果为 True,则 operator 将异步等待抓取完成。这意味着需要等待完成。此模式需要安装 aiobotocore 模块。(默认值:False)

  • aws_conn_id – 用于 AWS 凭证的 Airflow 连接。如果为 None 或空,则使用默认的 boto3 行为。如果以分布式方式运行 Airflow 且 aws_conn_id 为 None 或空,则将使用默认的 boto3 配置(并且必须在每个工作节点上维护)。

  • region_name – AWS region_name。如果未指定,则使用默认的 boto3 行为。

  • verify – 是否验证 SSL 证书。请参阅:https://boto3.amazonaws.com/v1/documentation/api/latest/reference/core/session.html

  • botocore_config – botocore 客户端的配置字典(键值对)。请参阅:https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html

aws_hook_class[source]
template_fields: collections.abc.Sequence[str][source]
ui_color = '#ededed'[source]
poll_interval = 5[source]
wait_for_completion = True[source]
deferrable = True[source]
config[source]
execute(context)[source]

从 Airflow 执行 AWS Glue Crawler。

返回:

当前 glue crawler 的名称。

返回类型:

str

execute_complete(context, event=None)[source]

此条目有帮助吗?