airflow.providers.amazon.aws.operators.glue_crawler

模块内容

GlueCrawlerOperator

创建、更新并触发 AWS Glue 爬虫。

class airflow.providers.amazon.aws.operators.glue_crawler.GlueCrawlerOperator(config, poll_interval=5, wait_for_completion=True, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[源代码]

基类:airflow.providers.amazon.aws.operators.base_aws.AwsBaseOperator[airflow.providers.amazon.aws.hooks.glue_crawler.GlueCrawlerHook]

创建、更新并触发 AWS Glue 爬虫。

AWS Glue 爬虫是一种无服务器服务,它管理元数据表的目录,其中包含 AWS 云中数据存储的推断模式、格式和数据类型。

另请参阅

有关如何使用此操作符的更多信息,请查看以下指南:创建 AWS Glue 爬虫

参数
  • config – AWS Glue 爬虫的配置

  • poll_interval (int) – 检查爬虫状态的两次连续调用之间等待的时间(以秒为单位)

  • wait_for_completion (bool) – 是否等待爬取执行完成。(默认值: True)

  • deferrable (bool) – 如果为 True,操作符将异步等待爬取完成。这意味着等待完成。此模式需要安装 aiobotocore 模块。(默认值: False)

  • aws_conn_id – 用于 AWS 凭证的 Airflow 连接。如果此值为 None 或为空,则使用默认的 boto3 行为。如果在分布式环境中运行 Airflow,且 aws_conn_id 为 None 或为空,则将使用默认的 boto3 配置(且必须在每个 worker 节点上维护)。

  • region_name – AWS region_name。如果未指定,则使用默认的 boto3 行为。

  • verify – 是否验证 SSL 证书。参见:https://boto3.amazonaws.com/v1/documentation/api/latest/reference/core/session.html

  • botocore_config – botocore 客户端的配置字典(键值对)。参见:https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html

aws_hook_class[源代码]
template_fields: collections.abc.Sequence[str][源代码]
ui_color = '#ededed'[源代码]
execute(context)[源代码]

从 Airflow 执行 AWS Glue 爬虫。

返回

当前 Glue 爬虫的名称。

返回类型

str

execute_complete(context, event=None)[源代码]

此条目是否有帮助?