airflow.providers.amazon.aws.hooks.glue_crawler

GlueCrawlerHook

与 AWS Glue Crawler 交互。

模块内容

class airflow.providers.amazon.aws.hooks.glue_crawler.GlueCrawlerHook(*args, **kwargs)[source]

Bases: airflow.providers.amazon.aws.hooks.base_aws.AwsBaseHook

与 AWS Glue Crawler 交互。

提供对 boto3.client("glue") 的轻量级封装。

可以指定附加参数(例如 aws_conn_id),这些参数将传递给底层的 AwsBaseHook。

property glue_client[source]
返回:

AWS Glue 客户端

has_crawler(crawler_name)[source]

检查爬虫是否已存在。

参数:

crawler_name – 每个 AWS 账户独有的爬虫名称

返回:

如果爬虫已存在则返回 True,否则返回 False。

返回类型:

bool

get_crawler(crawler_name)[source]

获取爬虫配置。

参数:

crawler_name (str) – 每个 AWS 账户独有的爬虫名称

返回:

嵌套的爬虫配置字典

返回类型:

dict

update_crawler(**crawler_kwargs)[source]

更新爬虫配置。

参数:

crawler_kwargs – 用于定义爬虫配置的关键字参数

返回:

如果爬虫已更新则返回 True,否则返回 False

返回类型:

bool

update_tags(crawler_name, crawler_tags)[source]

更新爬虫标签。

参数:
  • crawler_name (str) – 需要更新标签的爬虫名称

  • crawler_tags (dict) – 新标签字典。如果为空,则删除所有标签

返回:

如果标签已更新则返回 True,否则返回 False

返回类型:

bool

create_crawler(**crawler_kwargs)[source]

创建一个 AWS Glue Crawler。

参数:

crawler_kwargs – 用于定义创建爬虫所用配置的关键字参数

返回:

爬虫名称

返回类型:

str

start_crawler(crawler_name)[source]

触发 AWS Glue Crawler。

参数:

crawler_name (str) – 每个 AWS 账户独有的爬虫名称

返回:

空字典

返回类型:

dict

wait_for_crawler_completion(crawler_name, poll_interval=5)[source]

等待 Glue 爬虫完成;返回最新爬取的状态,或引发 AirflowException。

参数:
  • crawler_name (str) – 每个 AWS 账户独有的爬虫名称

  • poll_interval (int) – 两次连续检查爬虫状态调用的等待时间(秒)

返回:

爬虫状态

返回类型:

str

这篇条目有用吗?