airflow.providers.amazon.aws.hooks.glue_crawler

模块内容

GlueCrawlerHook

与 AWS Glue Crawler 交互。

class airflow.providers.amazon.aws.hooks.glue_crawler.GlueCrawlerHook(*args, **kwargs)[源代码]

基类: airflow.providers.amazon.aws.hooks.base_aws.AwsBaseHook

与 AWS Glue Crawler 交互。

提供对 boto3.client("glue") 的薄封装。

可以指定其他参数(例如 aws_conn_id),并将其传递给底层的 AwsBaseHook。

glue_client()[源代码]
返回

AWS Glue 客户端

has_crawler(crawler_name)[源代码]

检查爬虫是否已存在。

参数

crawler_name – 每个 AWS 账户唯一的爬虫名称

返回

如果爬虫已存在则返回 True,否则返回 False。

返回类型

bool

get_crawler(crawler_name)[源代码]

获取爬虫配置。

参数

crawler_name (str) – 每个 AWS 账户唯一的爬虫名称

返回

爬虫配置的嵌套字典

返回类型

dict

update_crawler(**crawler_kwargs)[源代码]

更新爬虫配置。

参数

crawler_kwargs – 定义用于爬虫配置的关键字参数

返回

如果爬虫已更新则为 True,否则为 false

返回类型

bool

update_tags(crawler_name, crawler_tags)[源代码]

更新爬虫标签。

参数
  • crawler_name (str) – 要更新标签的爬虫名称

  • crawler_tags (dict) – 新标签的字典。如果为空,将删除所有标签

返回

如果标签已更新则为 True,否则为 false

返回类型

bool

create_crawler(**crawler_kwargs)[源代码]

创建一个 AWS Glue Crawler。

参数

crawler_kwargs – 定义用于创建爬虫的配置的关键字参数

返回

爬虫名称

返回类型

str

start_crawler(crawler_name)[源代码]

触发 AWS Glue Crawler。

参数

crawler_name (str) – 每个 AWS 账户唯一的爬虫名称

返回

空字典

返回类型

dict

wait_for_crawler_completion(crawler_name, poll_interval=5)[源代码]

等待 Glue 爬虫完成;返回最新爬网的状态,或引发 AirflowException。

参数
  • crawler_name (str) – 每个 AWS 账户唯一的爬虫名称

  • poll_interval (int) – 两次连续调用之间等待以检查爬虫状态的时间(以秒为单位)

返回

爬虫的状态

返回类型

str

此条目是否有帮助?