airflow.providers.amazon.aws.operators.comprehend

ComprehendBaseOperator

这是 Comprehend 服务 operators 的基类 operator(不应直接在 DAGs 中使用)。

ComprehendStartPiiEntitiesDetectionJobOperator

为文档集合创建 Comprehend 个人身份信息实体检测任务。

ComprehendCreateDocumentClassifierOperator

创建可对文档进行分类的 Comprehend 文档分类器。

模块内容

class airflow.providers.amazon.aws.operators.comprehend.ComprehendBaseOperator(input_data_config, output_data_config, data_access_role_arn, language_code, **kwargs)[source]

Bases: airflow.providers.amazon.aws.operators.base_aws.AwsBaseOperator[airflow.providers.amazon.aws.hooks.comprehend.ComprehendHook]

这是 Comprehend 服务 operators 的基类 operator(不应直接在 DAGs 中使用)。

参数:
  • input_data_config (dict) – 个人身份信息实体检测任务的输入属性。(模板化)

  • output_data_config (dict) – 为个人身份信息实体检测任务的输出提供配置参数。(模板化)

  • data_access_role_arn (str) – 授予 Amazon Comprehend 读取您输入数据的 IAM 角色 Amazon Resource Name (ARN)。(模板化)

  • language_code (str) – 输入文档的语言。(模板化)

aws_hook_class[source]
template_fields: collections.abc.Sequence[str][source]
template_fields_renderers: ClassVar[dict][source]
input_data_config[source]
output_data_config[source]
data_access_role_arn[source]
language_code[source]
property client: boto3.client[source]

创建并返回 Comprehend 客户端。

abstract execute(context)[source]

必须在子类中重写。

class airflow.providers.amazon.aws.operators.comprehend.ComprehendStartPiiEntitiesDetectionJobOperator(input_data_config, output_data_config, mode, data_access_role_arn, language_code, start_pii_entities_kwargs=None, wait_for_completion=True, waiter_delay=60, waiter_max_attempts=20, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[source]

Bases: ComprehendBaseOperator

为文档集合创建 Comprehend 个人身份信息实体检测任务。

另请参阅

有关如何使用此 operator 的更多信息,请参阅指南: 创建 Amazon Comprehend 个人身份信息实体检测任务

参数:
  • input_data_config (dict) – 个人身份信息实体检测任务的输入属性。(模板化)

  • output_data_config (dict) – 为个人身份信息实体检测任务的输出提供配置参数。(模板化)

  • mode (str) – 指定输出是提供个人身份信息实体的位置 (offsets),还是提供一个已匿名化个人身份信息实体的文件。如果您将 mode 参数设置为 ONLY_REDACTION,则必须在 start_pii_entities_kwargs 中提供 RedactionConfig。

  • data_access_role_arn (str) – 授予 Amazon Comprehend 读取您输入数据的 IAM 角色 Amazon Resource Name (ARN)。(模板化)

  • language_code (str) – 输入文档的语言。(模板化)

  • start_pii_entities_kwargs (dict[str, Any] | None) – 要传递给任务的任何可选参数。如果在 start_pii_entities_kwargs 中未提供 JobName,operator 将创建它。

  • wait_for_completion (bool) – 是否等待任务停止。(默认值:True)

  • waiter_delay (int) – 两次状态检查之间等待的时间(秒)。(默认值:60)

  • waiter_max_attempts (int) – 检查任务完成的最大尝试次数。(默认值:20)

  • deferrable (bool) – 如果为 True,则 operator 将异步等待任务停止。这意味着等待完成。此模式需要安装 aiobotocore 模块。(默认值:False)

  • aws_conn_id – 用于 AWS 凭据的 Airflow 连接。如果为 None 或为空,则使用默认的 boto3 行为。如果以分布式方式运行 Airflow 且 aws_conn_id 为 None 或为空,则将使用默认的 boto3 配置(并且必须在每个 worker 节点上维护)。

  • region_name – AWS region_name。如果未指定,则使用默认的 boto3 行为。

  • verify – 是否验证 SSL 证书。请参阅: https://boto3.amazonaws.com/v1/documentation/api/latest/reference/core/session.html

  • botocore_config – botocore 客户端的配置字典(键值对)。请参阅: https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html

mode[source]
start_pii_entities_kwargs[source]
wait_for_completion = True[source]
waiter_delay = 60[source]
waiter_max_attempts = 20[source]
deferrable = True[source]
execute(context)[source]

必须在子类中重写。

execute_complete(context, event=None)[source]
class airflow.providers.amazon.aws.operators.comprehend.ComprehendCreateDocumentClassifierOperator(document_classifier_name, input_data_config, mode, data_access_role_arn, language_code, fail_on_warnings=False, output_data_config=None, document_classifier_kwargs=None, wait_for_completion=True, waiter_delay=60, waiter_max_attempts=20, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), aws_conn_id='aws_default', **kwargs)[source]

Bases: airflow.providers.amazon.aws.operators.base_aws.AwsBaseOperator[airflow.providers.amazon.aws.hooks.comprehend.ComprehendHook]

创建可对文档进行分类的 Comprehend 文档分类器。

提供一组带有类别标签的训练文档。

另请参阅

有关如何使用此 operator 的更多信息,请参阅指南: 创建 Amazon Comprehend 文档分类器

参数:
  • document_classifier_name (str) – 文档分类器的名称。(模板化)

  • input_data_config (dict[str, Any]) – 指定任务输入数据的格式和位置。(模板化)

  • mode (str) – 指示分类器将以何种模式进行训练。(模板化)

  • data_access_role_arn (str) – 授予 Amazon Comprehend 读取您输入数据的 IAM 角色 Amazon Resource Name (ARN)。(模板化)

  • language_code (str) – 输入文档的语言。您可以指定 Amazon Comprehend 支持的任何语言。所有文档必须使用相同的语言。(模板化)

  • fail_on_warnings (bool) – 如果设置为 True,当状态为 TRAINED_WITH_WARNING 时,文档分类器训练任务将抛出错误。(默认值 False)

  • output_data_config (dict[str, Any] | None) – 指定自定义分类器任务输出文件的位置。对于创建原生文档模型的请求,此参数是必需的。(模板化)

  • document_classifier_kwargs (dict[str, Any] | None) – 要传递给文档分类器的任何可选参数。(模板化)

  • wait_for_completion (bool) – 是否等待任务停止。(默认值:True)

  • waiter_delay (int) – 两次状态检查之间等待的时间(秒)。(默认值:60)

  • waiter_max_attempts (int) – 检查任务完成的最大尝试次数。(默认值:20)

  • deferrable (bool) – 如果为 True,则 operator 将异步等待任务停止。这意味着等待完成。此模式需要安装 aiobotocore 模块。(默认值:False)

  • aws_conn_id (str | None) – 用于 AWS 凭据的 Airflow 连接。如果为 None 或为空,则使用默认的 boto3 行为。如果以分布式方式运行 Airflow 且 aws_conn_id 为 None 或为空,则将使用默认的 boto3 配置(并且必须在每个 worker 节点上维护)。

  • region_name – AWS region_name。如果未指定,则使用默认的 boto3 行为。

  • verify – 是否验证 SSL 证书。请参阅: https://boto3.amazonaws.com/v1/documentation/api/latest/reference/core/session.html

  • botocore_config – botocore 客户端的配置字典(键值对)。请参阅: https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html

aws_hook_class[source]
template_fields: collections.abc.Sequence[str][source]
template_fields_renderers: ClassVar[dict][source]
document_classifier_name[source]
input_data_config[source]
mode[source]
data_access_role_arn[source]
language_code[source]
fail_on_warnings = False[source]
output_data_config = None[source]
document_classifier_kwargs[source]
wait_for_completion = True[source]
waiter_delay = 60[source]
waiter_max_attempts = 20[source]
deferrable = True[source]
aws_conn_id = 'aws_default'[source]
execute(context)[source]

创建 operator 时派生。

Context 是与渲染 jinja 模板时使用的相同的字典。

有关更多 context 信息,请参阅 get_template_context。

execute_complete(context, event=None)[source]

本条目有帮助吗?