airflow.providers.amazon.aws.operators.bedrock

模块内容

BedrockInvokeModelOperator

调用指定的 Bedrock 模型,使用提供的输入运行推理。

BedrockCustomizeModelOperator

创建微调作业以自定义基础模型。

BedrockCreateProvisionedModelThroughputOperator

创建微调作业以自定义基础模型。

BedrockCreateKnowledgeBaseOperator

创建一个知识库,其中包含 Amazon Bedrock LLM 和代理使用的数据源。

BedrockCreateDataSourceOperator

设置一个 Amazon Bedrock 数据源,以添加到 Amazon Bedrock 知识库。

BedrockIngestDataOperator

开始一个摄取作业,其中将 Amazon Bedrock 数据源添加到 Amazon Bedrock 知识库。

BedrockRaGOperator

查询知识库并根据检索到的结果和来源引文生成响应。

BedrockRetrieveOperator

查询知识库并检索带有来源引文的结果。

class airflow.providers.amazon.aws.operators.bedrock.BedrockInvokeModelOperator(model_id, input_data, content_type=None, accept_type=None, **kwargs)[源代码]

基类:airflow.providers.amazon.aws.operators.base_aws.AwsBaseOperator[airflow.providers.amazon.aws.hooks.bedrock.BedrockRuntimeHook]

调用指定的 Bedrock 模型,使用提供的输入运行推理。

使用 InvokeModel 为文本模型、图像模型和嵌入模型运行推理。要查看不同模型的 input_data 字段的格式和内容,请参阅推理参数文档

另请参阅

有关如何使用此操作符的更多信息,请查看指南:调用现有的 Amazon Bedrock 模型

参数
  • model_id (str) – Bedrock 模型的 ID。(已模板化)

  • input_data (dict[str, Any]) – 输入数据,格式在 content-type 请求头中指定。(已模板化)

  • content_type (str | None) – 请求中输入数据的 MIME 类型。(已模板化) 默认值:application/json

  • accept – 响应中推理主体的所需 MIME 类型。(已模板化) 默认值:application/json

  • aws_conn_id – 用于 AWS 凭据的 Airflow 连接。如果此项为 None 或为空,则使用默认的 boto3 行为。如果在分布式方式下运行 Airflow 且 aws_conn_id 为 None 或为空,则将使用默认的 boto3 配置(并且必须在每个工作节点上维护)。

  • region_name – AWS region_name。如果未指定,则使用默认的 boto3 行为。

  • verify – 是否验证 SSL 证书。请参阅:https://boto3.amazonaws.com/v1/documentation/api/latest/reference/core/session.html

  • botocore_config – botocore 客户端的配置字典 (键值对)。请参阅:https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html

aws_hook_class[源代码]
template_fields: collections.abc.Sequence[str][源代码]
execute(context)[源代码]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参考 get_template_context。

class airflow.providers.amazon.aws.operators.bedrock.BedrockCustomizeModelOperator(job_name, custom_model_name, role_arn, base_model_id, training_data_uri, output_data_uri, hyperparameters, ensure_unique_job_name=True, customization_job_kwargs=None, wait_for_completion=True, waiter_delay=120, waiter_max_attempts=75, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[源代码]

基类:airflow.providers.amazon.aws.operators.base_aws.AwsBaseOperator[airflow.providers.amazon.aws.hooks.bedrock.BedrockHook]

创建微调作业以自定义基础模型。

另请参阅

有关如何使用此操作符的更多信息,请查看指南:自定义现有的 Amazon Bedrock 模型

参数
  • job_name (str) – 微调作业的唯一名称。

  • custom_model_name (str) – 正在创建的自定义模型的名称。

  • role_arn (str) – IAM 角色的 Amazon 资源名称 (ARN),Amazon Bedrock 可以承担该角色来代表您执行任务。

  • base_model_id (str) – 基础模型的名称。

  • training_data_uri (str) – 存储训练数据的 S3 URI。

  • output_data_uri (str) – 存储输出数据的 S3 URI。

  • hyperparameters (dict[str, str]) – 与模型调整相关的参数。

  • ensure_unique_job_name (bool) – 如果设置为 true,操作符将检查配置中是否已存在具有该名称的模型自定义作业,如果存在名称冲突,则附加当前时间戳。(默认值:True)

  • customization_job_kwargs (dict[str, Any] | None) – 传递给 API 的任何可选参数。

  • wait_for_completion (bool) – 是否等待集群停止。(默认值:True)

  • waiter_delay (int) – 状态检查之间等待的秒数。(默认值:120)

  • waiter_max_attempts (int) – 检查作业完成情况的最大尝试次数。(默认值:75)

  • deferrable (bool) – 如果为 True,则运算符将异步等待集群停止。这意味着等待完成。此模式需要安装 aiobotocore 模块。(默认值:False)

  • aws_conn_id – 用于 AWS 凭据的 Airflow 连接。如果此项为 None 或为空,则使用默认的 boto3 行为。如果在分布式方式下运行 Airflow 且 aws_conn_id 为 None 或为空,则将使用默认的 boto3 配置(并且必须在每个工作节点上维护)。

  • region_name – AWS region_name。如果未指定,则使用默认的 boto3 行为。

  • verify – 是否验证 SSL 证书。请参阅:https://boto3.amazonaws.com/v1/documentation/api/latest/reference/core/session.html

  • botocore_config – botocore 客户端的配置字典 (键值对)。请参阅:https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html

aws_hook_class[源代码]
template_fields: collections.abc.Sequence[str][源代码]
execute_complete(context, event=None)[源代码]
execute(context)[源代码]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参考 get_template_context。

class airflow.providers.amazon.aws.operators.bedrock.BedrockCreateProvisionedModelThroughputOperator(model_units, provisioned_model_name, model_id, create_throughput_kwargs=None, wait_for_completion=True, waiter_delay=60, waiter_max_attempts=20, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[源代码]

基类:airflow.providers.amazon.aws.operators.base_aws.AwsBaseOperator[airflow.providers.amazon.aws.hooks.bedrock.BedrockHook]

创建微调作业以自定义基础模型。

另请参阅

有关如何使用此运算符的更多信息,请参阅指南:为现有 Amazon Bedrock 模型配置吞吐量

参数
  • model_units (int) – 要分配的模型单元数。(已模板化)

  • provisioned_model_name (str) – 此预配置吞吐量的唯一名称。(已模板化)

  • model_id (str) – 要与此预配置吞吐量关联的模型的名称或 ARN。(已模板化)

  • create_throughput_kwargs (dict[str, Any] | None) – 传递给 API 的任何可选参数。

  • wait_for_completion (bool) – 是否等待集群停止。(默认值:True)

  • waiter_delay (int) – 状态检查之间等待的秒数。(默认值:60)

  • waiter_max_attempts (int) – 检查作业完成情况的最大尝试次数。(默认值:20)

  • deferrable (bool) – 如果为 True,则运算符将异步等待集群停止。这意味着等待完成。此模式需要安装 aiobotocore 模块。(默认值:False)

  • aws_conn_id – 用于 AWS 凭据的 Airflow 连接。如果此项为 None 或为空,则使用默认的 boto3 行为。如果在分布式方式下运行 Airflow 且 aws_conn_id 为 None 或为空,则将使用默认的 boto3 配置(并且必须在每个工作节点上维护)。

  • region_name – AWS region_name。如果未指定,则使用默认的 boto3 行为。

  • verify – 是否验证 SSL 证书。请参阅:https://boto3.amazonaws.com/v1/documentation/api/latest/reference/core/session.html

  • botocore_config – botocore 客户端的配置字典 (键值对)。请参阅:https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html

aws_hook_class[源代码]
template_fields: collections.abc.Sequence[str][源代码]
execute(context)[源代码]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参考 get_template_context。

execute_complete(context, event=None)[源代码]
class airflow.providers.amazon.aws.operators.bedrock.BedrockCreateKnowledgeBaseOperator(name, embedding_model_arn, role_arn, storage_config, create_knowledge_base_kwargs=None, wait_for_indexing=True, indexing_error_retry_delay=5, indexing_error_max_attempts=20, wait_for_completion=True, waiter_delay=60, waiter_max_attempts=20, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[源代码]

基类:airflow.providers.amazon.aws.operators.base_aws.AwsBaseOperator[airflow.providers.amazon.aws.hooks.bedrock.BedrockAgentHook]

创建一个知识库,其中包含 Amazon Bedrock LLM 和代理使用的数据源。

要创建知识库,您必须首先设置数据源并配置受支持的向量存储。

另请参阅

有关如何使用此运算符的更多信息,请参阅指南:创建 Amazon Bedrock 知识库

参数
  • name (str) – 知识库的名称。(已模板化)

  • embedding_model_arn (str) – 用于为知识库创建向量嵌入的模型的 ARN。(已模板化)

  • role_arn (str) – 具有创建知识库权限的 IAM 角色的 ARN。(已模板化)

  • storage_config (dict[str, Any]) – 用于知识库的向量数据库的配置详细信息。(已模板化)

  • wait_for_indexing (bool) – 向量索引可能需要一些时间,并且在尝试创建知识库之前没有明显的方法来检查状态。如果此项为 True,并且由于索引不可用而导致创建失败,则运算符将等待并重试。(默认值:True)(已模板化)

  • indexing_error_retry_delay ( int ) – 如果遇到索引错误,重试之间的间隔秒数。(默认值为 5)(已模板化)

  • indexing_error_max_attempts ( int ) – 遇到索引错误时,最大重试次数。(默认值为 20)(已模板化)

  • create_knowledge_base_kwargs ( dict[str, Any] | None ) – 传递给 API 调用的任何其他可选参数。(已模板化)

  • wait_for_completion (bool) – 是否等待集群停止。(默认值:True)

  • waiter_delay (int) – 状态检查之间等待的秒数。(默认值:60)

  • waiter_max_attempts (int) – 检查作业完成情况的最大尝试次数。(默认值:20)

  • deferrable (bool) – 如果为 True,则运算符将异步等待集群停止。这意味着等待完成。此模式需要安装 aiobotocore 模块。(默认值:False)

  • aws_conn_id – 用于 AWS 凭据的 Airflow 连接。如果此项为 None 或为空,则使用默认的 boto3 行为。如果在分布式方式下运行 Airflow 且 aws_conn_id 为 None 或为空,则将使用默认的 boto3 配置(并且必须在每个工作节点上维护)。

  • region_name – AWS region_name。如果未指定,则使用默认的 boto3 行为。

  • verify – 是否验证 SSL 证书。请参阅:https://boto3.amazonaws.com/v1/documentation/api/latest/reference/core/session.html

  • botocore_config – botocore 客户端的配置字典 (键值对)。请参阅:https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html

aws_hook_class[源代码]
template_fields: collections.abc.Sequence[str][源代码]
execute_complete(context, event=None)[源代码]
execute(context)[源代码]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参考 get_template_context。

class airflow.providers.amazon.aws.operators.bedrock.BedrockCreateDataSourceOperator(name, knowledge_base_id, bucket_name=None, create_data_source_kwargs=None, **kwargs)[源代码]

基类:airflow.providers.amazon.aws.operators.base_aws.AwsBaseOperator[airflow.providers.amazon.aws.hooks.bedrock.BedrockAgentHook]

设置一个 Amazon Bedrock 数据源,以添加到 Amazon Bedrock 知识库。

另请参阅

有关如何使用此操作符的更多信息,请查看以下指南: 创建 Amazon Bedrock 数据源

参数
  • name ( str ) – 要创建的 Amazon Bedrock 数据源的名称。(已模板化)。

  • bucket_name ( str | None ) – 用于数据源存储的 Amazon S3 存储桶的名称。(已模板化)

  • knowledge_base_id ( str ) – 要向其中添加数据源的知识库的唯一标识符。(已模板化)

  • create_data_source_kwargs ( dict[str, Any] | None ) – 传递给 API 调用的任何其他可选参数。(已模板化)

  • aws_conn_id – 用于 AWS 凭据的 Airflow 连接。如果此项为 None 或为空,则使用默认的 boto3 行为。如果在分布式方式下运行 Airflow 且 aws_conn_id 为 None 或为空,则将使用默认的 boto3 配置(并且必须在每个工作节点上维护)。

  • region_name – AWS region_name。如果未指定,则使用默认的 boto3 行为。

  • verify – 是否验证 SSL 证书。请参阅:https://boto3.amazonaws.com/v1/documentation/api/latest/reference/core/session.html

  • botocore_config – botocore 客户端的配置字典 (键值对)。请参阅:https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html

aws_hook_class[源代码]
template_fields: collections.abc.Sequence[str][源代码]
execute(context)[源代码]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参考 get_template_context。

class airflow.providers.amazon.aws.operators.bedrock.BedrockIngestDataOperator(knowledge_base_id, data_source_id, ingest_data_kwargs=None, wait_for_completion=True, waiter_delay=60, waiter_max_attempts=10, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[源代码]

基类:airflow.providers.amazon.aws.operators.base_aws.AwsBaseOperator[airflow.providers.amazon.aws.hooks.bedrock.BedrockAgentHook]

开始一个摄取作业,其中将 Amazon Bedrock 数据源添加到 Amazon Bedrock 知识库。

另请参阅

有关如何使用此操作符的更多信息,请查看以下指南: 将数据提取到 Amazon Bedrock 数据源中

参数
  • knowledge_base_id ( str ) – 要向其中添加数据源的知识库的唯一标识符。(已模板化)

  • data_source_id ( str ) – 要提取的数据源的唯一标识符。(已模板化)

  • ingest_data_kwargs ( dict[str, Any] | None ) – 传递给 API 调用的任何其他可选参数。(已模板化)

  • wait_for_completion (bool) – 是否等待集群停止。(默认值:True)

  • waiter_delay (int) – 状态检查之间等待的秒数。(默认值:60)

  • waiter_max_attempts ( int ) – 检查作业完成情况的最大尝试次数。(默认值:10)

  • deferrable (bool) – 如果为 True,则运算符将异步等待集群停止。这意味着等待完成。此模式需要安装 aiobotocore 模块。(默认值:False)

  • aws_conn_id – 用于 AWS 凭据的 Airflow 连接。如果此项为 None 或为空,则使用默认的 boto3 行为。如果在分布式方式下运行 Airflow 且 aws_conn_id 为 None 或为空,则将使用默认的 boto3 配置(并且必须在每个工作节点上维护)。

  • region_name – AWS region_name。如果未指定,则使用默认的 boto3 行为。

  • verify – 是否验证 SSL 证书。请参阅:https://boto3.amazonaws.com/v1/documentation/api/latest/reference/core/session.html

  • botocore_config – botocore 客户端的配置字典 (键值对)。请参阅:https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html

aws_hook_class[源代码]
template_fields: collections.abc.Sequence[str][源代码]
execute_complete(context, event=None)[源代码]
execute(context)[源代码]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参考 get_template_context。

class airflow.providers.amazon.aws.operators.bedrock.BedrockRaGOperator(input, source_type, model_arn, prompt_template=None, knowledge_base_id=None, vector_search_config=None, sources=None, rag_kwargs=None, **kwargs)[source]

基类: airflow.providers.amazon.aws.operators.base_aws.AwsBaseOperator[airflow.providers.amazon.aws.hooks.bedrock.BedrockAgentRuntimeHook]

查询知识库并根据检索到的结果和来源引文生成响应。

注意: botocore 1.34.90 版本增加了对外部源的支持

另请参阅

有关如何使用此运算符的更多信息,请查看指南:Amazon Bedrock 检索和生成 (RaG)

参数
  • input (str) – 要对知识库执行的查询。(已模板化)

  • source_type (str) – 请求查询的资源类型。(已模板化)必须是 ‘KNOWLEDGE_BASE’ 或 ‘EXTERNAL_SOURCES’ 之一,并且还必须提供适当的配置值。如果设置为 ‘KNOWLEDGE_BASE’,则必须提供 knowledge_base_id,并且可以提供 vector_search_config。如果设置为 EXTERNAL_SOURCES,则还必须提供 sources。注意:botocore 1.34.90 版本增加了对外部源的支持

  • model_arn (str) – 用于生成响应的基础模型的 ARN。(已模板化)

  • prompt_template (str | None) – 发送到模型以生成响应的提示模板。您可以包含提示占位符,这些占位符在提示发送到模型之前会被替换,以便向模型提供说明和上下文。此外,您可以包含 XML 标签来描绘提示模板的有意义的部分。(已模板化)

  • knowledge_base_id (str | None) – 要查询的知识库的唯一标识符。(已模板化)仅当 source_type='KNOWLEDGE_BASE' 时才能指定。

  • vector_search_config (dict[str, Any] | None) – 应如何返回向量搜索的结果。(已模板化)仅当 source_type='KNOWLEDGE_BASE' 时才能指定。有关更多信息,请参阅 https://docs.aws.amazon.com/bedrock/latest/userguide/kb-test-config.html

  • sources (list[dict[str, Any]] | None) – 用作响应参考的文档。(已模板化)仅当 source_type='EXTERNAL_SOURCES' 时才能指定。注意:botocore 1.34.90 版本增加了对外部源的支持

  • rag_kwargs (dict[str, Any] | None) – 要传递给 API 调用的其他关键字参数。(已模板化)

aws_hook_class[source]
template_fields: collections.abc.Sequence[str][source]
validate_inputs()[source]
build_rag_config()[source]
execute(context)[source]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参考 get_template_context。

class airflow.providers.amazon.aws.operators.bedrock.BedrockRetrieveOperator(retrieval_query, knowledge_base_id, vector_search_config=None, retrieve_kwargs=None, **kwargs)[source]

基类: airflow.providers.amazon.aws.operators.base_aws.AwsBaseOperator[airflow.providers.amazon.aws.hooks.bedrock.BedrockAgentRuntimeHook]

查询知识库并检索带有来源引文的结果。

另请参阅

有关如何使用此运算符的更多信息,请查看指南:Amazon Bedrock 检索

参数
  • retrieval_query (str) – 要对知识库执行的查询。(已模板化)

  • knowledge_base_id (str) – 要查询的知识库的唯一标识符。(已模板化)

  • vector_search_config (dict[str, Any] | None) – 应如何返回向量搜索的结果。(已模板化)有关更多信息,请参阅 https://docs.aws.amazon.com/bedrock/latest/userguide/kb-test-config.html

  • retrieve_kwargs (dict[str, Any] | None) – 要传递给 API 调用的其他关键字参数。(已模板化)

aws_hook_class[source]
template_fields: collections.abc.Sequence[str][source]
execute(context)[source]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参考 get_template_context。

此条目是否有帮助?