airflow.providers.google.cloud.operators.translate
¶
此模块包含 Google 翻译操作符。
模块内容¶
类¶
翻译一个字符串或字符串列表。 |
|
翻译适量文本内容,对于大量文本,请使用 TranslateTextBatchOperator。 |
|
通过提供的输入翻译大量文本内容。 |
|
创建 Google Cloud 翻译数据集。 |
|
获取项目中原生 Google Cloud Translation 数据集的列表。 |
|
将数据导入翻译数据集。 |
|
删除翻译数据集及其所有内容。 |
|
创建 Google Cloud 翻译模型。 |
|
获取项目中原生 Google Cloud Translation 模型的列表。 |
|
删除翻译模型及其所有内容。 |
|
翻译提供的文档。 |
|
通过输入和输出配置翻译提供的文档。 |
- class airflow.providers.google.cloud.operators.translate.CloudTranslateTextOperator(*, values, target_language, format_, source_language, model, gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[源代码]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
翻译一个字符串或字符串列表。
另请参阅
有关如何使用此操作符的更多信息,请参阅指南:CloudTranslateTextOperator
请参阅 https://cloud.google.com/translate/docs/translating-text
执行方法返回 str 或 list。
这是一个针对每个查询值的字典列表。每个字典通常包含三个键(尽管并非所有情况下都会出现所有键)
detectedSourceLanguage
:文本的检测到的语言(作为 ISO 639-1 语言代码)。translatedText
:文本到目标语言的翻译。input
:对应的输入值。model
:用于翻译文本的模型。
如果仅传递单个值,则仅将单个字典设置为 XCom 返回值。
- 参数
values (list[str] | str) – 要翻译的字符串或字符串列表。
target_language (str) – 将结果翻译成的语言。这是 API 所必需的。
format – (可选)
text
或html
之一,用于指定输入文本是纯文本还是 HTML。source_language (str | None) – (可选)要翻译的文本的语言。
model (str) – (可选)用于翻译文本的模型,例如
'base'
或'nmt'
。impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐户,用于使用短期凭据进行模拟,或用于获取列表中最后一个帐户的 access_token 所需的链式帐户列表,该帐户将在请求中模拟。 如果设置为字符串,则帐户必须向原始帐户授予服务帐户令牌创建者 IAM 角色。 如果设置为序列,则列表中的标识必须向直接前一个标识授予服务帐户令牌创建者 IAM 角色,列表中的第一个帐户将此角色授予原始帐户(已模板化)。
- class airflow.providers.google.cloud.operators.translate.TranslateTextOperator(*, contents, source_language_code=None, target_language_code, mime_type=None, location=None, project_id=PROVIDE_PROJECT_ID, model=None, transliteration_config=None, glossary_config=None, labels=None, timeout=DEFAULT, retry=DEFAULT, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
翻译适量文本内容,对于大量文本,请使用 TranslateTextBatchOperator。
封装 Google Cloud Translate Text (高级) 功能。请参阅 https://cloud.google.com/translate/docs/advanced/translating-text-v3
- 有关如何使用此操作符的更多信息,请查看指南
- 参数
project_id (str) – 可选。服务所属的 Google Cloud 项目 ID。
location (str | None) – 可选。服务所属的 Google Cloud 位置 ID。如果未指定,则使用 “global”。对于使用 AutoML 模型或自定义词汇表的请求,需要使用非全局位置。
contents (collections.abc.Sequence[str]) – 必需。要翻译的内容字符串序列。建议限制为 1024 项,总共 30,000 个代码点。
mime_type (str | None) – 可选。源文本的格式。如果留空,MIME 类型默认为 “text/html”。
source_language_code (str | None) – 可选。如果已知,则为输入文本的 ISO-639 语言代码。如果未指定,则尝试自动识别。
target_language_code (str) – 必需。用于翻译输入文本的 ISO-639 语言代码。
model (str | None) –
可选。此翻译请求的
model
类型。如果未提供,将使用默认的 Google 模型 (NMT)。格式取决于模型类型AutoML 翻译模型:
projects/{project-number-or-id}/locations/{location-id}/models/{model-id}
通用(内置)模型:
projects/{project-number-or-id}/locations/{location-id}/models/general/nmt
翻译 LLM 模型:
projects/{project-number-or-id}/locations/{location-id}/models/general/translation-llm
对于全局(非区域)请求,请使用 ‘global’
location-id
。glossary_config (google.cloud.translate_v3.types.TranslateTextGlossaryConfig | None) – 可选。要应用的词汇表。
transliteration_config (google.cloud.translate_v3.types.TransliterationConfig | None) – 可选。要应用的音译。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault | None) – 指定应该重试哪些错误(如果有)。
timeout (float | google.api_core.gapic_v1.method._MethodDefault) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应该与请求一起发送的字符串,作为元数据。
gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。使用短期凭据模拟的服务帐户,或者获取列表中最后一个帐户的 access_token 所需的帐户链表,该 access_token 将在请求中模拟。如果设置为字符串,则该帐户必须授予原始帐户 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予紧邻的前一个身份,列表中的第一个帐户将此角色授予原始帐户(已模板化)。
- class airflow.providers.google.cloud.operators.translate.TranslateTextBatchOperator(*, project_id=PROVIDE_PROJECT_ID, location, target_language_codes, source_language_code, input_configs, output_config, models=None, glossaries=None, labels=None, metadata=(), timeout=DEFAULT, retry=DEFAULT, gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
通过提供的输入翻译大量文本内容。
封装 Google Cloud Translate Text (高级) 功能。请参阅 https://cloud.google.com/translate/docs/advanced/batch-translation
有关如何使用此操作符的更多信息,请查看指南:TranslateTextBatchOperator。
- 参数
project_id (str) – 可选。服务所属的 Google Cloud 项目 ID。如果未指定,将使用 hook project_id。
location (str) – 必需。服务所属的 Google Cloud 位置 ID(非全局)。
source_language_code (str) – 必需。源语言代码。
target_language_codes (collections.abc.MutableSequence[str]) – 必需。此处最多允许 10 个语言代码。
input_configs (collections.abc.MutableSequence[google.cloud.translate_v3.types.InputConfig | dict]) – 必需。输入配置。匹配的文件总数应 <= 100。内容总大小应 <= 100M Unicode 代码点。这些文件必须使用 UTF-8 编码。
models (str | None) –
可选。用于翻译的模型。键是目标语言代码,值是模型名称。值可以是内置的通用模型,也可以是 AutoML 翻译模型。值的格式取决于模型类型。
AutoML 翻译模型:
projects/{project-number-or-id}/locations/{location-id}/models/{model-id}
通用(内置)模型:
projects/{project-number-or-id}/locations/{location-id}/models/general/nmt
如果映射为空,或者没有为特定语言对请求特定模型,则使用默认的 Google 模型 (NMT)。
output_config (google.cloud.translate_v3.types.OutputConfig | dict) – 必需。输出配置。
glossaries (collections.abc.MutableMapping[str, google.cloud.translate_v3.types.TranslateTextGlossaryConfig] | None) – 可选。用于翻译的词汇表。它以目标语言代码为键。
labels (collections.abc.MutableMapping[str, str] | None) – 可选。带有用户定义元数据的标签。有关更多信息,请参阅 https://cloud.google.com/translate/docs/advanced/labels。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault | None) – 指定应该重试哪些错误(如果有)。
timeout (float | google.api_core.gapic_v1.method._MethodDefault) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应该与请求一起发送的字符串,作为元数据。
gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。使用短期凭据模拟的服务帐户,或者获取列表中最后一个帐户的 access_token 所需的帐户链表,该 access_token 将在请求中模拟。如果设置为字符串,则该帐户必须授予原始帐户 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予紧邻的前一个身份,列表中的第一个帐户将此角色授予原始帐户(已模板化)。
- template_fields: collections.abc.Sequence[str] = ('input_configs', 'target_language_codes', 'source_language_code', 'models', 'glossaries',...[源代码]¶
- class airflow.providers.google.cloud.operators.translate.TranslateCreateDatasetOperator(*, project_id=PROVIDE_PROJECT_ID, location, dataset, metadata=(), timeout=DEFAULT, retry=DEFAULT, gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[源代码]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
创建 Google Cloud 翻译数据集。
使用 API V3 创建 原生 翻译数据集。有关如何使用此运算符的更多信息,请查看指南:TranslateCreateDatasetOperator。
- 参数
dataset (dict | google.cloud.translate_v3.types.automl_translation.Dataset) – 要创建的数据集。如果提供 dict,则它必须对应于 automl_translation.Dataset 类型。
project_id (str) – 数据集所在的 Google Cloud 项目 ID。如果未提供,则使用默认的 project_id。
location (str) – 项目的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault | None) – 指定应该重试哪些错误(如果有)。
timeout (float | google.api_core.gapic_v1.method._MethodDefault) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应该与请求一起发送的字符串,作为元数据。
gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。使用短期凭据模拟的服务帐户,或者获取列表中最后一个帐户的 access_token 所需的帐户链表,该 access_token 将在请求中模拟。如果设置为字符串,则该帐户必须授予原始帐户 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予紧邻的前一个身份,列表中的第一个帐户将此角色授予原始帐户(已模板化)。
- template_fields: collections.abc.Sequence[str] = ('dataset', 'location', 'project_id', 'gcp_conn_id', 'impersonation_chain')[源代码]¶
- class airflow.providers.google.cloud.operators.translate.TranslateDatasetsListOperator(*, project_id=PROVIDE_PROJECT_ID, location, metadata=(), timeout=DEFAULT, retry=DEFAULT, gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[源代码]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
获取项目中原生 Google Cloud Translation 数据集的列表。
使用 API V3 获取项目的 原生 翻译数据集列表。有关如何使用此运算符的更多信息,请查看指南:TranslateDatasetsListOperator。
- 参数
project_id (str) – 数据集所在的 Google Cloud 项目 ID。如果未提供,则使用默认的 project_id。
location (str) – 项目的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应该重试哪些错误(如果有)。
timeout (float | google.api_core.gapic_v1.method._MethodDefault) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应该与请求一起发送的字符串,作为元数据。
gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。使用短期凭据模拟的服务帐户,或者获取列表中最后一个帐户的 access_token 所需的帐户链表,该 access_token 将在请求中模拟。如果设置为字符串,则该帐户必须授予原始帐户 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予紧邻的前一个身份,列表中的第一个帐户将此角色授予原始帐户(已模板化)。
- template_fields: collections.abc.Sequence[str] = ('location', 'project_id', 'gcp_conn_id', 'impersonation_chain')[源代码]¶
- class airflow.providers.google.cloud.operators.translate.TranslateImportDataOperator(*, dataset_id, location, input_config, project_id=PROVIDE_PROJECT_ID, metadata=(), timeout=None, retry=DEFAULT, gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
将数据导入翻译数据集。
使用 API V3 将数据加载到翻译数据集中。有关如何使用此操作符的更多信息,请参阅指南:TranslateImportDataOperator。
- 参数
dataset_id (str) – 要将数据导入的目标原生数据集的 dataset_id。
input_config (dict | google.cloud.translate_v3.types.DatasetInputConfig) – 翻译语言对文件的所需输入位置。如果提供 dict,则必须遵循 DatasetInputConfig 的结构。如果提供 dict,则其格式必须与 protobuf 消息 InputConfig 相同。
project_id (str) – 数据集所在的 Google Cloud 项目 ID。如果未提供,则使用默认的 project_id。
location (str) – 项目的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应该重试哪些错误(如果有)。
timeout (float | None) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应该与请求一起发送的字符串,作为元数据。
gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。使用短期凭据模拟的服务帐户,或者获取列表中最后一个帐户的 access_token 所需的帐户链表,该 access_token 将在请求中模拟。如果设置为字符串,则该帐户必须授予原始帐户 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予紧邻的前一个身份,列表中的第一个帐户将此角色授予原始帐户(已模板化)。
- template_fields: collections.abc.Sequence[str] = ('dataset_id', 'input_config', 'location', 'project_id', 'gcp_conn_id', 'impersonation_chain')[source]¶
- class airflow.providers.google.cloud.operators.translate.TranslateDeleteDatasetOperator(*, dataset_id, location, project_id=PROVIDE_PROJECT_ID, metadata=(), timeout=None, retry=DEFAULT, gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
删除翻译数据集及其所有内容。
使用 API V3 删除翻译数据集及其数据。有关如何使用此操作符的更多信息,请参阅指南:TranslateDeleteDatasetOperator。
- 参数
dataset_id (str) – 要删除的目标原生数据集的 dataset_id。
location (str) – 项目的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应该重试哪些错误(如果有)。
timeout (float | None) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应该与请求一起发送的字符串,作为元数据。
gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。使用短期凭据模拟的服务帐户,或者获取列表中最后一个帐户的 access_token 所需的帐户链表,该 access_token 将在请求中模拟。如果设置为字符串,则该帐户必须授予原始帐户 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予紧邻的前一个身份,列表中的第一个帐户将此角色授予原始帐户(已模板化)。
- template_fields: collections.abc.Sequence[str] = ('dataset_id', 'location', 'project_id', 'gcp_conn_id', 'impersonation_chain')[source]¶
- class airflow.providers.google.cloud.operators.translate.TranslateCreateModelOperator(*, project_id=PROVIDE_PROJECT_ID, location, dataset_id, display_name, timeout=None, retry=DEFAULT, gcp_conn_id='google_cloud_default', metadata=(), impersonation_chain=None, **kwargs)[source]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
创建 Google Cloud 翻译模型。
使用 API V3 创建一个 native 翻译模型。有关如何使用此操作符的更多信息,请参阅指南:TranslateCreateModelOperator。
- 参数
dataset_id (str) – 用于模型训练的数据集 ID。
project_id (str) – 数据集所在的 Google Cloud 项目 ID。如果未提供,则使用默认的 project_id。
location (str) – 项目的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应该重试哪些错误(如果有)。
timeout (float | None) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应该与请求一起发送的字符串,作为元数据。
gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。使用短期凭据模拟的服务帐户,或者获取列表中最后一个帐户的 access_token 所需的帐户链表,该 access_token 将在请求中模拟。如果设置为字符串,则该帐户必须授予原始帐户 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予紧邻的前一个身份,列表中的第一个帐户将此角色授予原始帐户(已模板化)。
- template_fields: collections.abc.Sequence[str] = ('dataset_id', 'location', 'project_id', 'gcp_conn_id', 'impersonation_chain')[source]¶
- class airflow.providers.google.cloud.operators.translate.TranslateModelsListOperator(*, project_id=PROVIDE_PROJECT_ID, location, metadata=(), timeout=DEFAULT, retry=DEFAULT, gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
获取项目中原生 Google Cloud Translation 模型的列表。
使用 API V3 获取项目的原生翻译模型列表。有关如何使用此操作符的更多信息,请查看指南:TranslateModelsListOperator。
- 参数
project_id (str) – 数据集所在的 Google Cloud 项目 ID。如果未提供,则使用默认的 project_id。
location (str) – 项目的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应该重试哪些错误(如果有)。
timeout (float | google.api_core.gapic_v1.method._MethodDefault) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应该与请求一起发送的字符串,作为元数据。
gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。使用短期凭据模拟的服务帐户,或者获取列表中最后一个帐户的 access_token 所需的帐户链表,该 access_token 将在请求中模拟。如果设置为字符串,则该帐户必须授予原始帐户 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予紧邻的前一个身份,列表中的第一个帐户将此角色授予原始帐户(已模板化)。
- template_fields: collections.abc.Sequence[str] = ('location', 'project_id', 'gcp_conn_id', 'impersonation_chain')[source]¶
- class airflow.providers.google.cloud.operators.translate.TranslateDeleteModelOperator(*, model_id, location, project_id=PROVIDE_PROJECT_ID, metadata=(), timeout=None, retry=DEFAULT, gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
删除翻译模型及其所有内容。
使用 API V3 删除翻译模型及其数据。有关如何使用此操作符的更多信息,请查看指南:TranslateDeleteModelOperator。
- 参数
model_id (str) – 要删除的目标原生模型的 model_id。
location (str) – 项目的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应该重试哪些错误(如果有)。
timeout (float | None) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应该与请求一起发送的字符串,作为元数据。
gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。使用短期凭据模拟的服务帐户,或者获取列表中最后一个帐户的 access_token 所需的帐户链表,该 access_token 将在请求中模拟。如果设置为字符串,则该帐户必须授予原始帐户 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予紧邻的前一个身份,列表中的第一个帐户将此角色授予原始帐户(已模板化)。
- template_fields: collections.abc.Sequence[str] = ('model_id', 'location', 'project_id', 'gcp_conn_id', 'impersonation_chain')[source]¶
- class airflow.providers.google.cloud.operators.translate.TranslateDocumentOperator(*, location=None, project_id=PROVIDE_PROJECT_ID, source_language_code=None, target_language_code, document_input_config, document_output_config, customized_attribution=None, is_translate_native_pdf_only=False, enable_shadow_removal_native_pdf=False, enable_rotation_correction=False, model=None, glossary_config=None, labels=None, timeout=DEFAULT, retry=DEFAULT, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
翻译提供的文档。
封装 Google Cloud Translate Text(高级)功能。支持各种输入/输出文件类型,请访问 https://cloud.google.com/translate/docs/advanced/translate-documents 了解更多详情。
- 有关如何使用此操作符的更多信息,请查看指南
- 参数
project_id (str) – 可选。服务所属的 Google Cloud 项目 ID。如果未指定,将使用 hook project_id。
source_language_code (str | None) – 可选。如果已知,则为输入文档文本的 ISO-639 语言代码。如果未指定源语言,API 会尝试自动识别源语言并在响应中返回源语言。
target_language_code (str) – 必需。用于翻译输入文档文本的 ISO-639 语言代码。
location (str | None) – 可选。用于进行调用的项目或位置。必须引用调用者的项目。如果未指定,则使用“global”。使用 AutoML 模型或自定义词汇表进行请求时,需要非全局位置。模型和词汇表必须位于同一区域内(具有相同的位置 ID)。
document_input_config (google.cloud.translate_v3.types.DocumentInputConfig | dict) – 文档翻译请求输入配置。
document_output_config (google.cloud.translate_v3.types.DocumentOutputConfig | dict | None) – 可选。文档翻译请求输出配置。如果未提供,则翻译后的文件将仅通过字节流返回,并且其输出 MIME 类型将与输入文件的 MIME 类型相同。
customized_attribution (str | None) – 可选。此标志用于支持用户自定义署名。如果未提供,则默认为
Machine Translated by Google
。自定义署名应遵循 https://cloud.google.com/translate/attribution#attribution_and_logos 中的规则。is_translate_native_pdf_only (bool) – 可选。为外部客户提供的参数。如果为 true,则在线原生 PDF 翻译的页面限制为 300,并且仅翻译原生 PDF 页面。
enable_shadow_removal_native_pdf (bool) – 可选。如果为 true,则使用文本移除服务器来移除原生 PDF 翻译中背景图像上的阴影文本。仅当
is_translate_native_pdf_only
和pdf_native_only
均为 False 时,才能启用阴影移除功能。enable_rotation_correction (bool) – 可选。如果为 true,则在 DVS 中启用自动旋转校正。
model (str | None) –
可选。此翻译请求的
model
类型。如果未提供,将使用默认的 Google 模型 (NMT)。格式取决于模型类型AutoML 翻译模型:
projects/{project-number-or-id}/locations/{location-id}/models/{model-id}
通用(内置)模型:
projects/{project-number-or-id}/locations/{location-id}/models/general/nmt
如果未提供,则默认使用 Google 模型 (NMT) 进行翻译。
glossary_config (google.cloud.translate_v3.types.TranslateTextGlossaryConfig | None) – 可选。要应用的词汇表。
transliteration_config – 可选。要应用的音译配置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault | None) – 指定应该重试哪些错误(如果有)。
timeout (float | google.api_core.gapic_v1.method._MethodDefault) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应该与请求一起发送的字符串,作为元数据。
gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。使用短期凭据模拟的服务帐户,或者获取列表中最后一个帐户的 access_token 所需的帐户链表,该 access_token 将在请求中模拟。如果设置为字符串,则该帐户必须授予原始帐户 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予紧邻的前一个身份,列表中的第一个帐户将此角色授予原始帐户(已模板化)。
- template_fields: collections.abc.Sequence[str] = ('source_language_code', 'target_language_code', 'document_input_config',...[源代码]¶
- class airflow.providers.google.cloud.operators.translate.TranslateDocumentBatchOperator(*, project_id=PROVIDE_PROJECT_ID, source_language_code, target_language_codes=None, location=None, input_configs, output_config, customized_attribution=None, format_conversions=None, enable_shadow_removal_native_pdf=False, enable_rotation_correction=False, models=None, glossaries=None, metadata=(), timeout=DEFAULT, retry=DEFAULT, gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[源代码]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
通过输入和输出配置翻译提供的文档。
每个操作最多支持 10 种目标语言。封装了 Google Cloud Translate Text (Advanced) 功能。请参阅 https://cloud.google.com/translate/docs/advanced/batch-translation。
有关如何使用此操作符的更多信息,请查看指南: TranslateDocumentBatchOperator。
- 参数
project_id (str) – 必需。服务所属的 Google Cloud 项目 ID。
source_language_code (str) – 可选。如果已知,则为输入文本的 ISO-639 语言代码。如果未指定源语言,则 API 会尝试自动识别源语言,并在响应中返回源语言。
target_language_codes (collections.abc.MutableSequence[str] | None) – 必需。用于翻译输入文档的 ISO-639 语言代码。在此处指定最多 10 个语言代码。
location (str | None) – 可选。用于进行调用的项目或位置。必须引用调用者的项目。如果未指定,则使用“global”。使用 AutoML 模型或自定义词汇表进行请求时,需要非全局位置。模型和词汇表必须位于同一区域内(具有相同的位置 ID)。
input_configs (collections.abc.MutableSequence[google.cloud.translate_v3.types.BatchDocumentInputConfig | dict]) – 输入配置。匹配的文件总数应 <= 100。要翻译的总内容大小应 <= 100M Unicode 代码点。这些文件必须使用 UTF-8 编码。
output_config (google.cloud.translate_v3.types.BatchDocumentOutputConfig | dict) – 输出配置。如果 2 个输入配置与同一个文件匹配(即,相同的输入路径),则不会生成重复输入的输出。
format_conversions (collections.abc.MutableMapping[str, str] | None) –
可选。应用于所有输入文件的文件格式转换映射。映射键是原始的 mime_type。映射值是翻译文档的目标 mime_type。支持的文件格式转换包括
application/pdf
到application/vnd.openxmlformats-officedocument.wordprocessingml.document
如果未指定任何内容,则输出文件将与原始文件采用相同的格式。
customized_attribution (str | None) – 可选。此标志用于支持用户自定义署名。如果未提供,则默认为
Machine Translated by Google
。自定义署名应遵循 https://cloud.google.com/translate/attribution#attribution_and_logos 中的规则。enable_shadow_removal_native_pdf (bool) – 可选。如果为 true,则使用文本移除服务器来移除原生 PDF 翻译中背景图像上的阴影文本。仅当
is_translate_native_pdf_only
和pdf_native_only
均为 False 时,才能启用阴影移除功能。enable_rotation_correction (bool) – 可选。如果为 true,则在 DVS 中启用自动旋转校正。
models (collections.abc.MutableMapping[str, str] | None) –
可选。用于翻译的模型。映射的键是目标语言代码。映射的值是模型名称。值可以是内置的通用模型,也可以是 AutoML 翻译模型。值的格式取决于模型类型
AutoML 翻译模型:
projects/{project-number-or-id}/locations/{location-id}/models/{model-id}
通用(内置)模型:
projects/{project-number-or-id}/locations/{location-id}/models/general/nmt
,
如果映射为空或未针对语言对请求特定模型,则使用默认的 Google 模型 (NMT)。
glossaries (collections.abc.MutableMapping[str, google.cloud.translate_v3.types.TranslateTextGlossaryConfig] | None) – 要应用的词汇表。它以目标语言代码为键。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault | None) – 指定应该重试哪些错误(如果有)。
timeout (float | google.api_core.gapic_v1.method._MethodDefault) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应该与请求一起发送的字符串,作为元数据。
gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。使用短期凭据模拟的服务帐户,或者获取列表中最后一个帐户的 access_token 所需的帐户链表,该 access_token 将在请求中模拟。如果设置为字符串,则该帐户必须授予原始帐户 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予紧邻的前一个身份,列表中的第一个帐户将此角色授予原始帐户(已模板化)。
- template_fields: collections.abc.Sequence[str] = ('input_configs', 'output_config', 'target_language_codes', 'source_language_code', 'models',...[源代码]¶