airflow.providers.snowflake.transfers.copy_into_snowflake

子类实现的抽象操作符 COPY INTO <TABLE> SQL in Snowflake

模块内容

CopyFromExternalStageToSnowflakeOperator

执行 COPY INTO 命令,将云端外部 stage 中的文件加载到 Snowflake。

class airflow.providers.snowflake.transfers.copy_into_snowflake.CopyFromExternalStageToSnowflakeOperator(*, files=None, table, stage, prefix=None, file_format, schema=None, columns_array=None, pattern=None, warehouse=None, database=None, autocommit=True, snowflake_conn_id='snowflake_default', role=None, authenticator=None, session_parameters=None, copy_options=None, validation_mode=None, **kwargs)[source]

基类: airflow.models.BaseOperator

执行 COPY INTO 命令,将云端外部 stage 中的文件加载到 Snowflake。

此操作符需要 snowflake_conn_id 连接。snowflake 的主机、登录名和密码字段必须在连接中设置。其他输入可以在连接或 hook 实例化中定义。

参数
  • namespace – snowflake 命名空间

  • table (str) – snowflake 表

  • file_format (str) – 文件格式名称,例如 CSV、AVRO 等

  • stage (str) – 对特定 snowflake stage 的引用。如果 stage 的 schema 与表的不相同,则必须指定

  • prefix (str | None) – 指定的云存储位置,用于限制要加载的文件集

  • files (list | None) – 要加载到表中的文件

  • pattern (str | None) – 从外部位置加载文件到表的模式

  • snowflake_conn_id (str) – Snowflake 连接 ID 的引用

  • account – snowflake 帐户名

  • warehouse (str | None) – snowflake 仓库的名称

  • database (str | None) – snowflake 数据库的名称

  • region – snowflake 区域的名称

  • role (str | None) – snowflake 角色的名称

  • schema (str | None) – snowflake schema 的名称

  • authenticator (str | None) – Snowflake 的验证器。“snowflake”(默认)使用内部 Snowflake 验证器。“externalbrowser”使用您的 Web 浏览器和 Okta、ADFS 或任何其他与 SAML 2.0 兼容的身份提供程序 (IdP) 进行身份验证,该身份提供程序已为您的帐户定义 https://<your_okta_account_name>.okta.com 以通过本机 Okta 进行身份验证。

  • session_parameters (dict | None) – 您可以在连接到 Snowflake 时设置会话级参数

  • copy_options (str | None) – snowflake COPY INTO 语法复制选项

  • validation_mode (str | None) – snowflake COPY INTO 语法验证模式

template_fields: collections.abc.Sequence[str] = ('files',)[source]
template_fields_renderers[source]
execute(context)[source]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

get_openlineage_facets_on_complete(task_instance)[source]

实现 _on_complete,因为我们依赖于查询的返回值。

此条目是否有帮助?