airflow.providers.apache.hive.transfers.vertica_to_hive

此模块包含一个将数据从 Vertica 移动到 Hive 的操作符。

模块内容

VerticaToHiveOperator

将数据从 Vertica 移动到 Hive。

class airflow.providers.apache.hive.transfers.vertica_to_hive.VerticaToHiveOperator(*, sql, hive_table, create=True, recreate=False, partition=None, delimiter=chr(1), vertica_conn_id='vertica_default', hive_cli_conn_id='hive_cli_default', hive_auth=None, **kwargs)[源代码]

基类:airflow.models.BaseOperator

将数据从 Vertica 移动到 Hive。

此操作符针对 Vertica 运行您的查询,将文件存储在本地,然后再将其加载到 Hive 表中。如果 createrecreate 参数设置为 True,则会生成 CREATE TABLEDROP TABLE 语句。Hive 数据类型从游标的元数据中推断得出。请注意,在 Hive 中生成的表使用 STORED AS textfile,这不是最有效的序列化格式。如果要加载大量数据和/或表会被大量查询,您可能只想使用此操作符将数据暂存到临时表中,然后再使用 HiveOperator 将其加载到最终目标中。

参数
  • sql (str) – 要针对 Vertica 数据库执行的 SQL 查询。(已模板化)

  • hive_table (str) – 目标 Hive 表,使用点号表示法来指定特定的数据库。(已模板化)

  • create (bool) – 如果表不存在,是否创建表

  • recreate (bool) – 是否在每次执行时删除并重新创建表

  • partition (dict | None) – 目标分区,为分区列和值的字典。(已模板化)

  • delimiter (str) – 文件中的字段分隔符

  • vertica_conn_id (str) – 源 Vertica 连接

  • hive_cli_conn_id (str) – 对 Hive CLI 连接 ID的引用。

  • hive_auth (str | None) – 为 Hive 连接传递的可选身份验证选项

template_fields: collections.abc.Sequence[str] = ('sql', 'partition', 'hive_table')[源代码]
template_ext: collections.abc.Sequence[str] = ('.sql',)[源代码]
template_fields_renderers[源代码]
ui_color = '#b4e0ff'[源代码]
classmethod type_map(vertica_type)[源代码]

手动破解 Vertica-Python 类型映射。

stock datatype.py 不提供完整的类型映射访问权限。

参考:https://github.com/uber/vertica-python/blob/master/vertica_python/vertica/column.py

execute(context)[源代码]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

此条目是否有帮助?