airflow.providers.apache.hive.transfers.vertica_to_hive¶

此模块包含一个操作符，用于将数据从 Vertica 移动到 Hive。

类¶

VerticaToHiveOperator

将数据从 Vertica 移动到 Hive。

模块内容¶

class airflow.providers.apache.hive.transfers.vertica_to_hive.VerticaToHiveOperator(*, sql, hive_table, create=True, recreate=False, partition=None, delimiter=chr(1), vertica_conn_id='vertica_default', hive_cli_conn_id='hive_cli_default', hive_auth=None, **kwargs)[source]¶

基类: airflow.models.BaseOperator

将数据从 Vertica 移动到 Hive。

此操作符对 Vertica 执行您的查询，在将文件加载到 Hive 表之前将其本地存储。如果 create 或 recreate 参数设置为 True，则会生成 CREATE TABLE 和 DROP TABLE 语句。Hive 数据类型是从游标的元数据推断出来的。请注意，在 Hive 中生成的表使用 STORED AS textfile，这不是最高效的序列化格式。如果加载大量数据和/或表被频繁查询，您可能只想使用此操作符将数据暂存到临时表中，然后使用 HiveOperator 将其加载到最终目的地。

参数:

sql (str) – 对 Vertica 数据库执行的 SQL 查询。(支持模板)
hive_table (str) – 目标 Hive 表，使用点号表示法指定特定数据库。(支持模板)
create (bool) – 如果表不存在是否创建
recreate (bool) – 是否在每次执行时删除并重新创建表
partition (dict | None) – 目标分区，格式为分区列和值的字典。(支持模板)
delimiter (str) – 文件中的字段分隔符
vertica_conn_id (str) – 源 Vertica 连接
hive_cli_conn_id (str) – 对 Hive CLI 连接 ID 的引用。
hive_auth (str | None) – 用于 Hive 连接的可选认证选项

template_fields: collections.abc.Sequence[str] = ('sql', 'partition', 'hive_table')[source]¶

template_ext: collections.abc.Sequence[str] = ('.sql',)[source]¶

template_fields_renderers[source]¶

ui_color = '#b4e0ff'[source]¶

sql[source]¶

hive_table[source]¶

partition = None[source]¶

create = True[source]¶

recreate = False[source]¶

delimiter = ''[source]¶

vertica_conn_id = 'vertica_default'[source]¶

hive_cli_conn_id = 'hive_cli_default'[source]¶

hive_auth = None[source]¶

classmethod type_map(vertica_type)[source]¶

手动修改 Vertica-Python 类型映射。

默认的 datatype.py 不提供完整的类型映射访问。

参考: https://github.com/uber/vertica-python/blob/master/vertica_python/vertica/column.py

execute(context)[source]¶

创建操作符时推导。

Context 是与渲染 jinja 模板时使用的字典相同。

有关更多上下文，请参阅 get_template_context。