airflow.providers.pinecone.hooks.pinecone¶
Pinecone Hook。
类¶
与 Pinecone 交互。此 Hook 使用 Pinecone conn_id。 |
模块内容¶
- class airflow.providers.pinecone.hooks.pinecone.PineconeHook(conn_id=default_conn_name, environment=None, region=None)[source]¶
基类:
airflow.hooks.base.BaseHook
与 Pinecone 交互。此 Hook 使用 Pinecone conn_id。
- 参数:
conn_id (str) – 可选,默认连接 id 为 pinecone_default。连接到 Pinecone 时使用的连接 id。
- property conn: airflow.models.connection.Connection[source]¶
- upsert(index_name, vectors, namespace='', batch_size=None, show_progress=True, **kwargs)[source]¶
将向量写入命名空间。
如果为现有的向量 id 插入新值,它将覆盖先前的值。
并行 upsert 请遵循
- get_pod_spec_obj(*, replicas=None, shards=None, pods=None, pod_type='p1.x1', metadata_config=None, source_collection=None, environment=None)[source]¶
获取 PodSpec 对象。
- query_vector(index_name, vector, query_id=None, top_k=10, namespace=None, query_filter=None, include_values=None, include_metadata=None, sparse_vector=None)[source]¶
使用查询向量搜索命名空间。
它检索命名空间中最相似项的 id 以及它们的相似度分数。API 参考:https://docs.pinecone.io/reference/query
- 参数:
index_name (str) – 要查询的索引名称。
vector (list[Any]) – 查询向量。
query_id (str | None) – 用作查询向量的唯一 ID。
top_k (int) – 要返回的结果数量。
namespace (str | None) – 要从中获取向量的命名空间。如果未指定,则使用默认命名空间。
query_filter (dict[str, str | float | int | bool | list[Any] | dict[Any, Any]] | None) – 要应用的过滤器。参见 https://www.pinecone.io/docs/metadata-filtering/
include_values (bool | None) – 结果中是否包含向量值。
include_metadata (bool | None) – 指示响应中是否包含元数据以及 id。
sparse_vector (pinecone.core.client.model.sparse_values.SparseValues | dict[str, list[float] | list[int]] | None) – 查询向量的稀疏值。期望是 SparseValues 对象或形式为:{'indices': list[int], 'values': list[float]} 的字典,其中每个列表具有相同的长度。
- upsert_data_async(index_name, data, async_req=False, pool_threads=None)[source]¶
将数据 upsert(插入/更新)到 Pinecone 索引中。
- describe_index_stats(index_name, stats_filter=None, **kwargs)[source]¶
描述索引统计信息。
返回有关索引内容的统计信息。例如:每个命名空间的向量计数和维度数量。API 参考:https://docs.pinecone.io/reference/describe_index_stats_post