Azure DataLake Storage 算子¶
前置任务¶
要使用这些算子,您需要做一些准备工作
使用 AZURE PORTAL 或 AZURE CLI 创建必要的资源。
通过 pip 安装 API 库。
pip install 'apache-airflow[azure]'详细信息请参阅 Airflow® 的安装
设置连接.
ADLSCreateObjectOperator¶
ADLSCreateObjectOperator
允许您将数据上传到 Azure DataLake Storage
下面是使用此算子将数据上传到 ADL 的示例。
tests/system/microsoft/azure/example_adls_create.py
upload_data = ADLSCreateObjectOperator(
task_id="upload_data",
file_system_name="Fabric",
file_name=REMOTE_FILE_PATH,
data="Hello world",
replace=True,
)
ADLSDeleteOperator¶
使用 ADLSDeleteOperator
从 Azure DataLake Storage 删除文件
下面是使用此算子从 ADL 删除文件的示例。
tests/system/microsoft/azure/example_adls_delete.py
remove_file = ADLSDeleteOperator(task_id="delete_task", path=REMOTE_FILE_PATH, recursive=True)
ADLSListOperator¶
使用 ADLSListOperator
列出 Azure DataLake Storage 中的所有文件
下面是使用此算子从 ADL 列出文件的示例。
tests/system/microsoft/azure/example_adls_list.py
adls_files = ADLSListOperator(
task_id="adls_files",
path="folder/output/*.parquet",
azure_data_lake_conn_id="azure_data_lake_default",
)
参考¶
更多信息,请参阅