二进制文件或者视频、音频、文档文件如何写入数据湖,如何使用?

关于数据湖的存储数据都说支持各类型数据,如结构化、非结构化、二进制等等
但是很多案例或者demo都是做实时数据或者离线数据处理,感觉和以前用kafka,hive用法差不多
没有看到具体怎么将视频或者图片或者pdf文件等等这类数据写入数据湖
有没有哪位有相关示例或者介绍下这类数据入湖的思路
hudi、iceberg都可以,有具体示例最好了
不是很清楚这类数据是怎么实现入湖的,比如有大量pdf文档或者视频文件怎么处理写入数据湖,又怎么读取使用等等

要将二进制文件(如视频、音频、文档文件)写入数据湖,你需要使用一个可以连接到数据湖的编程语言或工具。具体来说,你可以使用下列步骤来完成:
使用适当的 API 连接到数据湖。这可能需要你提供一些凭证和配置信息。
在数据湖中创建一个“存储桶”,这是用于存储数据的逻辑容器。
将二进制文件读入内存。这可以使用适当的语言或库来完成,例如 Python 中的 open() 函数。
将二进制文件写入数据湖。这可以使用 API 中的方法来完成,例如 AWS S3 的 put_object() 方法。
一旦文件已写入数据湖,你就可以使用相同的 API 来访问文件。例如,你可以使用 AWS S3 的 get_object() 方法来下载文件,或使用 list_objects() 方法来列出存储桶中的所有对象。