半结构化和非结构化数据的存储仓库。它是一个以原始格式存储所有类型数据的地方,对大小或帐户文件没有固定限制。它提供大量数据来提高分析性能和本机集成。
数据湖是一种经济高效的方式,因为它存储来自组织的所有数据,稍后将进行处理。研究分析师可以专注于寻找数据中的含义模式,而不是数据本身。与数据存储在文件和文件夹中的分层数据仓库相比,数据湖具有扁平架构。数据湖中的每个数据元素都分配有一个唯一的标识符,并用一组元数据信息进行标记。
构建数据湖的主要目标是为数据科学
家或研究人员提供未经处理的数据视图。以下是使用Data Lake的原因:
- 随着 Hadoop 等存储引擎的出现,存储不 电话列表 的信息变得更加方便。使用 Data Lake 时,无需将数据建模为企业范围的模式。
- 随着数据量、数据质量和元数据的增加,分析的质量也会提高。
- 数据湖还提供业务处理速度
- 机器学习和人工智能可用于做出有利可图的预测,并为实施组织提供竞争优势。
以下是数据湖的关键概念
下面简单解释一下: 数据摄取(数据吸收): 数据摄取允许连接器从不同数据源获取数据并将其加载到数据湖中。数据摄取支持: 所有类型的结构化、半结构化和 评论B 非结构化数据。 批量、实时、一次性加载等多种消费。 许多类型的数据源,例如数据库、网络服务器、电子邮件、IoT 和 FTP。 数据存储(数据存储): 数据存储必须是可扩展的,提供经济高效的存储并支持快速访问数据探索,并且必须支持多种数据格式。 数据治理(数据管理): 数据治理是管理组织内使用的数据的可用性、可用性、安全性和完整性的过程。