快捷搜索:  

晓说数据工程2

"晓说数据工程2,这篇新闻报道详尽,内容丰富,非常值得一读。 这篇报道的内容很有深度,让人看了之后有很多的感悟。 作者对于这个话题做了深入的调查和研究,呈现了很多有价值的信息。 这篇报道的观点独到,让人眼前一亮。 新闻的写作风格流畅,文笔优秀,让人容易理解。 这篇报道的结构严谨,逻辑清晰,让人看了很舒服。 " 账号设置我的关注我的收藏申请的报道退出登录登录搜索36氪Auto数字时氪将来消费智能涌现将来城市启动Power on36氪出海36氪研究院潮生TIDE36氪企服点评36氪财经(Finance)职场bonus36碳后浪研究所暗涌Waves硬氪媒体品牌企业号企服点评36Kr研究院36Kr创新咨询企业服务核心服务城市之窗行政部门服务创投发布LP源计划VClubVClub投资机构库投资机构职位推介投资人认证投资人服务寻求报道36氪Pro创投氪堂企业入驻创业者服务创投平台 首页快讯资讯推荐财经(Finance)科技(Technology)企服城市最新创投汽车(Car)AI创新直播视频专题活动搜索寻求报道我要入驻城市合作晓谈数据工程2-数据存储王建峰·2024-04-10 17:44关注数据湖是一种数据存储。

这是数据工程概念系列10部分中的第2部分。在这一部分中,我们(We)将讨论(Discuss)数据存储。

内容:1.数据仓库2.数据湖3.数据Lakehouse4.数据网格5.数据虚拟化6.DataFabric

数据工程概念:第1部分,数据建模

什么是数据仓库

数据仓库是指从不同相关来源收集数据并在进行(Carry Out)必要的转换以使数据适合分析后将其存储到中央存储库的过程。

数据仓库解决方案:

AzureSynapseAnalytics

AmazonRedshift

GoogleBigQuery

数据仓库的特点

1.历史(History)数据存储数据库只存储当前数据,那么体坛数据随时间变化的趋势是很困难的,因此我们(We)需要将历史(History)数据存储在数据仓库中,我们(We)可以用它来制作数据驱动的业务决策。

示例:在零售业务中,数据仓库可以存储前几年的销售数据,使分析师能够跟踪一段时间内的趋势,并为将来的销售策略做出明智的决策。

2.集成可以将来自多个来源和格式的数据集成到单一版本的事实中,从而使数据更加明确并具有结构良好的模式。

示例:医疗保健企业可以将电子健康(Health)记录、实验室系统和计费系统中的患者数据集成到数据仓库中。这种集成提供了患者信息的全面视图,以改善护理协调和决策。

3.数据质量数据仓库在应用一定的转换后存储数据,这些转换涉及数据清理、验证和规范化,以使其兼容且易于分析团队访问。

示例:在金融机构中,交易可能以不同的货币进行(Carry Out),因此需要标准化才能进行(Carry Out)比较。

4.数据安危数据仓库的访问仅限于获得授权的人员,并且有多种加密和审核机制来识别任何欺诈活动。

示例:在培育系统中,有关学生(Students)表现可能SSN号码和个人详细信息的敏感信息需要加密,以防止危害其安危的攻击造成伤害。

有两种非常著名的数据仓库架构:

Inmon数据仓库架构

数据仓库之父BillInmon相信统一的信息源是非冗余的、干净的、结构化的,因此必须以3NF规范化格式存储。

Inmon的方法是一种自上而下的方法,其中数据仓库被分解为代表公司中不同系统(产品、销售、人力资源和财务)的部门数据集市,并且数据根据其特定需求进行(Carry Out)划分。

中央数据仓库称为企业数据仓库。这确保了所有系统的数据完整性和一致性。

优点:1.在创建之前所有部门都同意单一事实来源2.易于通过规范化进行(Carry Out)建模并保留在3NF中,因此无需重新建模3.由于缺乏重复而存储较少,并且冲突值的风险非常低。

缺点:1.由于标准化,连接较多,报告和查询速度慢。2.组织数据并决定在企业数据仓库中应用哪些业务规则的大量前期工作。3.不同部门的数据整合分析困难。

示例:在制造业中,与库存、工时、销售、产品相关的数据都是相互关联的,因此这里使用Inmon方法的集中式数据存储是有意义的。

Kimball数据仓库架构

这种架构是由RalphKimball提出的,他专注于根据特定的业务需求通过维度数据建模来创建数据集市,然后一旦所有数据都加载到数据集市中,它们(They)就会在数据仓库内进行(Carry Out)组合。

它是一种底层方法,首先根据关键业务流程和问题分析数据的关键特征,然后进行(Carry Out)相关的ETL并存储到星型可能雪花模式中。

优点:1.快速、增量地构建数据仓库,以便用户参与设计过程,从而快速生成报告。2、优先选择非规范化版本,提高用户查询效率。3、星型模式灵活、可扩展,可以适应业务的变化。

缺点:1.由于非规范化,ETL比较复杂,因此会比较耗时。2.数据在不同的数据集市中会出现冗余,并且可能存在相互矛盾的事实。3.由于增量开发工作,维护会很困难。

示例:营销是一个专业领域,需要查看某些信息而不是整体视图,因此在这种情况下,Kimball架构将是合适的。

什么是数据湖

数据湖是一种数据存储,它将所有结构化、半非结构化数据和结构化数据保存在一个集中存储库中,并以其原始格式存储数据,无需任何预处理。需要为数据元素创建唯一的标识符和标签,以便可以查询部分数据以满足您的分析需求。

这些提供了非常好的可扩展性,适合需要使用原始格式并执行分析以获得业务见解的数据科学家和数据工程师。数据湖是模式读取(只需在检索数据时定义模式),并且由于无需转换,因此在存储保质期和快速实施方面更具成本效益。数据仓库可以将历史(History)数据归档到数据湖中,使其查询更快、更优化。

数据湖将支持不同类型的连接器,这些连接器支持数据的批量和流式摄取,并提供控制哪些数据进入数据湖以及如何管理数据的治理功能。

示例:在供应链中,供应商的详细信息可能隐藏在多个系统中,很难发现任何问题可能查明问题。如果我们(We)使用数据湖中的数据,从供应商数据、内部订单和托运人数据等内部来源以及天气预报等外部数据源收集信息,那么我们(We)就可以识别延误原因和瓶颈。

数据湖解决方案:

AzureDataLake

AmazonS3

ApacheHadoop

什么是数据湖屋

数据湖屋是数据湖的灵活性和通过事务层促进的数据仓库管理的结合,该事务层负责确保ACID合规性(原子、一致、隔离和持久)以及使用数据格式的并发读取和写入如Parquet、ORC和Avro。ACID合规性支持数据治理和隐私法规以及高效访问。

数据湖屋还提供添加元数据、缓存和索引的功能,从而达成性能、可访问性和可用性的优化。此外,可以通过SparkSQL和其他数据帧API等工具使用数据,以满足构建机器学习管道和BI报告的要求。

示例:一家电子商务公司从其网站、移动应用程序、社交媒体平台、客户支持互动和第三方供应商收集数据。通过数据湖屋架构,公司可以将这些不同的数据集提取到一个集中存储库中,该存储库将数据湖的可扩展性和灵活性与数据仓库的结构化查询和ACID事务结合起来。通过利用(Use)数据湖站,电子商务公司可以获得有关客户行为、产品性能、营销有效性和运营效率的宝贵见解。

数据湖屋解决方案:

DeltaLakebyDatabricks

ApacheIceBerg

ApacheHudi

什么是数据网格

数据网格架构是一种将数据划分为特定领域产品和所有权的范式。每个领域负责自己的产品,并且可以拥有适合其数据的数据模型和基础设施。每个数据产品都应该采用以用户为中心的设计和定义良好的交互界面来构建。

治理分布在各个团队中,每个团队都有责任根据一系列全球国策和行业法规使其数据产品可靠、可互操作和可用。

示例:例如一个拥有多个业务部门的大型零售组织,包括电子商务、营销、供应链和财务。在数据网格架构中,每个业务单元作为一个单独的数据域运行,负责管理自己的数据资产。通过分散数据所有权和治理,每个领域都可以优化其数据资产,以满足其业务部门的特定需求,同时促进整个组织的数据共享和协作。

数据网格解决方案:

GoogleCloudBigQuery

AzureSynapseAnalytics

AWSS3andAthena

dbtandSnowflake

什么是数据虚拟化

传统的数据架构在近三十年中一直表现良好,但随着行业数据量呈指数级增长,需要复制数据的传统方法变得更加困难。

为了解决这个问题,开发了数据虚拟化来允许访问数据源,而无需将它们(They)收集到集中存储中。设计了一个抽象层,使用户能够通过API以及相关元数据和目录获取数据,这将有助于区分特定业务定义的数据。

此外,该中间件提供治理和访问权限,以确保移动数据的安危。

示例:世界领先的制药和生物技术公司辉瑞(Pfizer)使用TIBCO的数据虚拟化软件来加快向其研究人员提供数据的速度。过去,该公司使用传统的ETL数据集成方法,经常导致数据过时。通过数据虚拟化,辉瑞成功(Success)地将项目开发时间缩短了50%。除了快速数据检索和传输之外,该公司还标准化产品数据,以确保所有研究和医疗单位的产品信息的一致性。

什么是数据编织

DataFabric是一种架构,旨在创建一个统一的生态系统,涉及将不同数据源、服务和应用程序集成和编排到一个集中存储中。它基于数据虚拟化的概念,具有内置的人工智能和机器学习功能,以推动数据的映射和编目。

元数据是一种由AI/ML算法支持的主动格式,创建知识图是为了找出不同数据元素之间的关系。推荐引擎将使用AI通过分析元数据来预测数据摄取和管理需求,DataOps将根据需要重用数据管道并处理数据。

示例:Domino模型隐含地依赖于来自多个源的多种类型的数据。为了集成和统一分布式数据,Domino实施了数据编织。该数据架构使Domino's能够在整个数据生命周期(从销售点系统到供应链中心以及所有营销工作)中实施端到端跟踪。

本文来自微信公众号“数据驱动智能”(ID:Data_0101),作者:晓晓,36氪经授权发布。

该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。

+14

好文章,需要你的鼓励

王建峰特邀作者0收  藏+10评  论打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮微  博沉浸阅读返回顶部参与评论评论千万条,友善第一条登录后参与讨论(Discuss)提交评论0/1000你可能也喜欢这些文章瞄准医院数字化转型,「联影智元」打造医疗领域“App Store”|早期项目To B 软件上市公司:钱去哪儿了?瑞士房地产科技(Technology)公司Properti开发房地产数字化交易平台,简化房地产交易服务 | 瑞士创新100强晓谈数据工程4-数据管道该如何拯救你:中小企业数字化转型智慧城市:走向城市全域数字化转型「衔远科技(Technology)」,以ChatGPT助企业数智化创新晓谈企业数据管理六:数据治理和云数据管理晓谈企业数据管理五:数据湖和数据仓库最新文章推荐小米汽车(Car)被市场“捶打”的时间还有很多中达新材披露北交所一轮问询回复:被问外销收入是否稳定可持续马云反思阿里这五年:改掉我们(We)最喜欢的坏习惯抖音(Tik Tok):搜索一响,黄金万两晓谈数据工程2-数据存储努力(Effort)的人已经通过海选出道了暴雪与网易复合,今夏国服回归,漂泊的玩家账号能复原吗?北交一季度总结:个股赚钱效应低迷,题材股成唯一赢家看云计算如何赋能人工智能通过港交所聆讯,出门问问还在“大炼模型”?王建峰特邀作者

作者有点忙,还没写简介

发表文章172篇最近内容晓谈数据工程2-数据存储16分钟前晓谈数据工程4-数据管道昨天(Yesterday)晓谈企业数据管理六:数据治理和云数据管理2024-04-08阅读更多内容,狠戳这里下一篇努力(Effort)的人已经通过海选出道了

成都有个迪士尼。

16分钟前

热门标签泡泡英语福特t型车我国新型城镇化规划财务软件金蝶云企业平台沙滩车市场准入负面清单方辉云电脑(Computer)马路牙子长城皮卡坦途皮卡五十铃皮卡半衰期爱莉杨宁非虚构文学都市女孩李滨金融大数据蒋韬钢球防弹玻璃高中(High School)物理艾莎安娜闪聊品骏快递普萘洛尔ptsd关于36氪城市合作寻求报道我要入驻投资者关系商务合作关于我们(We)联系我们(We)加入我们(We)网站谣言信息举报入口热门推荐热门资讯热门产品文章标签快讯标签合作伙伴阿里云火山引擎高德个推星球日报(Daily)鲸准氪空间富途牛牛企服点评人人都是产品经理领氪36氪APP下载iOS Android36氪本站由 阿里云 提供计算与安危服务 违法和不良信息、未成年人保护举报电话:010-89650707 举报邮箱:jubao@36kr.com 网上有害信息举报© 2011~2024 首都多氪信息科技(Technology)有限公司 | 京ICP备12031756号-6 | 京ICP证150143号 | 京公网安备11010502036099号意见反馈36氪APP让一部分人先看到将来36氪鲸准氪空间

推送和解读前沿、有料的科技(Technology)创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业

晓谈数据工程2

您可能还会对下面的文章感兴趣:

赞(284) 踩(67) 阅读数(8731) 最新评论 查看所有评论
加载中......
发表评论