至于和雪花型模型之间的优劣对比。
也不知道自己这段时间都不怎么研究星球模型的缘故,这个时候进行和雪花型模型之间的相关对比,叶秋觉得自己一眼就看出来了,这两者之间的优劣的比对。
就是不知道这个比对究竟是不是正确的。
也正是因为这优劣对比之间的关系,叶秋发现自己好像隐隐的抓到了星型模型当中的关键点。
如果自己发现的这个关键点以及优劣对比是正确的,那对于自己来说对于星星模型的相关研究无异于是得到了一个更加,关键的结论也是能够破解星型模型最重要的一点。
相比于雪花型,星型模型中主要数据存储在事实表中,事实表中存储了业务的大部分核心信息,可读性比较好。维度表只和事实表关联,数据结构看起来也更加容易理解。
相比于宽表,星形模式将事实表和维度表拆开,数据结构相对灵活些,如维度表数据变化(外键不变)不会影响整个数据结构。
至于缺点的话,那也是一眼就能看得出来。
毕竟优点已经是非常显而易见的了,缺点相对来说就不是特别的多,但是如果真的硬是从里面寻找缺点,还是能够看出一些相关的缺陷。
随着现在业务的复杂,数据结构设计时单张事实表内很难存储用户需要的所有数据,所以一般情况下需要提前对多张事实表数据抽取到一张事实表内,形成一张宽表,所以星型模型目前主要是事实宽表维表方式组成,所以宽表的缺点在星型模型中同样存在。
星型架构中多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一定的冗余。
如果是举个例子的话,比如在地区维度表中,存在国家a省b的城市c以及国家a省b的城市d两条记录,那么国家a和省b的信息分别存储了两次。数据存在冗余。
星型模型中维表必须和事实表关联,这样要求事实表中必须包含指向维表的外键,事实表数据结构相对固定,而用户的数据分析需求可能灵活多变。
如果像一些层级不固定的机构,恐怕事实表都不一定能生成,那么单个事实宽表就无法描述所有需求,只能跟随业务需求,有针对的生成相关的宽表,如果这个过程继续依赖于技术人员,就会导致在线分析无法"在线"。
这就是星型模型在实际应用当中,所能产生的各种优点以及所要面对的困难。
正是因为有这些的缺点,这才导致星星模型到了,现在都不曾有什么人能够破解出来。
虽然叶秋一下子钻研到了现在这个地步,但也正是因为中间有南移,愉悦的相关困难阻隔在中间,就比如说方才的那些层级不固定机构。
这就是困扰着不少数学家止步于此的缘由之一。
不过,对于今天晚上的研究,叶秋也大致做出了一个相关的总结。
虽然星型模型是一种非规范化的模型,但是由于它简单高效,所以在冗余可以接受的前提下,实际运用中星型模型使用更多,也更有效率。
比如在数据仓库建设中,大多时候比较适合使用星型模型构建底层数据表。
星型模型也适用于处理简单的查询,而且对olap的分析引擎支持比较友好,适合做指标分析。
但是如果维表的数据量比较大,需要进行更加复杂的层次分析时,维度必须规范化,此时可以考虑采用雪花型模型。
雪花型模型满足范式,可以解决星型模型存在的问题。
不过,如果真的想要规范性的解决星型模型的相关难题,还是得需要进一步的钻研,不能完全的依赖雪花型模型。
研究到这一步,有关于星型模型的实际应用方面叶秋已经得到了突破性的进展。
对于理论上面的相关数据研究,在这一方面上,叶秋仍然还是没有什么更大的进展。
不过,叶秋在认真的研究钻研之下,却惊喜的在意外之间发现,这个星型模型的猜想,和十分著名的hirsch猜想息息相关,好像有着千丝万缕的关系。
这实在是一个意外之喜,如果不是叶秋在超级电脑当中进行浏览网页的时候,无意之间发现了这个猜想,进而只是简单的看了一下。
然后发现这个所谓的hirsch猜想,不管是在哪一方面上都非常符合新型模型的数据研究理论猜想。
如果真的能够对这一hirsch猜想进行破解的话,那心情模型的破解也根本就不在什么话下了!
叶秋心中一喜,原本他是打算在这个时候就睡觉的,可是这时既然已经有了突破性的进展,他也没有那个心思睡觉了。
灵感要知道是稍纵即逝的,如果他能趁着这么一个机会进行再一步的研究和发现,肯定还会有更加进一步的进展。
可如果他这个时候选择去休息,再一次醒过来的时候,就不一定会抓住这难得的灵感了!
更何况他现在还在这时间胶囊当中,不管研究多少天的时间,都不会影响他在现实当中的休息。
就算在这里待上二十五六天,也只是在外面的一个小时而已。
这么一想,叶秋干脆就离开时间胶囊,在自己房间的厨房那边搜罗来了自己买来的不少速食品,作为自己在时间胶囊当中工作学习之余的饭菜。
然后就开始沉浸在学习当中,不住的研究着hirsch猜想。
说道这个猜想,那就不得不提起这个猜想的相关发展。
hirsch猜想是1957年针对线性规划中单纯形算法复杂度提出的,而出处则是参考1000个科学难题,数学卷,袁亚湘的“凸多面体的d-步猜想”。
其描述如下:假设p为d维多面体,且面数为n,那么多面体p直径不超过n-d。
这里的直径是组合意义上的:p中两个顶点的距离即指连接该两个顶点的最小边数,而p的直径则为p中两顶点之间的最大距离。
1963年,j.dantzig在一篇关于线性规划的monograph里把这个猜测公开了,事实上,这个猜想和求解线性规划的经典算法单纯形法(simplexmethod)的算法复杂度非常相关。