首页 > 技术 > 电力信息化 > IT互联网 > 正文

硬件是如何影响数据库的发展

2017-10-24 11:36:06 来源:网络

这是数据库权威,图灵奖获得者 Michael Stonebraker 的一次访谈。 在这篇访谈里,他主要讨论了硬件的发展是如何影响的数据库的。 读完的感受是私货不少,有为其新公司 Tamr 打广告的嫌疑,但是作为数据库鼻祖,他的一些观点还是很值得讨论和回味的。

在20世纪70年代和80年代,加州大学伯克利分校成为软件技术的温床的原因之一是 Michael Stonebraker。 他是关系数据库技术的先驱之一,也是业界最大和最具声望的行动派之一 也是最连续多产的企业家之一。

和其他数据库开发者一样,Stonebraker 也读了 IBMer Edgar Codd 的早期关系数据模型论文。从1973年开始,在IBM System R 数据库的基础上 Stonebraker 开始了 Ingres 数据库的工作。这项工作最终成了后来的 DB2。 在进入这个领域数年之后,Stonebraker 也开始了 Oracle的同名数据库开始工作。

在早期数据库耕耘数十年之后,Stonebreaker 帮助创建了现在常用的Postgres。 Postgres 是 Ingres 下一代产品。 同时, 他也是关系数据库制造商 Informix 的首席技术官。 Informix 在多年前被 IBM 收购;也最近刚刚被淘汰的数据库产品。 更重要的是,他是共享数据仓库的 C-store 的研究人员之一。 这个数据库最终被商业化为 Vertica。 几年之后,Stonebraker 和朋友们开始了 H-Store 的工作。 这是一个分布式,基于内存的 OLTP 系统,最终也被商业化为VoltDB。 Stonebraker 从来没有一个人静静坐着,他一直努力创建一个基于数组名为 SciDB 的的数据库。 这个数据库是针对技术应用程序的需求进行了明确优化调整的。 这个数据库是跟数组相关的,而不是传统关系模型中的表格。

这是作为麻省理工学院计算机科学的兼职教授的,并一直在数据库世界里贡献自己力量的 Stonebraker 的一个非常简短和过于简单的历史。

有了如此多的新的计算,存储和网络技术进入该领域以及如今可用的许多不同的数据库和数据存储技术,我们认为与 Stonebraker 接触将是一个好主意,以了解这些可能对未来数据库的影响。

Timothy Prickett Morgan:在数据和存储方面,某种程度上,你熟知一切,所以我想要深入了解,了解新的计算和存储硬件(特别是持久的内存)上市,将如何影响近期和远期数据库的。 与现在截然不同的是,让我们假设DRAM和闪存再次变得更便宜,像3D XPoint这样的技术在SSD和DIMM形状因素中都会上市。 这些硬件上的进步使内存更大,更便宜,并且闪存获得比磁盘驱动器更接近需要被计算的数据。 我们是否需要重新考虑把所有东西都塞进内存的想法吗? 毕竟新技术开辟了很多可能性。

Michael Stonebraker:问题是不断变化的存储结构以及它与数据库的关系。我们 OLTP 开始吧。在我看来,这是一个主要的内存系统,现在有一大堆新兴的公司正在处理这个市场。1 TB 的大小的 OLTP 数据库是一个非常大的数据库,但是1 TB 的内存已经不是什么大不了的事情了。所以我认为将 OLTP 完全放在内存中是任何关心性能的人的选择。如果您不关心性能,估计在手表上运行数据库也是个不错选择。

在数据仓库领域,所有的驱动力都来自于有着千万亿次计算( petascale) 的数据仓库。 这个市场也将将无限期地成为一个基于磁盘的市场。业务分析师和数据科学家一直想要将越来越多的数据关联的想法。存储与数据仓库的数据大小的增速远远超过磁盘驱动器越来越便宜的速度。

当然,这个反例就是 Facebook 这样的公司。 如果你公司足够大,你可能会有不同的策略。 Facebook 一直在 SSD 上一投资了很多钱。SSD是用于存储热数据。冷数据将永远在磁盘上,或者直到一些其他真正便宜的存储技术。

如果您拥有1 TB 的数据仓库,那么 Vertica 社区版可以免费使用。低端系统软件将基本上免费。如果你关心性能,它将在内存中;如果你不关心性能,它将在磁盘上。看看数据仓库供应商是否投入更多的多层次存储层次结构是非常有趣的。

TPM:当这些持久化内存技术(如3D XPoint或ReRAM)进入组合时会发生什么?

Michael Stonebraker:我没有看到这些是威胁力的。因为这些所谓的持久化存储是不够快而去取代内存的。而且它们不够便宜,无法替代磁盘, 也不足以替代闪存。现在还有待观察:3D XPoint 将会如何快速发展以及多么便宜。

我预见在两级 store 和三级 stroe 上运行的数据库,但我怀疑他们将能够管理四级 store,因为这样做的话对于软件工程而言太困难了。但是存储层次结构将会在存储层次结构中确定什么样的内容。主内存将在顶部,磁盘将在底部,我们知道,并将有通用的系统之间的东西。对于 OLTP 系统,将会在主内存,故事结尾,像 VoltDB 和 MemSQL 这样的公司是主要的内存 SQL 引擎。

对我来说,有趣的是,一旦我们可以训练足够的数据科学家去做,商业智能将被数据科学所取代。商业智能是SQL聚合友好的面孔。数据科学是预测分析,回归,K均值聚类等等,它们都是数组上的线性代数。数据科学如何整合到数据库系统中是关键。

[责任编辑:中国电力工业网]
朋友圈热传垃圾分类列表 官方发声:错的!权威指南在这里朋友圈热传垃圾分类列表 官方发声:错的!

近期,一张包含103种垃圾的垃圾分类列表在网上热传,在湿垃圾干垃圾有害垃圾和可回收物这4个分类下,每一类都列出了20多种垃圾。因为内容详[详细]