学习数据库可以将查询从几小时加速到几秒

2019-06-26 11:57:20 编辑：来源：

导读使大型数据库更智能，更难实现的工具可以释放大数据的潜力，推动医学研究，为业务决策提供信息，并加速当今陷入全球数据过剩的大量其他应用

使大型数据库更智能，更难实现的工具可以释放大数据的潜力，推动医学研究，为业务决策提供信息，并加速当今陷入全球数据过剩的大量其他应用程序。

密歇根大学的研究人员开发了名为Verdict的软件，使现有数据库能够从用户提交的每个查询中学习，找到准确的答案，而无需一次又一次地浏览相同的数据。Verdict允许数据库提供超过200倍的答案，同时保持99%的准确率。在研究环境中，这可能意味着在几秒钟而不是几小时或几天内获得答案。

当不需要速度时，可以设置为节省电力，比传统数据库少200倍。研究人员说，这可以带来大量的电力节省，因为数据中心吞噬了世界电力的不断增长的份额。

判决被认为是新研究领域的第一个工作实例，称为“数据库学习”。

“过去40年来，数据库一直在遵循相同的范例，”Morris Wellman计算机科学与工程系发展助理教授Barzan Mozafari说。“你提交一个查询，它会做一些工作并提供一个答案。当一个新的查询进来时，它会重新开始。之前查询的所有工作都被浪费了。”

判决改变了这一点。它依赖于先进的统计原则，使用过去的问答对来推断未来查询的答案可能位于何处。

研究人员表示，这项创新不可能很快实现，因为数字世界的存储数据已超过10亿千兆字节 - 从基因组数据到医院记录和在线购物历史。新数据的流式传输速度远远超过系统处理速度。增加处理能力无法解决问题，因为新数据生成速度的增长速度快于处理能力。

同时，数据已成为拯救生命的医学研究和复杂的商业决策的驱动力。它的任务不仅仅是寻找答案，还要发现可以推动研究方向的新想法。医学研究人员正在将大量库存的患者数据放在数据库中，以找到健康状况与疾病之间的隐藏联系。像亚马逊这样的零售商正采取类似的方法来准确找到促使客户购买的动力以及如何优化供应链，而在线广告公司则使用数据驱动的算法在适当的时候提供正确的广告。

这样的研究可能涉及数百或数千个同时进行的查询，等待答案的时间不仅仅是一个不便之处。研究表明，即使是短暂的延迟也会妨碍生产力并扼杀创新。

判决如何运作

判决就是所谓的“薄层” - 一种可以放在任何现有数据库前面的小巧灵活的软件。首先，它只存储进出数据库的查询，将它们编译成所谓的查询概要。

在存储了给定数量的查询之后，它将开始执行，将每个查询分解为称为片段的组件部分，并使用它们构建问题和答案的数学模型。当新查询进入时，它使用该模型将数据库指向可能找到答案的特定数据子集。在某些情况下，它甚至可以仅使用模型找到答案，而无需查看数据库。

判决本身使用最少的计算资源，Mozafari和研究员Youngjoo Park已经证明它不会降低性能。它还使用户能够在速度和准确度之间定制平衡，以适应各种应用。Mozafari认为商业产品可能需要几年时间。

“我们真的只是触及了数据库学习可以做的事情，”他说。“重要的是我们已经将数据库的机制颠倒过来了。现在，每个查询都是学习并使数据库更好地工作的机会，而不仅仅是额外的工作。”

该项目在一项题为“ 数据库学习：迈向每次都变得更聪明的数据库 ”的研究中有详细介绍。

标签：学习数据库