2021年底,多个技术领域回顾了过去一年的成绩,以及下一年的发展趋势。OtterTune作为数据库领域的开源项目,也在年底发布了《2021年的数据库》的评审报告。
报告指出,随着开发者习惯的改变,PostgreSQL凭借其高可靠性和丰富的功能成为开发者新应用的首选。在过去的一年中,数据库社区仍然热衷于“基准性能测试之战”,这也引发了一场关于数据库公司的投资和融资竞赛,一些老牌公司被收购或破产.总之,一系列令人瞠目结舌的变化可以用“精彩”来形容。
这是本报告的主要部分。让我们来看看!
PostgreSQL的统治地位“凸显”在过去的一年里,开发者的传统观念发生了变化:PostgreSQL成为了他们新应用的首选。
据悉,早在2010年,PostgreSQL开发团队就转向了更加积极的发布计划,每年发布一个新的主要版本(H/T Tomas Vondra)(当然PostgreSQL是开源的)。
与当前许多系统相比,兼容性是PostgreSQL的一个显著特点。这种兼容性是通过支持PostgreSQL的SQL方言(DuckDB)、wire协议(QuestDB、HyPer)或者整个前端(Amazon Aurora、YugaByte、Yellowbrick)来实现的。这一优势也吸引了许多大公司加入――去年10月,谷歌宣布在云潘儿中加入PostgreSQL兼容性;同样在10月,亚马逊宣布了将SQL Server查询转换为Aurora PostgreSQL的Babelfish功能。
衡量数据库受欢迎程度的一个指标是数据库引擎排名。虽然排名并不完美,分数也有点主观,但仍然是前10个系统的合理近似值。
根据DB-Engine rankings数据库引擎排行榜,截至2021年12月,PostgreSQL在最受欢迎的数据库中排名第四(在Oracle、MySQL和MSSQL之后)。在过去的一年里,PostgreSQL进一步缩小了与MSSQL的差距。
另一个需要考虑的趋势是PostgreSQL在在线社区中被提及的频率(这为人们在数据库中谈论什么提供了另一个信号)。
根据PostgreSQL创始人安迪帕夫洛(Andy Pavlo)的统计,(通过下载数据库中的2021条评论,统计PostgreSQL数据库名称出现的频率,交叉引用从数据库中学习到的各个数据库的列表,整理出缩写,如Postgres PostgreSQL,Mongo MongoDB,ES Elasticsearch),然后计算出最受关注的10个DBMS:
虽然这个排名并不科学(因为没有对评论进行情绪化分析),但也清楚地表明PostgreSQL比其他数据库被提及的频率更高。开发人员经常发帖询问新应用应该使用什么DBMS,社区成员几乎总是用PostgreSQL回答这个问题。
对此,安迪帕夫洛也表达了自己的观点:
首先,关系数据库系统成为“初创网站”应用的首选,这是一件好事。这说明了Ted Codd(关系数据库之父)的关系模型自20世纪70年代以来的持久性。其次,PostgreSQL是一个很棒的数据库系统。虽然它有已知的问题和黑暗的角落,就像每个DBMS一样。但是,有了这么多的关注和活力,PostgreSQL在未来几年内会变得更好。
基准性能测试“大混战”报告显示,2021年,不同的数据库厂商不喜欢“基准”测试结果。
想要证明自己的系统比竞争对手更快的供应商可以追溯到20世纪80年代末。这就是TPC成立的原因,它提供了一个“非党派”的论坛来主持。然而,随着过去十年TPC的影响力和受欢迎程度逐渐减弱,人们现在发现自己陷入了新一轮的数据库“基准”混战。
今年围绕基准测试主要有三场愈演愈烈的“街头混战”。
Databricks vs.Snowflake
此前,Databricks宣布其新的光子SQL引擎在100TB TPC-DS中创造了新的世界纪录。雪花马上回击,说他们的数据库比这个快一倍,Databricks误跑了雪花。Databricks反驳说,他们的SQL引擎提供了比雪花更好的执行和性价比。
Rockset vs.Apache Druid vs.ClickHouse
ClickHouse 之前也发布消息称,与 Druid 和 Rockse 相比,他们的成本效率非常高。先别急:作为回应,Imply 对 Druid 的新版本进行了一系列测试,并宣告了胜利。随后,Rockset 也加入了进来,称其实时分析性能优于其他两款。
ClickHouse vs.TimescaleDB
与此同时,Timescale 嗅到“血腥”,也立即“参战”。他们给出了自己的 Benchmark 测试结果,并借此机会指出了 ClickHouse 技术的弱点。此后,关于第三方 Benchmark 测试的讨论成了 Hacker News 的热点话题。
对此现象,Andy Pavlo 评论称:在之前的 Benchmark 地盘争夺战中,数据库社区“流了太多的血”。作为一个曾经也参与过这个游戏的一员,自己因此上去了很多,所以现在可以肯定的说 ―― 这不值得!由于云数据库管理系统有太多的活动部件和可调选项,因此通常很难确定性能差异的真正原因。真正的应用程序不仅仅是一个接一个地运行相同的查询,接收、转换和清理数据时的用户体验与原始性能数据一样重要。正如此前自己发表的相关评论 “只有老年人关心 TPC 的官方数据”。
Big data:大数据,大投资据相关数据显示,自 2020 年下半年以来,价值至少 1 亿美元的风险投资轮数量一直在稳步增长。光 2020 年,这些大型交易就有 327 宗(仅不到风投交易总量的一半)。截至 2021 年 1 月,有超过 100 家风险投资投资轮价值超过了 1 亿美元。
2021 年里,许多投资资金被投向了数据库公司。在事务型数据库领域,CockroachDB 以 160 万美元领跑募资大赛,截止 2021 年 12 月该公司募资金额已高达 2.78 亿美元。与此同时,Yugabyte 也完成了 1.88 亿美元的 C 轮融资。作为 Vitess 的托管版本,PlanetScale 开启了 2000 万美元的 B 轮融资,而 DataStax 也在一轮风投中为其 Cassandra 业务募集到了 3760 万美元。
尽管上面这些数量已经足够让人大开眼界了,但分析型数据库市场比这更加火热。2021 年 9 月,TileDB 完成了一轮未透露具体金额的融资引发业界关注,而Vectorized.io 也为其兼容 Kafka 的流式平台募集到了 1500 万美元。
StarTree 更是直接宣布完成了一轮 2400 万美元的商业化 Apache Pinot 项目融资。随后,matviews-on-steroids DBMS Materialize 宣布他们在 C 轮融资中募集到了 6000 万美元,Imply 公司也为其基于 Apache Druid 的数据库服务筹集到了 7000 万美元,还有 SingleStore 公司在 2021 年募集到了 8000 万美元,这让他们离 IPO 更近了一步。
2021 年年初,Starburst Data 公司为其 Trino 系统(前身为 PrestoSQL)筹集了 1 亿美元。另一家秘密成立的 DBMS 初创公司 ―― Firebolt 则宣布他们为其基于 ClickHouse 分支的新型云数据筹集了 1.27 亿美元。新公司 ClickHouse.Inc.也筹集了惊人的 2.5 亿美元......
尽管如此,但以上募资都不及 Databricks ,其最大的资金来源是 2021 年 8 月筹集了 1.6 亿美元,这也让其他所有人惊掉了下巴。
对此,Andy 评论称:我们正处在数据库的黄金时代,有很多很好的选择。投资者们正在寻找能够成为“下一次雪花”般 IPO 的数据库初创公司,而这些筹款金额比以前的数据库初创公司要多(如 Snowflake 在推出 D 系列产品前,其售价还未超过 1 亿美元。Starburst 在成立不到三年的时间内完成了一轮价值 1 亿美元的融资......)现在有很多因素与资金有关,但如今有更多的资金投入。
In Memoriam:纪念 or “缅怀”过去的一年里,也有一些令人遗憾的事情,比如去年我们也“告别”了一些数据库领域的朋友。
ServiceNow 收购 Swarm64
Swarm64 公司最初是一家 FPGA 加速器,用于在 PostgreSQL 上运行分析工作负载。随后,该公司转而成为使用扩展的 PostgreSQL 的纯软件加速器。但它们未能获得后续发展动力,尤其是与其他资金充足的云数据仓库相比。在被 ServiceNow 收购之后,Swarm64 仍未有任何关于 Swarm64 产品的后续消息。
Splice Machine 破产
Splice 正在推出一种混合(HTAP)DBMS,它结合了针对事务型任务的 HBase 和针对分析的 Spark SQL。然后,他们推动为操作/实时 ML 应用程序提供一个平台。但由于专用 OLTP 和 OLAP 系统的主导地位,一体式混合系统未能在数据库市场取得进展。
私募股权公司收购 Cloudera
过去的几年里,MapReduce 和 Hadoop 技术逐渐更不上潮流,Cloudera 在云数据仓库市场上也就没有了同样的吸引力。Impala 和 Kudu 的大多数原始工程团队已经离开了公司,尽管这些项目仍在开发中,但并发布新版本。自 2018 年以来,该股已跌至低于其 IPO 价格。该公司的新投资者能否扭转公司的颓势还有待观察。
“看到数据库项目或公司倒闭,总是令人难过的事情,但这就是数据库行业的本质”。Andy 表示,开源或有助于 DBMS 比创建它的公司更长寿,但并不总是如此。由于其复杂性,数据库需要全职工作人员来修复缺陷并添加新功能。移动源代码权限和即将失效的 DBMS 控制到开源软件基金会(如 Apache 基金会或 CNCF)并不意味着该项目将奇迹般地复苏。预计明年会有更多的数据库公司破产,这将会让很多公司无法与主要的云供应商和上述资金充足的初创公司竞争。
挑战与机遇后疫情时代对许多人来说,都会是一个比较艰难的时期,但有挑战就会有机遇。
早在2015 年,甲骨文联合创始人 Larry Ellison 还是全球第五首富。但世事难料,2018 年这位亿万富翁就从排行榜上跌至第 10 位。
好在事情发生了转机,在 2021 年 12 月,因为甲骨文的股票在过去的 20 年里迎来了第二次大涨,公司业绩比预期要好, Larry Ellison 一天就赚了 160 亿美元,这让他直接超越了谷歌 Larry Page 和 Sergey Brin,重回全球第五首富。
这个的故事,相信对于数据库社区及所有人来说,无疑都是振奋人心且感人的。对于同样将数据库视为自己生命里除家庭外最重要部分的 Andy 来说更是如此。
数据库是一个具有非凡韧性和创新能力的行业,我们共同期待 2022 年定会是个光明的一年。
查看完整报告:https://ottertune.com/blog/2021-databases-retrospective/
- 上一篇:什么是特殊符号,什么是特殊类型招生
- 下一篇:泡泡幼儿舞蹈完整版,泡泡幼儿舞蹈