关系型数据库管理系统
MySQL 世界上最流行的开源数据库。
PostgreSQL 世界上最先进的开源数据库。
Oracle Database - 对象关系数据库管理系统。
Teradata - 高性能 MPP 数据仓库平台。
框架
Bistro - 用于批处理和流分析的通用数据处理引擎。它基于一种新的数据模型,该模型通过函数来表示数据,并通过列操作来处理数据,而不仅仅使用 MapReduce 或 SQL 等传统方法来设置操作。
IBM Streams - 分布式处理和实时分析平台。可以和大数据生态系统中的许多流行技术 (Kafka、HDFS、Spark等) 集成
Apache Hadoop -分布式处理框架。集成了 MapReduce(并行处理)、YARN(作业调度)和HDFS(分布式文件系统)。
Tigon - 高吞吐的实时流处理框架。
Pachyderm - Pachyderm 是一个基于 Docker 和 Kubernetes 的数据存储平台,可以用在重复的数据处理和分析场景。
Polyaxon - 一个可复制、可扩展的机器学习和深度学习平台。
分布式编程
AddThis Hydra - 分布式数据处理和存储系统,最初由 AddThis 开发。
AMPLab SIMR - 在 Hadoop MapReduce v1 上运行 Spark。
Apache APEX - 用于大数据流和批处理的统一企业平台。
Apache Beam - 用于定义和执行数据处理工作流的统一模型和一组特定于语言的sdk。
Apache Crunch - 一个简单的Java API,用于处理 Join 和数据聚合之类的任务,这些任务在普通 MapReduce 上实现起来很繁琐。
Apache DataFu - 由 LinkedIn 为 Hadoop 和 Pig 开发的用户定义函数的集合。
Apache Flink - 分布式处理引擎框架,用于在无界和有界数据流上进行有状态计算。
Apache Gearpump -基于 Akka 的实时大数据流引擎。
Apache Gora - 内存数据模型和持久性框架。
Apache Hama - BSP(Bulk Synchronous Parallel)计算框架。
Apache MapReduce -在集群上使用并行分布式算法处理大型数据集的编程模型。
Apache Pig - 用于表达 Hadoop 数据分析程序的高级语言。
Apache REEF - 用来简化和统一低层大数据系统的保留性评估执行框架
Apache S4 - 一个常规用途的、分布式的、可伸缩的、容错的、可插入式的平台,主要用于处理连续的数据流
Apache Spark - 快速、通用的大规模数据处理引擎
Apache Spark Streaming - 实时流处理引擎,属于 Spark 的一部分.
Apache Storm - Twitter 开发的,可在 YARN 上进行流处理的框架。
Apache Samza -基于 Kafka 和 YARN 的流处理的框架
Apache Tez - 基于 YARN 的,可执行复杂 DAG (有向无环图)任务的应用程序框架。
Apache Twill - YARN 上的抽象,减少了开发分布式应用程序的复杂性。
Baidu Bigflow - 一个允许编写分布式计算程序的接口,它提供了许多简单、灵活、强大的 API 来轻松处理任何规模的数据。
Cascalog - 数据处理和查询库。
Cheetah - MapReduce 之上的高性能,用户自定义数据仓库。
Concurrent Cascading - Hadoop 上的数据管理/分析框架。
Damballa Parkour - 为 Clojure 开发的 MapReduce 库。
Datasalt Pangool - 可替代 MapReduce 范式.
DataTorrent StrAM -实时计算引擎,旨在以一种尽可能畅通的方式支持分布式、异步、实时的内存大数据计算,同时最小化开销和对性能的影响。
Facebook Corona - Hadoop 的增强,可以消除单点故障。
Facebook Peregrine - Map Reduce 框架.
Facebook Scuba - 分布式内存数据存储。
Google Dataflow - 创建数据管道来帮助我们摄取、转换和分析数据。
Google MapReduce - map reduce 框架.
Google MillWheel - 容错流处理框架。
IBM Streams - 用于分布式处理和实时分析的平台。提供开箱即用的高级分析工具包,如地理空间,时间序列等。
JAQL - 声明式编程语言,用于处理结构化、半结构化和非结构化数据。
Kite - 一组库、工具、示例和文档,重点在于简化在 Hadoop 生态系统之上构建系统的过程。
Metamarkets Druid - 用于实时分析大型数据集的框架。
Netflix PigPen - 是 Clojure 语音的 Map-Reduce,可以编译到 Apache Pig 或者 Cascading 中
Nokia Disco - 诺基亚开发的 MapReduce 框架。
Onyx - 云的分布式计算。
Pinterest Pinlater - 异步作业执行系统。
Pydoop - 用 Python 编写,并采用 MapReduce 和 HDFS 技术对 Hadoop 进行扩展的 API。
Ray - 用于构建和运行分布式应用程序的快速而简单的框架。
Rackerlabs Blueflood - 多租户分布式度量处理系统
Skale - NodeJS 上的高性能分布式数据处理框架。
Stratosphere - 通用集群计算框架。
Streamdrill - streamdrill 在计算不同时间窗口上的事件流活动非常有用,并找出最活跃的时间窗口。
streamsx.topology - 用于在 Java,Python 或 Scala 中构建 IBM Streams 应用程序的库。
Tuktu - 易于使用的批处理和流式计算平台,可以使用 Scala,Akka 和 Play 构建!
Twitter Heron - 由 Twitter 开发的一个实时、分布式、容错的流处理引擎,主要用于代替 Storm。
Twitter Scalding - 用于 Map Reduce 作业的 Scala 库,基于 Cascading 构建。
Twitter Summingbird - Summingbird 是一个类库,它允许我们编写看起来像原生 Scala 或 Java 集合转换的 MapReduce 程序,并在许多着名的分布式 MapReduce 平台上执行,包括 Storm 和 Scalding,由 Twitter 开发。
Twitter TSAR - Twitter 开发的时间序列聚合器
Wallaroo - 超快弹性数据处理引擎,可以使有状态、分析、流处理和事件驱动的 AI 应用程序能够快速投入生产,而无需考虑规模。它为开发人员提供了几种语言的 api 来实现他们的自定义业务逻辑。
Ambry - 分布式对象存储,支持存储数万亿个小的不可变对象或者数十亿个大对象。
Apache HDFS - 提供对应用程序数据的高吞吐量访问的分布式文件系统。
Apache Kudu - Hadoop 的存储层可实现对数据的快速分析。
BeeGFS - 之前称为 FhGFS,是一种并行分布式文件系统。
Ceph Filesystem - 一个支持POSIX接口的文件系统
Disco DDFS - 分布式文件系统。
Facebook Haystack - 对象存储系统。
Google Colossus - 分布式文件系统 (GFS2).
Google GFS - 分布式文件系统。
Google Megastore - 可扩展、高可用的存储。
GridGain - GGFS, Hadoop 兼容的内存文件系统。
Lustre file system - 高性能分布式文件系统。
Microsoft Azure Data Lake Store - Azure 上兼容 HDFS 的存储
Quantcast File System QFS - 开源分布式文件系统。
Red Hat GlusterFS - 横向扩展网络附加的存储文件系统。
Seaweed-FS -简单且高度可伸缩的分布式文件系统。
Alluxio - 开源的基于内存的分布式存储系统。
Tahoe-LAFS - 去中心化的云存储系统。
Baidu File System - 分布式文件系统。
分布式索引
Pilosa 开源的分布式位图索引,极大地加速了跨多个大规模数据集的查询。
文档数据模型
Actian Versant - 面向对象的商业数据库管理系统。
Crate Data - 是一个开源的大规模可扩展数据存储,它不需要任何管理。
Facebook Apollo - Facebook 的类似于 Paxos 的 NoSQL 数据库。
jumboDB - 基于 Hadoop 的面向文档的数据存储。
LinkedIn Espresso - 可水平扩展的面向文档 NoSQL 数据存储。
MarkLogic - 模式无关的企业 NoSQL 数据库技术。
Microsoft Azure DocumentDB - NoSQL 云数据库服务,支持 MongoDB 协议
MongoDB - 面向文档的数据库系统。
RavenDB - 支持事务的开源文档数据库。
RethinkDB - 支持表 join 和 group by 等查询的文档数据库。
Key Map 数据模型
注意: 业界存在一些术语混淆,存在两种不同的东西被称为“列式数据库”。这里列出的一些是围绕“键 - 映射”数据模型构建的分布式持久性数据库:所有数据都有一个(可能是组合的)键,键值对的映射与之关联。在某些系统中,多个这样的值映射可以与一个键关联,这些映射称为“列族”(值映射键称为“列”)。
Apache Accumulo - 构建在 Hadoop 之上的分布式键值存储系统。
Apache Cassandra - 受 BigTable 启发的、面向列的分布式数据存储。
Apache HBase - 受 BigTable 启发的、面向列的分布式数据存储。
Baidu Tera - 受 BigTable 启发的一种大型分布式表格存储系统,具有高性能、可伸缩等存储特点,最初的设计是为了管理万亿量级的超链和网页信息。
Facebook HydraBase - 由 Facebook 开发的 HBase 演化版本。
Google BigTable - 面向列的分布式数据存储。
Google Cloud Datastore - 一个完全托管的无模式数据库,用于在 BigTable 上存储非关系数据。
Hypertable - 受 BigTable 启发的、面向列的分布式数据存储。
InfiniDB - 通过MySQL接口访问,并使用大规模并行处理来并行化查询。
Tephra - 使 HBase 支持事务
Twitter Manhattan - Twitter 开发的实时、多租户分布式数据库。
ScyllaDB - 使用 C++ 编写的面向列的分布式数据存储,完全兼容 Apache Cassandra。
Key Map 数据模型
Aerospike - 一个分布式,高可用的 K-V 类型的 NOSQL 数据库。提供类似传统数据库的ACID操作。
Amazon DynamoDB - 分布式 key/value 存储, Dynamo 论文的实现。
Badger - 一个快速、简单、高效和持久的键值存储,是用 Go 编写。
Bolt - 可在 Go 语言中使用的嵌入式键值数据库.
BTDB - .Net 中的 Key Value 数据库,包含 Object DB Layer, RPC, dynamic IL 等等。
BuntDB - Go 语言的一个快速,可嵌入,基于内存的键/值数据库,支持自定义索引和地理空间。
Edis - 协议兼容 Redis 的数据库,可替代 Redis。
ElephantDB - 专门用于从 Hadoop 导出数据的分布式数据库。
EventStore - 分布式时间序列数据库。
GridDB - 一款高度可扩展的 NoSQL 数据库,非常适用于物联网和大数据领域,还具有高可靠性和高性能这些特性。
HyperDex - 可扩展的下一代键值和文档存储,具有多种功能,包括一致性,容错性和高性能。
Ignite - 分布式内存网格数据库,具有可持久化,分布式事务,分布式计算等特点,此外还支持丰富的键值存储以及SQL语法。
LinkedIn Krati - 一个简单的持久化数据存储,具有非常低的延迟和高吞吐量。
Linkedin Voldemort - 分布式 key/value 存储系统。
Oracle NoSQL Database - Oracle 公司开发的分布式 key/value 存储系统。.
Redis -一个开源(BSD许可)的,内存中的数据结构存储系统,它可以用作数据库、缓存和消息中间件。
Riak - 去中心化的数据库存储。
Storehaus -Twitter 开发的用于异步 key/value 存储的类库。
SummitDB - 基于内存的 NoSQL 键/值数据库,具有磁盘持久性,并支持 Raft 一致性算法。
Tarantool - 一个高效的 NoSQL 数据库和一个 Lua 应用服务器。
TiKV - 一个基于 Rust 的分布式键值数据库,并受谷歌 Spanner 和 HBase 的启发。
Tile38 - 具有空间索引和实时地理围栏的地理位置数据库。支持各种对象类型,包括纬度/经度点,边界框,XYZ切片,Geohashes和GeoJSON
TreodeDB - key-value 存储,支持数据副本、分片以及提供原子多行写。
图数据模型
AgensGraph - 基于 PostgreSQL 的新一代多模型图数据库。
Apache Giraph - 一个可伸缩的分布式迭代图处理系统, 基于 Hadoop 平台,灵感来自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。
Apache Spark Bagel - Bagel 是谷歌 Pregel 图处理框架的 Spark 实现,支持基本的图形计算、组合器(combiners)和聚合器(aggregators)。目前已经被 GraphX 替代,在 Spark 2.0.0 版本已经被移除。
ArangoDB - 多模型分布式数据库。
DGraph - 一个可伸缩的、分布式的、低延迟的、高吞吐量的图数据库,旨在提供谷歌生产级别的规模和吞吐量,具有足够低的延迟,可以在 TB 级的结构化数据上为实时用户查询提供服务。
EliasDB - 一个轻量级的基于图的数据库,不需要任何第三方库。
Facebook TAO - TAO 是 facebook 广泛使用的分布式数据存储,用于存储和服务社交图。
GCHQ Gaffer - Gaffer 是 GCHQ(英国政府通讯总部)于2015年12月14日在 GitHub 上公布的第一个开源项目,Gaffer 是个大规模图形数据库,可以方便存储大规模图的框架,节点和边界有数据统计,比如计数,直方图和草图。这些统计数据是时间窗口的节点和边界属性,可以根据时间动态更新。
Google Cayley - 开源的图数据库。
Google Pregel - 图处理框架。
GraphLab PowerGraph - 包含 C++ 实现的 GraphLab API以及一组基于GraphLab API 构建的高性能机器学习和数据挖掘工具包。
GraphX - 一个分布式图处理框架,它是基于 Spark 平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。
Gremlin - 图遍历语言。
Infovore - 一个 map/reduce 框架,用来处理大量的 RDF 数据集,注入 Freebase 和 DBpedia,基于 Hadoop 构建。
Intel GraphBuilder - 基于 Hadoop 构造的大型图工具。
JanusGraph - 开源分布式图形数据库,后端存储可以选择多种组件包括 Bigtable、HBase、Cassandra等,同时索引后端也可以选择很多种,包括 Elasticsearch、Solr、Lucene 等。
MapGraph - 一个高级的 API 用于快速开发基于 GPU 的高性能图形分析应用。
Microsoft Graph Engine - 一个基于内存的分布式大规模图数据处理引擎,能够帮助用户更方便地构建实时查询应用和高吞吐量离线分析平台。在此之前,它在学术界更广为人之的名称是 Trinity。
Neo4j - 一个高性能的 NOSQL图数据库,完全由 Java 实现。
OrientDB - 文档图形数据库。
Phoebus - 大型图处理框架。
Titan - 建立在 Cassandra 之上的分布式图数据库。
Twitter FlockDB - 分布式图数据库。
NodeXL - Microsoft® Excel® 2007, 2010, 2013 and 2016 免费开源的模板,可以很容易的探索网络图。
列式数据库
注意 请读一下 Key-Map Data Model 章节的说明。
Columnar Storage - 解释什么是列式存储,以及我们什么时候需要它。
Actian Vector - 面向列的分析数据库。
C-Store - 面向列的 DBMS.
ClickHouse - 一个开源的列式数据库(DBMS),主要用于在线分析处理查询(OLAP)。
EventQL - 为大规模事件收集和分析而构建的分布式、面向列的数据库。
MonetDB - 列式存储数据库。
Parquet - 灵感来自于2010年 Google 发表的 Dremel 论文,是一种列式存储格式,与语言、平台无关,并且不需要和任何一种数据处理框架绑定。
Pivotal Greenplum - 为特定目的而构建的专用分析数据仓库,它提供了一个列式存储引擎和一个传统的基于行的引擎。
Vertica - 设计用于管理大量快速增长的数据,提供非常快的查询性能。
SQream DB - 以色列大数据公司开发的跑在 GPU 上的大数据数据库,设计用于分析和数据仓库,使用 ANSI-92 SQL,适用于10TB到1PB的数据集。
Google BigQuery - Google 推出的一项 Web 服务,该服务让开发者可以使用 Google 的架构来运行 SQL 语句对超级大的数据库进行操作。
Amazon Redshift - 一个支持 SQL 查询的、快速、可扩展的列式存储数据库,它支持 PB 级的数量查询,是适用于企业级的数据仓库。
IndexR - 一个开源的大数据存储格式,于 2017 年 1 月初正式开源,旨在通过添加索引、优化编码方式、提高 IO 效率等各种优化方式来提高计算层和存储层的数据交换效率,从而提升整体性能。
LocustDB - 一个大规模并行且高性能的分析数据库 (analytics database),可快速处理你的所有数据,目前处于实验性阶段。
NewSQL 数据库
Actian Ingres - 商业支持,开源 SQL 关系数据库管理系统。
ActorDB - 分布式的 SQL 数据库,可实现可伸缩的 K/V 存储系统。ActorDB 基于 Actor 计算模型,与传统的集中式数据库不同,ActorDB 由任意数量的被成为 actor 的独立和并发 SQL 数据库组成。
Amazon RedShift -基于 PostgreSQL 的数据仓库服务。
BayesDB - 一个贝叶斯数据库,内建贝叶斯查询语言 BQL,用户无需统计方面知识即可解决一些基本的科学数据问题
Bedrock - 构建在 SQLite 之上的简单、模块化、网络化、分布式事务层。
CitusDB - 通过分片和副本扩展 PostgreSQL。
Cockroach - 可伸缩、地理复制、事务性数据存储。
Comdb2 - 一个基于乐观并发控制技术的集群 RDBMS。
Datomic - 分布式数据库旨在支持可伸缩、灵活和智能的应用程序。
FoundationDB - 分布式数据库,受 F1 启发。
Google F1 - 构建在 Spanner 之上的分布式 SQL 数据库。
Google Spanner - Google的全球级的分布式数据库,具有可扩展,多版本,全球分布式、同步复制等特性。
H-Store - 一个实验性的数据库管理系统。它专为驻线交易处理应用程序而设计。
Haeinsa - Haeinsa 是 HBase 可线性扩展的多行,多表事务库。使用两阶段锁定和乐观并发控制来实现事务。事务的隔离级别是可序列化的。基于 Percolator 实现。
HandlerSocket - MySQL/MariaDB 的 NoSQL 插件。
InfiniSQL - 无限扩展的 RDBMS.
Map-D - GPU 内存数据库,大数据分析可视化平台.
MemSQL - 一款内存数据库,它通过将数据存在内存中,将 SQL 语句预编译为 C++ 而获得极速执行效率。
NuoDB - 符合 SQL/ACID 的分布式数据库。
Oracle TimesTen in-Memory Database - 基于内存的关系数据库管理系统,具有持久性和可恢复性。
Pivotal GemFire XD - 低延迟、基于内存、分布式 SQL 数据存储。为内存表数据提供 SQL 接口,可在 HDFS 中持久存储。
SAP HANA - 基于内存、面向列、关系数据库管理系统。
SenseiDB - 分布式、实时、半结构化的数据库。
Sky - 用于灵活、高性能的行为数据分析的数据库。
SymmetricDS - 用于文件和数据库同步的开源软件。
TiDB - 一款定位于在线事务处理/在线分析处理的融合型数据库产品,实现了一键水平伸缩,强一致性的多副本数据安全,分布式事务,实时 OLAP 等重要特性。受 Google F1 启发。
VoltDB - 声称是最快的内存数据库.
大数据培训班:http://www.baizhiedu.com/bigdata2019