400-616-5551

您所在位置: 首页> 学习课程> 大数据培训班 | 史上最全的大数据学习资源(1)

大数据培训班 | 史上最全的大数据学习资源(1)

发布百知教育 来源:学习课程 2019-12-05

关系型数据库管理系统

  • MySQL 世界上最流行的开源数据库。

  • PostgreSQL 世界上最先进的开源数据库。

  • Oracle Database - 对象关系数据库管理系统。

  • Teradata - 高性能 MPP 数据仓库平台。

框架

  • Bistro - 用于批处理和流分析的通用数据处理引擎。它基于一种新的数据模型,该模型通过函数来表示数据,并通过列操作来处理数据,而不仅仅使用 MapReduce 或 SQL 等传统方法来设置操作。

  • IBM Streams - 分布式处理和实时分析平台。可以和大数据生态系统中的许多流行技术 (Kafka、HDFS、Spark等) 集成

  • Apache Hadoop -分布式处理框架。集成了 MapReduce(并行处理)、YARN(作业调度)和HDFS(分布式文件系统)。

  • Tigon - 高吞吐的实时流处理框架。

  • Pachyderm - Pachyderm 是一个基于 Docker 和 Kubernetes 的数据存储平台,可以用在重复的数据处理和分析场景。

  • Polyaxon - 一个可复制、可扩展的机器学习和深度学习平台。

分布式编程

  • AddThis Hydra - 分布式数据处理和存储系统,最初由 AddThis 开发。

  • AMPLab SIMR - 在 Hadoop MapReduce v1 上运行 Spark。

  • Apache APEX - 用于大数据流和批处理的统一企业平台。

  • Apache Beam - 用于定义和执行数据处理工作流的统一模型和一组特定于语言的sdk。

  • Apache Crunch - 一个简单的Java API,用于处理 Join 和数据聚合之类的任务,这些任务在普通 MapReduce 上实现起来很繁琐。

  • Apache DataFu - 由 LinkedIn 为 Hadoop 和 Pig 开发的用户定义函数的集合。

  • Apache Flink - 分布式处理引擎框架,用于在无界和有界数据流上进行有状态计算。

  • Apache Gearpump -基于 Akka 的实时大数据流引擎。

  • Apache Gora - 内存数据模型和持久性框架。

  • Apache Hama - BSP(Bulk Synchronous Parallel)计算框架。

  • Apache MapReduce -在集群上使用并行分布式算法处理大型数据集的编程模型。

  • Apache Pig - 用于表达 Hadoop 数据分析程序的高级语言。

  • Apache REEF - 用来简化和统一低层大数据系统的保留性评估执行框架

  • Apache S4 - 一个常规用途的、分布式的、可伸缩的、容错的、可插入式的平台,主要用于处理连续的数据流

  • Apache Spark - 快速、通用的大规模数据处理引擎

  • Apache Spark Streaming - 实时流处理引擎,属于 Spark 的一部分.

  • Apache Storm - Twitter 开发的,可在 YARN 上进行流处理的框架。

  • Apache Samza -基于 Kafka 和 YARN 的流处理的框架

  • Apache Tez - 基于 YARN 的,可执行复杂 DAG (有向无环图)任务的应用程序框架。

  • Apache Twill - YARN 上的抽象,减少了开发分布式应用程序的复杂性。

  • Baidu Bigflow - 一个允许编写分布式计算程序的接口,它提供了许多简单、灵活、强大的 API 来轻松处理任何规模的数据。

  • Cascalog - 数据处理和查询库。

  • Cheetah - MapReduce 之上的高性能,用户自定义数据仓库。

  • Concurrent Cascading - Hadoop 上的数据管理/分析框架。

  • Damballa Parkour - 为 Clojure 开发的 MapReduce 库。

  • Datasalt Pangool - 可替代 MapReduce 范式.

  • DataTorrent StrAM -实时计算引擎,旨在以一种尽可能畅通的方式支持分布式、异步、实时的内存大数据计算,同时最小化开销和对性能的影响。

  • Facebook Corona - Hadoop 的增强,可以消除单点故障。

  • Facebook Peregrine - Map Reduce 框架.

  • Facebook Scuba - 分布式内存数据存储。

  • Google Dataflow - 创建数据管道来帮助我们摄取、转换和分析数据。

  • Google MapReduce - map reduce 框架.

  • Google MillWheel - 容错流处理框架。

  • IBM Streams - 用于分布式处理和实时分析的平台。提供开箱即用的高级分析工具包,如地理空间,时间序列等。

  • JAQL - 声明式编程语言,用于处理结构化、半结构化和非结构化数据。

  • Kite - 一组库、工具、示例和文档,重点在于简化在 Hadoop 生态系统之上构建系统的过程。

  • Metamarkets Druid - 用于实时分析大型数据集的框架。

  • Netflix PigPen - 是 Clojure 语音的 Map-Reduce,可以编译到 Apache Pig 或者 Cascading 中

  • Nokia Disco - 诺基亚开发的 MapReduce 框架。

  • Onyx - 云的分布式计算。

  • Pinterest Pinlater - 异步作业执行系统。

  • Pydoop - 用 Python 编写,并采用 MapReduce 和 HDFS 技术对 Hadoop 进行扩展的 API。

  • Ray - 用于构建和运行分布式应用程序的快速而简单的框架。

  • Rackerlabs Blueflood - 多租户分布式度量处理系统

  • Skale - NodeJS 上的高性能分布式数据处理框架。

  • Stratosphere - 通用集群计算框架。

  • Streamdrill - streamdrill 在计算不同时间窗口上的事件流活动非常有用,并找出最活跃的时间窗口。

  • streamsx.topology - 用于在 Java,Python 或 Scala 中构建 IBM Streams 应用程序的库。

  • Tuktu - 易于使用的批处理和流式计算平台,可以使用 Scala,Akka 和 Play 构建!

  • Twitter Heron - 由 Twitter 开发的一个实时、分布式、容错的流处理引擎,主要用于代替 Storm。

  • Twitter Scalding - 用于 Map Reduce 作业的 Scala 库,基于 Cascading 构建。

  • Twitter Summingbird - Summingbird 是一个类库,它允许我们编写看起来像原生 Scala 或 Java 集合转换的 MapReduce 程序,并在许多着名的分布式 MapReduce 平台上执行,包括 Storm 和 Scalding,由 Twitter 开发。

  • Twitter TSAR - Twitter 开发的时间序列聚合器

  • Wallaroo - 超快弹性数据处理引擎,可以使有状态、分析、流处理和事件驱动的 AI 应用程序能够快速投入生产,而无需考虑规模。它为开发人员提供了几种语言的 api 来实现他们的自定义业务逻辑。

分布式文件系统

  • Ambry - 分布式对象存储,支持存储数万亿个小的不可变对象或者数十亿个大对象。

  • Apache HDFS - 提供对应用程序数据的高吞吐量访问的分布式文件系统。

  • Apache Kudu - Hadoop 的存储层可实现对数据的快速分析。

  • BeeGFS - 之前称为 FhGFS,是一种并行分布式文件系统。

  • Ceph Filesystem - 一个支持POSIX接口的文件系统

  • Disco DDFS - 分布式文件系统。

  • Facebook Haystack - 对象存储系统。

  • Google Colossus - 分布式文件系统 (GFS2).

  • Google GFS - 分布式文件系统。

  • Google Megastore - 可扩展、高可用的存储。

  • GridGain - GGFS, Hadoop 兼容的内存文件系统。

  • Lustre file system - 高性能分布式文件系统。

  • Microsoft Azure Data Lake Store - Azure 上兼容 HDFS 的存储

  • Quantcast File System QFS - 开源分布式文件系统。

  • Red Hat GlusterFS - 横向扩展网络附加的存储文件系统。

  • Seaweed-FS -简单且高度可伸缩的分布式文件系统。

  • Alluxio - 开源的基于内存的分布式存储系统。

  • Tahoe-LAFS - 去中心化的云存储系统。

  • Baidu File System - 分布式文件系统。

分布式索引

  • Pilosa 开源的分布式位图索引,极大地加速了跨多个大规模数据集的查询。

文档数据模型

  • Actian Versant - 面向对象的商业数据库管理系统。

  • Crate Data - 是一个开源的大规模可扩展数据存储,它不需要任何管理。

  • Facebook Apollo - Facebook 的类似于 Paxos 的 NoSQL 数据库。

  • jumboDB - 基于 Hadoop 的面向文档的数据存储。

  • LinkedIn Espresso - 可水平扩展的面向文档 NoSQL 数据存储。

  • MarkLogic - 模式无关的企业 NoSQL 数据库技术。

  • Microsoft Azure DocumentDB - NoSQL 云数据库服务,支持 MongoDB 协议

  • MongoDB - 面向文档的数据库系统。

  • RavenDB - 支持事务的开源文档数据库。

  • RethinkDB - 支持表 join 和 group by 等查询的文档数据库。

Key Map 数据模型

注意: 业界存在一些术语混淆,存在两种不同的东西被称为“列式数据库”。这里列出的一些是围绕“键 - 映射”数据模型构建的分布式持久性数据库:所有数据都有一个(可能是组合的)键,键值对的映射与之关联。在某些系统中,多个这样的值映射可以与一个键关联,这些映射称为“列族”(值映射键称为“列”)。

另一种也称为“列式数据库”的技术,特点是它在磁盘或内存中如何存储数据。这些系统将所有行的相同列值数据存储在一起。因此,需要做更多的工作来获得给定键的所有列,但是需要更少的工作来获得给定列的所有值。
前一种在这里称为“键映射数据模型”。这些和 Key-value Data Model 存储之间的界限相当模糊。
后者更多地是关于存储格式而不是数据模型,这些数据库我们把它归到 Columnar Databases 里面去了。
你可以到 Prof. Daniel Abadi 的博文: 了解更多关于如何区分这两存储系统的讨论。.

  • Apache Accumulo - 构建在 Hadoop 之上的分布式键值存储系统。

  • Apache Cassandra - 受 BigTable 启发的、面向列的分布式数据存储。

  • Apache HBase - 受 BigTable 启发的、面向列的分布式数据存储。

  • Baidu Tera - 受 BigTable 启发的一种大型分布式表格存储系统,具有高性能、可伸缩等存储特点,最初的设计是为了管理万亿量级的超链和网页信息。

  • Facebook HydraBase - 由 Facebook 开发的 HBase 演化版本。

  • Google BigTable - 面向列的分布式数据存储。

  • Google Cloud Datastore - 一个完全托管的无模式数据库,用于在 BigTable 上存储非关系数据。

  • Hypertable - 受 BigTable 启发的、面向列的分布式数据存储。

  • InfiniDB - 通过MySQL接口访问,并使用大规模并行处理来并行化查询。

  • Tephra - 使 HBase 支持事务

  • Twitter Manhattan - Twitter 开发的实时、多租户分布式数据库。

  • ScyllaDB - 使用 C++ 编写的面向列的分布式数据存储,完全兼容 Apache Cassandra。

Key Map 数据模型

  • Aerospike - 一个分布式,高可用的 K-V 类型的 NOSQL 数据库。提供类似传统数据库的ACID操作。

  • Amazon DynamoDB - 分布式 key/value 存储, Dynamo 论文的实现。

  • Badger - 一个快速、简单、高效和持久的键值存储,是用 Go 编写。

  • Bolt - 可在 Go 语言中使用的嵌入式键值数据库.

  • BTDB - .Net 中的 Key Value 数据库,包含 Object DB Layer, RPC, dynamic IL 等等。

  • BuntDB - Go 语言的一个快速,可嵌入,基于内存的键/值数据库,支持自定义索引和地理空间。

  • Edis - 协议兼容 Redis 的数据库,可替代 Redis。

  • ElephantDB - 专门用于从 Hadoop 导出数据的分布式数据库。

  • EventStore - 分布式时间序列数据库。

  • GridDB - 一款高度可扩展的 NoSQL 数据库,非常适用于物联网和大数据领域,还具有高可靠性和高性能这些特性。

  • HyperDex - 可扩展的下一代键值和文档存储,具有多种功能,包括一致性,容错性和高性能。

  • Ignite - 分布式内存网格数据库,具有可持久化,分布式事务,分布式计算等特点,此外还支持丰富的键值存储以及SQL语法。

  • LinkedIn Krati - 一个简单的持久化数据存储,具有非常低的延迟和高吞吐量。

  • Linkedin Voldemort - 分布式 key/value 存储系统。

  • Oracle NoSQL Database - Oracle 公司开发的分布式 key/value 存储系统。.

  • Redis -一个开源(BSD许可)的,内存中的数据结构存储系统,它可以用作数据库、缓存和消息中间件。

  • Riak - 去中心化的数据库存储。

  • Storehaus -Twitter 开发的用于异步 key/value 存储的类库。

  • SummitDB - 基于内存的 NoSQL 键/值数据库,具有磁盘持久性,并支持 Raft 一致性算法。

  • Tarantool - 一个高效的 NoSQL 数据库和一个 Lua 应用服务器。

  • TiKV - 一个基于 Rust 的分布式键值数据库,并受谷歌 Spanner 和 HBase 的启发。

  • Tile38 - 具有空间索引和实时地理围栏的地理位置数据库。支持各种对象类型,包括纬度/经度点,边界框,XYZ切片,Geohashes和GeoJSON

  • TreodeDB - key-value 存储,支持数据副本、分片以及提供原子多行写。

图数据模型

  • AgensGraph - 基于 PostgreSQL 的新一代多模型图数据库。

  • Apache Giraph - 一个可伸缩的分布式迭代图处理系统, 基于 Hadoop 平台,灵感来自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。

  • Apache Spark Bagel - Bagel 是谷歌 Pregel 图处理框架的 Spark 实现,支持基本的图形计算、组合器(combiners)和聚合器(aggregators)。目前已经被 GraphX 替代,在 Spark 2.0.0 版本已经被移除。

  • ArangoDB - 多模型分布式数据库。

  • DGraph - 一个可伸缩的、分布式的、低延迟的、高吞吐量的图数据库,旨在提供谷歌生产级别的规模和吞吐量,具有足够低的延迟,可以在 TB 级的结构化数据上为实时用户查询提供服务。

  • EliasDB - 一个轻量级的基于图的数据库,不需要任何第三方库。

  • Facebook TAO - TAO 是 facebook 广泛使用的分布式数据存储,用于存储和服务社交图。

  • GCHQ Gaffer - Gaffer 是 GCHQ(英国政府通讯总部)于2015年12月14日在 GitHub 上公布的第一个开源项目,Gaffer 是个大规模图形数据库,可以方便存储大规模图的框架,节点和边界有数据统计,比如计数,直方图和草图。这些统计数据是时间窗口的节点和边界属性,可以根据时间动态更新。

  • Google Cayley - 开源的图数据库。

  • Google Pregel - 图处理框架。

  • GraphLab PowerGraph - 包含 C++ 实现的 GraphLab API以及一组基于GraphLab API 构建的高性能机器学习和数据挖掘工具包。

  • GraphX - 一个分布式图处理框架,它是基于 Spark 平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。

  • Gremlin - 图遍历语言。

  • Infovore - 一个 map/reduce 框架,用来处理大量的 RDF 数据集,注入 Freebase 和 DBpedia,基于 Hadoop 构建。

  • Intel GraphBuilder - 基于 Hadoop 构造的大型图工具。

  • JanusGraph - 开源分布式图形数据库,后端存储可以选择多种组件包括 Bigtable、HBase、Cassandra等,同时索引后端也可以选择很多种,包括 Elasticsearch、Solr、Lucene 等。

  • MapGraph - 一个高级的 API 用于快速开发基于 GPU 的高性能图形分析应用。

  • Microsoft Graph Engine - 一个基于内存的分布式大规模图数据处理引擎,能够帮助用户更方便地构建实时查询应用和高吞吐量离线分析平台。在此之前,它在学术界更广为人之的名称是 Trinity。

  • Neo4j - 一个高性能的 NOSQL图数据库,完全由 Java 实现。

  • OrientDB - 文档图形数据库。

  • Phoebus - 大型图处理框架。

  • Titan - 建立在 Cassandra 之上的分布式图数据库。

  • Twitter FlockDB - 分布式图数据库。

  • NodeXL - Microsoft® Excel® 2007, 2010, 2013 and 2016 免费开源的模板,可以很容易的探索网络图。

列式数据库

注意 请读一下 Key-Map Data Model 章节的说明。

  • Columnar Storage - 解释什么是列式存储,以及我们什么时候需要它。

  • Actian Vector - 面向列的分析数据库。

  • C-Store - 面向列的 DBMS.

  • ClickHouse - 一个开源的列式数据库(DBMS),主要用于在线分析处理查询(OLAP)。

  • EventQL - 为大规模事件收集和分析而构建的分布式、面向列的数据库。

  • MonetDB - 列式存储数据库。

  • Parquet - 灵感来自于2010年 Google 发表的 Dremel 论文,是一种列式存储格式,与语言、平台无关,并且不需要和任何一种数据处理框架绑定。

  • Pivotal Greenplum - 为特定目的而构建的专用分析数据仓库,它提供了一个列式存储引擎和一个传统的基于行的引擎。

  • Vertica - 设计用于管理大量快速增长的数据,提供非常快的查询性能。

  • SQream DB - 以色列大数据公司开发的跑在 GPU 上的大数据数据库,设计用于分析和数据仓库,使用 ANSI-92 SQL,适用于10TB到1PB的数据集。

  • Google BigQuery - Google 推出的一项 Web 服务,该服务让开发者可以使用 Google 的架构来运行 SQL 语句对超级大的数据库进行操作。

  • Amazon Redshift - 一个支持 SQL 查询的、快速、可扩展的列式存储数据库,它支持 PB 级的数量查询,是适用于企业级的数据仓库。

  • IndexR - 一个开源的大数据存储格式,于 2017 年 1 月初正式开源,旨在通过添加索引、优化编码方式、提高 IO 效率等各种优化方式来提高计算层和存储层的数据交换效率,从而提升整体性能。

  • LocustDB - 一个大规模并行且高性能的分析数据库 (analytics database),可快速处理你的所有数据,目前处于实验性阶段。

NewSQL 数据库

  • Actian Ingres - 商业支持,开源 SQL 关系数据库管理系统。

  • ActorDB - 分布式的 SQL 数据库,可实现可伸缩的 K/V 存储系统。ActorDB 基于 Actor 计算模型,与传统的集中式数据库不同,ActorDB 由任意数量的被成为 actor 的独立和并发 SQL 数据库组成。

  • Amazon RedShift -基于 PostgreSQL 的数据仓库服务。

  • BayesDB - 一个贝叶斯数据库,内建贝叶斯查询语言 BQL,用户无需统计方面知识即可解决一些基本的科学数据问题

  • Bedrock - 构建在 SQLite 之上的简单、模块化、网络化、分布式事务层。

  • CitusDB - 通过分片和副本扩展 PostgreSQL。

  • Cockroach - 可伸缩、地理复制、事务性数据存储。

  • Comdb2 - 一个基于乐观并发控制技术的集群 RDBMS。

  • Datomic - 分布式数据库旨在支持可伸缩、灵活和智能的应用程序。

  • FoundationDB - 分布式数据库,受 F1 启发。

  • Google F1 - 构建在 Spanner 之上的分布式 SQL 数据库。

  • Google Spanner - Google的全球级的分布式数据库,具有可扩展,多版本,全球分布式、同步复制等特性。

  • H-Store - 一个实验性的数据库管理系统。它专为驻线交易处理应用程序而设计。

  • Haeinsa - Haeinsa 是 HBase 可线性扩展的多行,多表事务库。使用两阶段锁定和乐观并发控制来实现事务。事务的隔离级别是可序列化的。基于 Percolator 实现。

  • HandlerSocket - MySQL/MariaDB 的 NoSQL 插件。

  • InfiniSQL - 无限扩展的 RDBMS.

  • Map-D - GPU 内存数据库,大数据分析可视化平台.

  • MemSQL - 一款内存数据库,它通过将数据存在内存中,将 SQL 语句预编译为 C++ 而获得极速执行效率。

  • NuoDB - 符合 SQL/ACID 的分布式数据库。

  • Oracle TimesTen in-Memory Database - 基于内存的关系数据库管理系统,具有持久性和可恢复性。

  • Pivotal GemFire XD - 低延迟、基于内存、分布式 SQL 数据存储。为内存表数据提供 SQL 接口,可在 HDFS 中持久存储。

  • SAP HANA - 基于内存、面向列、关系数据库管理系统。

  • SenseiDB - 分布式、实时、半结构化的数据库。

  • Sky - 用于灵活、高性能的行为数据分析的数据库。

  • SymmetricDS - 用于文件和数据库同步的开源软件。

  • TiDB - 一款定位于在线事务处理/在线分析处理的融合型数据库产品,实现了一键水平伸缩,强一致性的多副本数据安全,分布式事务,实时 OLAP 等重要特性。受 Google F1 启发。

  • VoltDB - 声称是最快的内存数据库.



大数据培训班:http://www.baizhiedu.com/bigdata2019


上一篇:python培训班 | Python Web安全开发注意点

下一篇:python培训班 | 5个顶级异步Python框架

相关推荐