时序数据库 Apache-IoTDB 源码解析之文件格式简介(三)

时序数据库 Apache-IoTDB 源码解析之文件格式简介(三)上一章聊到在车联网或物联网中对数据库的需求,以及 IoTDB 的整体架构,详情请见: 时序数据库 Apache-IoTDB 源码解析之系统架构(二) 打一波广告,欢迎大家访问IoTDB 仓库,求一波…

时序数据库 Apache-IoTDB 源码解析之文件格式简介(三)

时序数据库 Apache-IoTDB 源码解析之系统架构(二)

打一波广告,欢迎大家访问IoTDB 仓库,求一波 Star 。欢迎关注头条号:列炮缓开局,欢迎关注 OSCHINA博客

这一章主要想聊一聊:

  1. 行式存储、列式存储的区别
  2. TsFile 的格式

行式与列式存储的区别

假如我们的逻辑上的数据表格式及数据为:

时间戳 人名 体温
1580950800 张三 36.5
1580950800 李四 36.9
1580950800 王五 36.7

那么他出现在硬盘格式就是:

硬盘行列存储差异图

行式数据

在我理解上,行式数据是把逻辑相关的数据在硬盘上放到一起,比如上面的例子,我们可以称之为体温表,所以在逻辑上:时间、人、体温,就成为了逻辑上紧密相关的数据。

所以把相关的数据的硬盘上的组织方式也变成连续的,假如我需要取 张三 的数据,那么当你读出 R1 文件块的时候,就是读出了所有 张三 相关的数据。

列式数据

列式数据在我理解是将物理相关的数据放到一起,比如时间是一类(long 类型)、名字是一类(string 类型)、体温是一类(float 类型)。当然这种硬盘的组织方式,相比起行式数据库,在取拼回体温表的结构的时候,速度就慢了很多,因为你要分别取 C1、C2、C3 文件块,然后还要写个容器往里 Set()。那么列式数据存储方式相比于行式存储优势在哪里呢?

1.1 取数据方式

有一种叫法是只读投影列,避免查询无关列的读取。列式存储的优势在于查询的列数远小于总属性数量,就能少读很多数据。可能读起来非常绕口,举个例子:比如我需要查体温大于 36 度的体温值,sql : select 体温 FROM table WHERE 体温 > 36 。这时候如果是列式存储只需要读出 C3 数据块就可以一次性查到所有数据。而行式数据库中,则需要读出 R1、 R2、 R3。在第二章中介绍到物联网中的时序数据的特点:存量数据非常大,如果遍历几百亿数据,时间差距明显就拉开了。

1.2 数据编码和压缩

因为物理相关的数据他们类型相同,可以使用多种多样的编码方式,比如 IoTDB 中就提供了 8 种编码方式,这个不具体聊,等后面章节再说。

我们继续拿时间列举例子,我们可以把时间列改造为差值存储: 比如 C1 文件块中先存储基础值 1580950800 那么他后面的数据值只需要存储 0 就可以,存储的数字小了,那么占用的存储空间肯定也就小了,当数字特别大且差值比较小的时候,这用编码方式就非常有意义。当然还有很多好玩儿的编码方式,欢迎持续关注。

TsFile 文件格式

为什么叫 TsFile ?我听意思应该是作为 TimeSeriresFile 的缩写,也就是时序数据文件的意思。 chunk数据格式

这是一个数据被刷入磁盘后的缩减版 TsFile 格式,我们还拿上面的数据举例,用来直观的解释 TsFile 中出现的一些名词,假如我的数据为:

时间戳 人名 体温 心率
1580950800 张三 36.5 70
1580950800 李四 36.9 80
1580950800 王五 36.7 100
1580950911 王五 36.6 90

上面的数据刷新到磁盘上后会对应关系如下: 数据及名词对应关系

看到这里应该能理解每个英文名词的意思:

  1. ChunkGroup 代表了设备(逻辑概念上的一个集合),在 IoTDB 中称为 Device。
  2. Chunk 代表了测点数据(逻辑概念上的某一类数据的集合,如体温数据),在 IoTDB 中称为 Measurement。
  3. Page 中存储的是具体数据,包含一个时间序列、一个值序列。
  4. PageStatistics 是保存的是Page当中数据的预聚合信息。
  5. ChunkStatistics 是保存的是Chunk当中数据的预聚合信息。

ChunkGroup 中包含多个 Chunk,Chunk 中包含多个 Page ,Page 中 包含多个 时间点和数据项

回想上面提到的 SQL : select 体温 FROM 王五 WHERE 体温 > 36 , 在 TsFile 中,只要在文件中找到 王五 的 ChunkGroup ,并在 ChunkGroup 中找到 体温 的 Chunk,然后从第一个 Page 开始遍历就完成了。

介绍完了 Chunk 和 ChunkGroup 的概念,那么如果 Chunk 和 ChunkGroup 非常多的时候,TsFile 怎么来设计才能快速的定位并找到合适的 ChunkGroup 的呢?TsFile 怎样才能做到损坏时的检测或者保证传递过程的完整性呢?欢迎持续关注。。。

有兴趣的朋友可以查看:官方 Github 中的 TsFile 文档,了解更多详细信息。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/10034.html

(0)
上一篇 2023-01-27 10:00
下一篇 2023-01-27

相关推荐

  • 如何使用doctest测试Python代码

    如何使用doctest测试Python代码Python是一门非常强大的编程语言,很多人都使用它进行开发。使用Python编写的代码可能会比其他语言更容易出现错误,这也是为什么开发人员需要使用工具来测试代码。doctest是Python中一个非常重要的测试工具。

    2024-05-08
    64
  • mysql面试(五)存储引擎类问题「建议收藏」

    mysql面试(五)存储引擎类问题「建议收藏」MySQL常用存储引擎 引擎名称 事务 说明 MYISAM N MySQL5.6之前的默认引擎,最常用的非事务型存储引擎 CSV N 以CSV格式存储的非事务型存储引擎 Archive N 只运行查…

    2022-12-16
    139
  • 如何使用chmod 600来加强Python代码的安全性

    如何使用chmod 600来加强Python代码的安全性在讲解如何使用chmod 600来加强Python代码的安全性之前,需要先介绍一下chmod 600是什么意思。chmod是Linux下的一个命令,用于修改文件或目录的权限。其中,数字600表示为只有文件所有者可以读写该文件,而其他用户没有任何权限。

    2024-03-08
    93
  • mysql中replicate_wild_do_table和replicate_do_db区别「建议收藏」

    mysql中replicate_wild_do_table和replicate_do_db区别「建议收藏」一、mysql中replicate_wild_do_table和replicate_do_db区别 1)如master(主)服务器上设置 replicate_do_db=elon,执行 use my…

    2023-02-16
    162
  • mysql的case when语句_mysql中join的用法

    mysql的case when语句_mysql中join的用法简单函数CASE [col_name] WHEN [value1] THEN [result1]…ELSE [default] END new_col_name — 枚举 select t_nam…

    2023-03-31
    175
  • 数仓的数据治理_数据仓库数据治理

    数仓的数据治理_数据仓库数据治理这边文章聊聊自己对数据治理开发实践的一些思路,就是聊聊怎么开始去做数据治理这件事情。说起数据治理,有时候虽然看了很多文章,看了很多的介绍,了解数据治理的理论,但是实际上需要我们去搞的时候,就会踩很多的

    2023-05-16
    141
  • 使用Python安装OpenCV

    使用Python安装OpenCVOpenCV(Open Source Computer Vision Library)是一款开源的计算机视觉与机器学习软件库。OpenCV被广泛应用于图像处理、智能交通系统、人脸识别、医学图像分析等领域。本文主要讲解如何使用Python安装OpenCV。

    2024-05-05
    65
  • Python List赋值详解

    Python List赋值详解Python中的List是一种非常常用的数据类型,它可以存储任意类型的对象,并支持可变长度。在使用List时,有很多种赋值方式,每种方式都有其各自的特点和适用场景。本文将从多个方面介绍Python List的赋值方式,帮助读者更好地理解和使用这一常用的数据类型。

    2024-06-21
    48

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注