加入收藏 | 设为首页 | 会员中心 | 我要投稿 南平站长网 (https://www.0599zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

嵌入式算法之大数据变长存储计算方法

发布时间:2021-12-19 02:09:06 所属栏目:大数据 来源:互联网
导读:应用场景 对于高精度采样结果,其数值最大可能需要3字节,最少1字节,采用标准C的基础数据类型,U16太小无法满足需求,U32则浪费内存。当样本量很大时,其占用的空间问题便突显出来。能否采用变长数据类型存储呢?对小数据采用U8,大数据采用U32,随着数值大
应用场景
对于高精度采样结果,其数值最大可能需要3字节,最少1字节,采用标准C的基础数据类型,U16太小无法满足需求,U32则浪费内存。当样本量很大时,其占用的空间问题便突显出来。能否采用变长数据类型存储呢?对小数据采用U8,大数据采用U32,随着数值大小动态分配存储空间,就是本文的讨论的重点。
 
根据U8 数组中存储的信息将对应的数值还原。
 
假设有0x00000001、0x00000101、0x00000001三个数据,其有效部分是0x01、0x0101、0x01,如果直接拼接在一起,则没法区分0x01010101的含义。因此数据在去掉高位0之后,还需进行编码标记,便于后续解析还原。
 
3、数据编码
数据编码的主要作用是标记当前数据占用多少连续字节,有两种方案:
 
1、固定位来定义字节长度(2位可以表示4字节)
 
一字节:00******
 
二字节:01******,00******
 
三字节:10******,01******,00******
 
四字节:11******,10******,01******,00******
 
五字节:使用2位不支持
 
每个字节的最高2位表示属于原始数据的第几个(从0开始),前面举例的3个字节可以表示为:
 
0x01 编码后二进制为 00-000001,最高2位为0,表示当前是编码后的数据的最后一个字节;
 
0x0101 编码后二进制为 01-000001--00-000001 解析时取每个字节的2位判断,若为00则表示一个编码数值结束。
 
因为前面2位固定用于标记字节数,每个字节实际可用范围只有6位,如果原数据位1000 0001,则最高两位的10需要再占用一个字节表示,最终编码为 01-000010--00-000001。
 
2、字节最高位表示还有剩余数据,借鉴UTF8的编码方式
 
一字节:0*******
 
两字节:110*****,10******
 
三字节:1110****,10******,10******
 
四字节:11110***,10******,10******,10******
 
五字节:111110**,10******,10******,10******,10******
 
六字节:1111110*,10******,10******,10******,10******,10******
 
七字节:不支持
 
这种编码方式,最高字节的有效位是变化的,其它字节有效位是6位。
 
关于源码或者更多交流,请关注微信公众号 嵌入式系统。
 
4、数据访问
原数据每个值占用固定字节长度,可以方便的使用数组下标遍历,即地址偏移为(单个数字占用的字节数)*(第几个),编码为变长数据后,要想取到某个原数据编码后的值,如果从数组头开始遍历效率是相当低的,有没有更好的办法呢?
 
5、总结
选择合适的数据类型的减小存储空间,对大范围的数据使用变长的类型拼接存储,牺牲了部分时间,但节约了ram或flash空间,对资源紧缺的嵌入式设备具有一定的价值。

(编辑:南平站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读