来源: 最后更新:24-05-15 06:04:26
一、压缩介绍
现在这个时代电子信息发展迅猛,数据量越来越庞大,小米10手机摄像头技术都达到1亿像素;2021年9月,三星甚至提出2亿像素的传感器技术。因此,压缩数据成为数据存储和传输中用于降低成本和时间的关键技术。
2亿像素的ISOCELL HP1,5000万像素的ISOCELL GN5
压缩技术又分为有损压缩与无损压缩两类,两者的主要区别是:有损压缩还原时跟原始信息不是完全一样,但是不影响使用,比如音频、图片、视频类信息;无损压缩还原时跟原始信息完全一样,比如本文要介绍的常用压缩软件RAR,Zip等压缩方法。
Windows下比较熟知的压缩方法有zip或者RAR,为了便于压缩与解压的使用,开发了许多的解压缩软件,比如:winrar、好压、快压、360压缩等。但是在Linux比较常用的压缩方法却是gzip、bzip2、compress等,比如官方下载的gcc编译器源码压缩文件就是基于gzip压缩的:gcc-11.2.0.tar.gz。
打包或者压缩格式很多,目前主流使用的有如下表所示几种:
表一
表二
对于表二类似“xxx.tar.gz”等格式的文件,是Linux下的一种文件格式,生成该格式文件分为两个步骤,(1)、xxx文件打包为xxx.tar;(2)、xxx.tar压缩为xxx.tar.gz。下面大概介绍Linux下tar打包与gz、bz2等压缩工具的使用。
二、Linux打包tar
由于Linux中的很多压缩程序只能针对一个文件进行压缩,因此如果包含许多文件,则需要将所有文件打包为一个文件,然后再压缩。
Linux下最常用的打包程序就是tar,使用tar程序打出来的包我们常称为tar包,tar包文件的扩展名通常是.tar。生成tar包后,就可以用其它的程序(gzip或bzip2等)来进行压缩了。
2.1、tar文件结构
Tar指令只用于多文件打包,并不压缩文件,因此打包后的文件并没有减小,反而由于在打包时会在每个文件头加入512字节的tar头部信息,使得打包后的文件略微变大。比如当前有文件a1.c、a2.c、a3.c,每个文件100k,打包后文件的文件结构如下图所示:
如上图所示,3个文件共300k,通过tar打包后,至少为301.5k;因为tar文件是按块存储,每个块为512bytes大小,所以tar文件大小应该为512字节的倍数,如果a1.c文件大小为99.7k,则通过tar打包时,最后0.3k必须填充为0,补足至100k(满足512字节的倍数)。
2.2、tar_header头部结构
tar_header为512字节的块结构,保存后面的文件信息,tar源码的tar.h文件中该header结构如下图所示,该header结构刚好是一个块大小,即512字节每个块。
tar源码版本为“tar-1.26.tar.gz”,可通过以下网盘链接下载:
链接:
提取码:ppw2
tar打包函数入口为create_archive(),在源码文件create.c中。
2.3、tar命令打包
tar 命令用于打包操作时,该命令的基本格式为:tar [选项] 源文件或目录。tar命令常用的选项及各自的含义如下图所示。
(1)、创建2个文件a1.txt、a2.txt,分别输入如下内容:
(2)、tar命令进行打包,生成aTar.tar打包文件
2.4、aTar.tar文件内容分析
通过UltraEdit打开上面tar命令打包生成的aTar.tar文件,可以看到aTar.tar文件格式为:首先是a1.txt的tar_header信息,然后是a1.txt的内容;接着是a2.txt的tar_header信息,然后是a2txt的内容。
(1)、第一块:从地址0x00000000h位置到0x00000200h之间(共512字节)是a1.txt的tar_header信息:
根据如上结构struct posix_header结构体的定义,说明几个字段含义:
a>、最开始的位置存储name,大小为100字节,内容为61 31 2E 74 78 74 00,即为“a1.txt”;
b>、后面是mode字段内容为30 30 30 30 36 34 34 00,即为“0000644”,表示a1.txt文件的操作权限,与ls命令查询a1.txt文件权限一致。
c>、uid、gid信息,即当前linux登录用户id与组id,这两个id的内容均为30 30 30 31 37 35 30 00,即为“0001750”,该值为八进制,转为十进制为1000,与id命令查询的结果一致。
d>、size字段值为30 30 30 30 30 30 30 30 30 33 33 00,即为“00000000033”,该值为八进制,转为十进制为27,表示a1.txt文件大小为27字节,与文件内容大小一致:
e>、magic字段值为75 73 74 61 72 20,即为“ustar”,表示当前包为tar文件;
f>、uname与gname为当前linux登录用户名与组名,即kevin。
(2)、第二块:从地址0x00000200h位置到0x00000400h之间(共512字节)是a1.txt的内容,虽然a1.txt的内容为27字节,但是块大小为512,不足地方补0。
(3)、第三块:从地址0x00000400h位置到0x00000600h之间(共512字节)是a2.txt的tar_header信息:
a2.txt的tar_header信息格式与a1.txt的tar_header一致,其size字段为“00000000025”,转为十进制为21,表示a2.txt内容为21个字符,确认一致。
(4)、第四块:从地址0x00000600h位置到0x00000800h之间(共512字节)是a2.txt的内容,虽然a2.txt的内容为21字节,但是块大小为512,不足地方补0。
注:以上与“2.1、tar文件的结构一致”!!!
三、Linux压缩至gz、bz2、z格式
Linux下文件压缩属于无损压缩,解压缩还原时必须和原文件一致,否则会导致程序运行错误;其基本原理为,通过查找文件内的重复字节,建立一个相同字节的词典文件,并用一个代码表示。比如如下文件:
重复的字符串“小扇子的笔记”可以用一个代码“a”表示,则文件内容可以表示为:
这文件的大小就缩小了,还原回来也是无信息损失的。
当然压缩算法远比这个复杂,Linux下的压缩工具常用的有GNU组织开发的gzip(.gz)、压缩能力更强的bzip2(.bz2)、比较古老的压缩指令compress(.Z)、以及最新的提供最佳压缩率的XZ(.xz)。
这些压缩命令只能用来压缩文件,不能压缩目录,即便指定了目录,也只能压缩目录内的所有文件;同时只能压缩单个文件,因此通常与tar打包命令一起使用,在tar打包命令中加入如下选项即可调用对应的压缩命令进行压缩:
3.1、gzip压缩
在tar指令中加入‘-z’选项,调用gzip进行压缩。
解压缩命令为:tar –xzf a.tar.gz。
3.2、bzip2压缩
在tar指令中加入‘-j’选项,调用bzip2进行压缩。
解压缩命令为:tar –xjf a.tar.bz2。
3.3、xz压缩
在tar指令中加入‘-J’选项,调用xz进行压缩。
解压缩命令为:tar –xJf a.tar.xz。
3.4、compress压缩
现在新的Linux系统都没有安装ncompress压缩工具,需要先安装:
然后在tar指令中加入‘-Z’选项,调用compress进行压缩。
解压缩命令为:tar –xZf a.tar.Z。
3.5、其他压缩工具
Windows下常用的压缩格式zip与rar在Linux下也是支持的。
(1)、Linux下提供了zip和unzip程序,zip是压缩程序,unzip是解压程序;
(2)、linux下处理.rar文件,需要安装RAR for Linux,如下指令:
标签: [db:关键词]
手机lol闪退是什么原因(lol手游闪退点击重新连接没有用)
宫内胎儿发育迟缓原因是什么 不知道这几点难怪你受难孕妇在孕检时最担心的莫过于胎儿发育迟缓,胎儿发育迟缓是比较危险
武大教授称博士弟子论文遭“恶意评审”,学界如何看“盲审”? 李显龙今卸任:和中国情缘深厚,任内20年访华多达14次 提车刚满半月,长城炮车主被车顶电动帐篷卡脖身亡!销售称未按说明书流程操作,车企及帐篷生产方刚刚回应了 社评:美对华加征关税闹剧,这次连台词都对不上