如何从一个大文件中分离小文件

如何从一个大文件中分离小文件

点点

2021-05-08 20:27 阅读 384 喜欢 0

背景

 facebook目前存储了2600亿张照片,总大小为20PB,每张照片约为80KB。
 用户每周新增照片数量为              
10亿。(总大小60TB),平均每秒新增3500张照片(3500次写请求),读操作峰值可以达到每秒百 
万次。

考虑到一台标配的服务器的硬盘是10TB,理论上可以存 10TB/80KB=1.3亿张左右的照片。

然而linux服务器的文件索引的设计最多只支持500w左右的文件数,如果超过500w,性能会大幅下降。

在普通的linux文件系统中,读取一个文件包括三次磁盘io:首先读取目录元数据到内存,
其次把文件 中的inode节点装载到内存,最后读取实际的文件内容。由于小文件个数太多,
无法将所有的目录以及文 件的inode信息缓存到内存,                                                                                                                                                                                          
因此磁盘IO次数很难达到每个图片读取只需要一次磁盘IO的理想状态。

因此,facebook的图片存储系统haystack设计采用的思路是: 多个逻辑图片文件共享一个物理文件。

 1个物理文件的大小=32MB。因此linux服务器中的文件个数在                                                            
 10TB/32MB=1024*1024/32=327680..远远小于linux服务器的文件索引的阈值。

  照片文件在物理文件中的存放为依次的顺序存放。每个照片文件的存放规格如下:

 - 1字节的标记位。0代表接下来的照片仍然可用,1代表接下来的照片已经被删除,2代表该物理文件接下来已经没有图片了。

 - 4字节的size。标记照片的大小x。

 - x字节,照片文件本身。

实现

文件已经到手,现在的目标是,根据规则,将文件的所有图片解出。

读取,循环,写入即可。

代码:

 var fs = require('fs');

var d = fs.readFileSync('rf.data');
var b = new Buffer(d);
var c = 0;
for(var i=0;i<b.length;){
var start = i;
var flag = b.slice(start,start+1);//获得标志位
flag = getR(flag);
if(flag == 0){
    var size = getR(b.slice(start+1,start+5));
    //将图片输出
    fs.writeFile(c+'.jpg',b.slice(start+5,start+6+size),function(){
        console.log('图片写入完成')
    });
    i = i + 1 + 4 + size;
    c++;
}else if(flag == 1){
    var size =getR( b.slice(start+1,start+5));
    i = i + 1 + 4 + size;
}else if(flag == 2){
    i = b.length;
}
}

function getR ( buf ){
return parseInt(buf.toString('hex'),16);
}

将BUFFER 转成字符串,buffer内为16进制的,转成string ,则调用Buffer.toString('hex');

获得16进制的字符串,然后见字符串转化为10进制的数字

转载请注明出处: http://sdxlp.cn/article/xiaowenjian.html


如果对你有用的话,请赏给作者一个馒头吧 ...或帮点下页面底部的广告,感谢!!

赞赏支持
提交评论
评论信息(请文明评论)
暂无评论,快来快来写想法...
推荐
手机现在是我们常用的工具,听音乐是免不了的,那在手机QQ音乐中,我们可以自由选择歌曲下载到手机本地,在离线状态时免费听歌,但是有部分用户发现自己找不到下载的歌曲在哪里,怎么找到下载的本地音乐,下面就和点点一起来看看吧!
小伙伴们在工作中,经常会有一些事情需要记录在本或者电脑里,很多小伙伴们看过小编之前的文章介绍过很多关于笔记软件的内容,有的小伙伴会去充值会员进行使用,也有的小伙伴不想要充会员,就来问小编微信可以记笔记吗,如何转发笔记给好友呢?
作为微软比较稳的操作系统,越来越多小伙伴们都升级或重装了Windows10,不过也有部分小伙伴们遇到了一些比较棘手的问题,比如今天要分享的win10开机黑屏时间长,通常都是开机比较慢,然后是黑屏,用户需要等半分钟,甚至一分钟才能进入系统。那么,win10开机黑屏时间长怎么办?
如果在没有wifi的情况下,我们接收qq信息就要流量。尤其是图片,QQ里加入的群很多,接收图片就很费流量。在这样的情况下我们可以设置屏蔽群图片,手机qq怎么设置屏蔽群图片呢?下面为小伙伴们介绍。
电脑win10 c盘关乎到用户的电脑运行以及系统流畅度,如果系统盘变成了红色爆满,那可以说电脑几乎就卡到无法运行了,因为各种临时文件都是需要在C盘中存储的,这里为小伙伴们带来C盘爆满的解决办法。
在科技和网络发达的现在,以前人们上下班随着从拿纸质卡进行打卡,变成了刷工作卡进行打卡,再到指纹打卡,再到现在更为便利的直接使用像钉钉这样的考勤软件来进行打卡,人们包包里的东西变的越来越少。而最近,有的小伙伴在使用钉钉打卡后,有这样的一个疑惑,就是钉钉电脑版可不可以将考勤记录导出来呢?
日常生活与工作中,总会使用到电脑,随着系统使用的时间,系统的运行速度也会越来越慢,怎么提高电脑运行速度呢?本文为小伙伴们介绍一些清理电脑的方法。
自从有了微信后,QQ好像落寂了不少,不过玩游戏的小伙伴好像还是很多使用的,QQ不经常用的情况下,换手机或者需要传输大文件的时候,发现密码忘了,手机号也换了不能用了该怎么解决呢?