百度给每个人免费2TB空间，是如何做到的？

倚天雪

432
文章

104
评论

2014年4月29日22:31:11 评论 6,205

知乎（杜鑫）

前段时间在使用百度网盘时，突然发现百度网盘可以免费领取2TB空间啦！

网络硬盘大家可能都或多或少的接触过，不得不说在万物皆云的时代里，这是一种非常好的网络工具，而对我们这种穷到掉渣的免费用户来说，硬盘空间简直就是硬伤，刚开始使用的时候真是为了空间，各种折腾（做他那里所谓的任务），到头来也才扩充了5G左右。现在好了，随随便便、轻轻松松就有了2T的空间。

而这突如其来的2T空间是如何实现的呢？

事实是这样滴！

假如我想要为每个用户提供1G的网络存储空间。

如果服务器上有一颗1000G的硬盘可以全部为用户提供数据储存，如果每个用户分配1G的最大储存空间，那么能分配给多少个用户使用呢？

你一定说是1000/1=1000个用户。

但是事实上你这么分配了，你会发现每个用户平时根本不会上传1G的东西将容量占的满满的，有多有少，但平均用户平时只上传50M的文件，也就是说，如果你将1000G的硬盘分给1000个人使用，但只有效利用了其中的50M*1000=50G的空间，剩余950G的空间基本都完全浪费了。

那么怎么解决呢？

你可以变通一下，将这1000G的空间分配给20000个用户使用，每个人的上传上限容量还是1G，但每人平时还是平均上传50M的数据，那么20000*50M=1000G，这下子就把宝贵的服务器上的存储空间充分利用了。但你又怕这样分配给20000个人后，万一某一刻人们突然多上传点数据，那么用户不是就觉察出来你分给人家的1G空间是假的了吗？所以可以不分配那么多人，只分配给19000人，剩下一些空间做应急之用。

突然发现一下子将可分配的用户数量翻了19倍啊，了不起。那还有没有办法更加有效的利用一下呢？

如果我有1000个以上的服务器，一个服务器上有1000G空间，那么我们每个服务器上都要留下50G的空白空间以备用户突然上传大数据时导致数据塞满的情况，那么我这1000个服务器上就空出了1000台*50G=50000G的空间被浪费了，多么可惜。所以攻城狮们发明了存储集群，使得一个用户的数据可以被分配在多个服务器上存储，但在用户那看起来只是一个1G的连续空间，那么就没必要在每个服务器上预留出应急的空间了，甚至可以充分的将前一个服务器塞满后，在将数据往下一个服务器中塞。这样保证了服务器空间的最大利用，如果某一刻管理员发现用户都在疯狂上传数据（在一个大规模用户群下，这样的概率少之又少）导致我现有提供的空间不够了，没关系，只需要随手加几块硬盘或者服务器就解决了。

好吧，这下子我们的服务器空间利用高多了，可以将一定量的空间分配给最多的用户使用了。但有没有更好的改进方案呢？

管理员有一天发现，即使每个用户平均下来只存储50M的东西，但这50M也不是一蹴而就的，是随着1-2年的使用慢慢的达到这个数量的，也就是说，一个新的用户刚刚注册我的网络空间时，不会上传东西，或者只上传一点非常小的东西。那么我为每一个用户都初始分配了50M的空间，即使将来2年后他们会填满这50M，但这期间的这空间就有很多是浪费的啊。所以聪明的攻城狮说：既然我们可以分布式、集群式存储，一个用户的数据可以分布在多个服务器上，那么我们就假设一开始就给一个新注册的用户提供0M的空间，将来他用多少，我就给他提供多少存储空间，这样就彻底的保证硬盘的利用了。但用户的前端还是要显示1G的。

工程师的这个点子，使得我在建立网盘初期能用1台1000G的服务器提供了大约1000000人来注册和使用，随着注册的人多了，我也有钱了，也可以不断增加服务器以提供他们后期的存储了。同时因为一部分服务器完成了一年多购买，我的购买成本也下来了。

那么…这就结束了吗？

若是邮箱提供商的话，这样的利用率够高了。但网盘就不一样了。

聪明的工程师发现：不同于邮箱，大家的内容和附件绝大多数都是自创的和不同的。但网盘上大家上传的东西很多都是重复的。

比如：张三今天下载了一部《TxxxO HxT》上传到了自己的网盘上，李四在三天后也下载了一模一样的《TxxxO HxT》上传到了网络硬盘上，随着用户的增多，你会发现总共有1000个人上传了1000份一模一样的文件到你宝贵的服务器空间上，所以工程师想出一个办法，既然是一样的文件，我就只存一份不就好啦，然后在用户的前端显示是没人都有一份不就行啦。当某些用户要删除这个文件的时候，我并不真的删除，只需要在前端显示似乎删除了，但后端一直保留着以供其他拥有此文件的用户下载。直到所有使用此文件的用户都删除了这个文件我再真的将其删除吧。

这样子随着存储的数据越来越多，注册的用户越来越多，其上传的重复数据越来越多。你发现这样的检测重复文件存储的效率越来越大。这样算下来似乎每个人上传的不重复的文件只能平均1M/用户。这下子你可以提供超过50倍的用户使用您这有限的空间了。

但伴随着使用，你又发现一个规律：

张三上传的《TxxxO HxT N0124》和李四上传的《TH n124》是同一个文件，只不过文件名不一样，难道我就不能识别出他们是一个文件，然后只将其分别给不同的用户保存成不同的文件名不就行啦？确实可行，但这要利用一些识别文件相同性的算法，例如MD5值等。只要两个文件的MD5值一样，文件大小一样，我就认为它们是相同的文件，只需要保存一份文件并给不同的用户记作不同的文件名就好了。

有一天你发现，因为每一个文件都需要计算MD5值，导致CPU负荷很大，而且本来一样的文件非要浪费带宽上传回来才可以检测一致性，能改进一下吗？

聪明的工程师写了个小软件或小插件，美其名曰“上传控件”，将计算MD5的工作利用这个软件交给了上传用户的电脑来完成，一旦计算出用户要上传的数据和服务器上已经存储的某个数据是一样的，就干脆不用上传了，直接在用户那里标记上这个文件已经按照XX文件名上传成功了。这个过程几乎是瞬间搞定了，并给其起了个高富帅的名字“秒传”！

通过以上这么多步骤，你发现本来你只能给1000用户提供网络空间的，这么多改进办法后，在用户端显示1G空间不变的情况下，近乎可以为1000000个用户提供网络空间了。

这样若是您哪天心情好，对外宣传说：我要将每个用户的存储空间上限提升到1TB。那么每个用户平均还是只上传50M数据，只有极个别的用户上传了突破1G原始空间的数据，你会发现所付出的成本近乎是微乎其微的。

辛勤的攻城狮还在为如何更有效率的利用服务器提供的磁盘空间在不屑努力和挖掘着……

分页阅读 1