背景
我们都知道在计算机内部数据都是二进制存储。但写PHP的同学平时接触二进制是少之又少,原因有二:
- 脚本语言的弱变量类型,就算不了解变量存储也能写CRUD 。
- 基本不接触网络通信编程,用得最多的还是文本类协议。
但二进制作为计算机基础知识,我们还是需要掌握的。
从一道题目说起
这是我在别处看到的一道题目,具体是这样的:把数据1000(一千)存入文本,要求占用尽量少的空间。
题目很明确,先看第一句,“把1000存入文本”,我们马上可以写出这样的代码:
<?php
$var = 1000;
file_put_contents('./data.txt', $var);
打开data.txt文件,里面存了一个“1000”。用ls命令可以看到占了4 bytes:
ll data.txt
-rw-r--r-- 1 www www 4B 3 6 10:16 data.txt
为什么是4 bytes?因为把1000按字符串存,一共4个字符,刚好4 bytes。
但是,题目的第二个要求是“占用尽量少的空间”。一个"1000"用了4 bytes,显然是不符合要求的。
我们换个思路:
1000转为二进制是00000011 11101000,一共才16 bits,理论上可以用2 bytes存储。所以解决方案出来了,我们需要把1000转为二进制。这时候就要用到PHP的pack函数。代码如下:
<?php
$var = 1000;
$bin = pack('s', $var);
file_put_contents('./data.txt', $bin);
再打开data.txt文件,我们看到的是一个“乱码”:
ls看文件大小:
ll data.txt
-rw-r--r-- 1 www www 2B 3 6 10:16 data.txt
符合预期,只用了2 bytes就把1000存进去了。千万别小看从4 bytes到2 bytes,它节省的是50%空间。
那么如何把这个“乱码”还原成1000?使用unpack函数即可,如下:
<?php
$bin = file_get_contents('./data.txt');
var_dump(unpack('s', $bin));
关于pack/unpack函数
这两个函数有一堆的格式选项,而且示例相对较少:
不用慌,其实一共就分为两类:
- 字符处理(a/A、h/H、Z ...)
- 数值处理(c/C、s/S、n/N ...)
了解字节序(大小端)
、有符号无符号
,基本可以把这些格式掌握。
网上也有些资料可参考:
http://www.perlmonks.org/?node_id=224666(pack/unpack是perl移植过来的,可以直接看perl文档)
https://segmentfault.com/a/1190000008305573(国人写博客,比较详细)