1. UTF-8编码机制
UTF-8编码是目前最主流的字符编码方式,约有91.1%的互联网内容都是采用这种编码,虽然在utf-8编码中使用4个字节, 即32位来表示各种字符,但是目前只用到了21位,为了跟之前ascii编码兼容,以及节省存储空间,在前128 个字符,范围在0x00 - 0x7F, 可以用一个字节来表示,不过第8位,用0补全。 其他的依次类推。如下表所示:
范围 | 字符所需实际bit位数 | 第一个字节 | 第二个字节 | 第三个字节 | 第四个字节 | 字节数 |
---|---|---|---|---|---|---|
0X00-0X7F | 7 | 0XXXXXXX | 1 | |||
0X8F-0X7FF | 11 | 110XXXXX | 10XXXXXX | 2 | ||
0X8FFF-0XFFFF | 16 | 1110XXXX | 10XXXXXX | 10XXXXXX | 3 | |
0X10000-0X10FFFF | 21 | 11110XXX | 10XXXXXX | 10XXXXXX | 10XXXXXX | 4 |
第一个字节中的11, 111, 1111分别表示该字符需要2,3,4个字节来表示,10表示接下来的字节的开头。 0表示单字节的开头,比如0XXXXXXX中的0。
按这种方法编码,省去很多没有必要的存储空间,很灵活。范围越少的字符,相对来说,在计算机中被使用的概率是越大的,同时,在所用字符编码中所使用的空间最少,通过这样的策略,可以极大的减低存储空间的需求,以及在传输字符数据时,降低要传输数据的数量,从而加快通信速度。
2. Linux内核启动流程
init(1) -> agetty(1) -> login(1) / sshd(1) -> bash/zsh/mksh... -> xarg(1) 图形界面 | vim(1)
在linux内核没有账号的概念,第一个启动的进程,即init拥有所以的权限,而后的进程的权限都是通过init进程来控制,分配的。 而账号的管理是通过login或sshd来实现的。
agetty是一个终端控制器。 login是本地登录进程, sshd是远程登录进程,bash/zsh/mksh...是一些终端程序,所有后续其他进程都是通过这些终端程序来启动,比如图形界面程序,vim等等。
3. C String 跟 Pascal String
C String 的字符串,是通过在字符串后面加入一个0,来表示字符串的结尾。 这样的话,如果一旦字符串非常长,只有遍历完整个字符串后才知道整个字符串的长度,效率就非常低下。
而Pascal String, 是在字符串前面直接写上字符串的字节长度,这样子,就不用遍历整个字符串长度就可以,知道字符串结尾在哪。
4.最简单的区块结构
BLOCK
HEAD
CURRENT: 32B
NONCE: 4B
PRVIOUS:32B
TARGET: 32B
TIME: 4B
BODY
TRANSACTION
INPUTS:
INDEX: 4B
PUBLIC: 不固定
SIGNATURE: 不固定
TRANSACTION: 32B
OUTPUTS:
ADDRESS: 不固定
AMOUNT: 4B
一个完整的区块包括: 区块头,区块体。 而区块体至少包含一个交易(coinbase或创世交易),一个交易中,至少有一个输出,一个输入,其实对于coinbase的输入,其成员值全为0,也即没有输入。
$coinbase = $input. $ouput
$body = $coinbase
$block = $head.$body
5.区块链中协议层次划分
在区块链中,可以分成三个层级的协议:
- 协议A : 负责交易验证
- 协议B: 负责节点跟应用之间的交互
- 协议C: 负责节点跟节点之间的交互