[lua source code] object system

版本号:Lua 5.3

Lua Type

lua 的类型定义在lobject.h这个文件里,主要的类型如下:

  • none
  • nil
  • light user data
  • boolean
  • number
    • integer
    • float
  • function type
    • light C function
    • closure (gc object)
      • lua closure
      • C closure
  • string (gc object)
  • user data (gcobject)
  • table (gc object)
  • thread ( gc object)

Lua Value

lua使用一个union来统一表示上述类型:

union Value {
  GCObject *gc;    /* collectable objects */
  void *p;         /* light userdata */      
  int b;           /* booleans */            
  lua_CFunction f; /* light C functions */ 
  lua_Integer i;   /* integer numbers */    
  lua_Number n;    /* float numbers */   
};

同时,添加一个额外的byte来标记具体的类型:

#define TValuefields    Value value_; int tt_  //<值,类型标记>
struct lua_TValue {
  TValuefields; // Value value_; int tt_;
};
typedef struct lua_TValue TValue;

如果展开上述代码,则为:

typedef struct lua_TValue{
   Value value_;
   int tt_;      
}TValue;

其中,tt_是一个8 bits 的类型标记字段,被分成3个部分:

  • 0-3位,表示大类型
  • 4-5位,表示子类型
  • 6位,表示是否可以垃圾回收

综合使用上面三点,就可以完整标记所有的lua类型,每种类型标记的值如下(这些定义在lua.h和lobject.h里,此处把它们合在一起,更直观):

#define LUA_TNONE            (-1)
#define LUA_TNIL              0
#define LUA_TBOOLEAN          1
#define LUA_TLIGHTUSERDATA  2
#define LUA_TNUMBER        3
  #define LUA_TNUMFLT        (LUA_TNUMBER | (0 << 4))  /* float numbers */
  #define LUA_TNUMINT        (LUA_TNUMBER | (1 << 4))  /* integer numbers */
#define LUA_TSTRING        4
  #define LUA_TSHRSTR       (LUA_TSTRING | (0 << 4))  /* short strings */
  #define LUA_TLNGSTR       (LUA_TSTRING | (1 << 4))  /* long strings */
#define LUA_TTABLE          5
#define LUA_TFUNCTION        6
  #define LUA_TLCL          (LUA_TFUNCTION | (0 << 4))  /* Lua closure */
  #define LUA_TLCF          (LUA_TFUNCTION | (1 << 4))  /* light C function */
  #define LUA_TCCL          (LUA_TFUNCTION | (2 << 4))  /* C closure */
#define LUA_TUSERDATA        7
#define LUA_TTHREAD        8
#define LUA_NUMTAGS        9
#define LUA_TPROTO          LUA_NUMTAGS
#define LUA_TDEADKEY          (LUA_NUMTAGS+1)
#define LUA_TOTALTAGS        (LUA_TPROTO + 2)
#define BIT_ISCOLLECTABLE    (1 << 6)

Value是一个联合体,第一个字段是GCObject,包括:closure(lua closure+C closure), string, userdata, table, thread,其他几个则是非垃圾回收类型:light user data, boolean, light C function, number(integer+float).非垃圾回收字段被直接展开在联合体里,GCObject则是可垃圾回收类型的公共类:

#define CommonHeader GCObject* next;lua_byte tt; lua_byte marked
typedef struct GCObject{
  CommonHeader; // GCObject* next;lua_byte tt; lua_byte marked;
};

GC Object

展开上述GCObject代码,则为:

typedef struct GCObject{
  GCObject* next;
  lua_byte tt; 
  lua_byte marked;
};

可见,GCObject是以链表的形式串在一起。其中,tt字段是类型标记字段,既然TValue里已经标记了类型,此处为什么重复标记呢?我的理解是因为在使用的过程中,GCObject未必是作为一个TValue传入,如果只有GCObject指针的时候,重复的tt即可使用上。而marked则是在垃圾回收过程中用以标记对象存活状态的。

所有的GC类型,都有公共的CommonHeader头部,这是在C这种语言里的一种“继承”用法。

TString

typedef struct TString{
  CommonHeader; // GCObject* next;lua_byte tt; lua_byte marked;
  lua_byte extra;
  unsigned int hash;
  size_t len;
  struct TString* hnext;
}TString;

由于lua的string有两个子类型:short stringlong string。其中,extra字段用来标记是否是long string,hash字段则是用存储在全局字符串池里的哈希值;len表示长度,lua的字符串并不以\0结尾,所以需要存储长度信息。hnext是用来把全局TString串起来,整个链表就是字符串池。而真正的字符串的内容,直接存储在结构体后面的内存里,为了保证内存的对齐,对上述TString和基本类型合并做一个字节对齐:

typedef union { double u; void *s; lua_Integer i; long l; } L_Umaxalign;
typedef union UTString{
  L_Umaxalign dummy;
  TString tsv; 
}UTString;

从而,真正的字符串内容的内存地址获取如下:

/*
** Get the actual string (array of bytes) from a 'TString'.
** (Access to 'extra' ensures that value is really a 'TString'.)
*/
#define getaddrstr(ts)  (cast(char *, (ts)) + sizeof(UTString))
#define getstr(ts)  \
  check_exp(sizeof((ts)->extra), cast(const char*, getaddrstr(ts)))

/* get the actual string (array of bytes) from a Lua value */
#define svalue(o)       getstr(tsvalue(o))

UData

typedef struct Udata{
  CommonHeader;
  lua_byte ttuv_;// user value's tag
  struct Table* metatable;
  size_t len;
  union Value user_; //user value
}Udata;

User Data和String的布局基本一样。首先是共同的CommonHeader,然后是一个类型标记字段: ttuv_,此处标记的是该UserData里实际存储的值(user_字段)的类型;其次最明显的区别是有一个Table类型的metatable,所有对User Data的操作都会去这个metatable里查找是否有对应的属性或者方法定义,这也是lua的所有魔法所在。len字段则定义了实际的数据长度,同时还有一个附加的用户定义值字段:user_

User Data和String一样把额外的数据块存在结构体后面的内存里,同样地对起始地址做了对齐:

typedef union UUdata{
  L_Umaxalign dummy;
  Udata uv;
}UUdata;

从而,User Data的额外数据块的地址如下,注意:

/*
**  Get the address of memory block inside 'Udata'.
** (Access to 'ttuv_' ensures that value is really a 'Udata'.)
*/
#define getudatamem(u)  \
  check_exp(sizeof((u)->ttuv_), (cast(char*, (u)) + sizeof(UUdata)))

另外,对于User Data来说,metatable是每个实例一个,user_ttuv_两个字段则是值部分。所以设置和获取UserData的接口如下:

#define setuservalue(L,u,o) \
    { const TValue *io=(o); Udata *iu = (u); \
      iu->user_ = io->value_; iu->ttuv_ = io->tt_; \
      checkliveness(G(L),io); }

#define getuservalue(L,u,o) \
    { TValue *io=(o); const Udata *iu = (u); \
      io->value_ = iu->user_; io->tt_ = iu->ttuv_; \
      checkliveness(G(L),io); }

总之,UserData=tag+value+metatable=data+metatable;

Table

typedef struct Table {
  CommonHeader;
  lu_byte flags;  /* 1<<p means tagmethod(p) is not present */
  lu_byte lsizenode;  /* log2 of size of 'node' array */
  unsigned int sizearray;  /* size of 'array' array */
  TValue *array;  /* array part */
  Node *node;
  Node *lastfree;  /* any free position is before this position */
  struct Table *metatable;
  GCObject *gclist;
} Table;

首先,类似User Data,Table也包括data和metatable,其中metatable的构成如下:

  lu_byte flags; // 1<<p means tagmethod(p) is not present
  struct Table* metatable;

如果要判断某个预定义下标的元方法是否存在,可以通过1<<p来判断,如果有,则从metatable里获取。

其次,Table包括array部分和hash table部分,array部分如下:

// array 
  unsigned int sizearray;
  TValue* array;

而hash table部分如下:

// hash table
  lu_byte lsizenode;
  Node* node;
  Node* lastfree;

Node就是一个key-value,通过key部分的链表串在一起:

typedef struct Node {
  TValue i_val;
  TKey i_key;
} Node;

typedef union TKey {
  struct {
    TValuefields;
    int next;  /* for chaining (offset for next node) */
  } nk;
  TValue tvk;
} TKey;

最后,gclist是用以垃圾回收的,按下不表。从而,我们可以重新调整下Table的声明顺序,使得更利于阅读:

typedef struct Table{
  CommonHeader;
  
  lu_byte flags; // 1<<p means tagmethod(p) is not present
  struct Table* metatable;

  lu_byte lsizenode;
  Node* node;
  Node* lastfree;

  unsigned int sizearray;
  TValue* array;

  GCObject* gclist;
}Table;

Closure

到了最复杂的Closure部分。根据前面的铺垫,我们知道Lua的函数包括Lua Closure, light C function以及 C Closure三种小类型,其中light C function就是纯c函数,在Value的定义里直接用一个lua_CFunction函数指针指向,从而剩下两个Closure类型。

lua的源码里把Lua Closure和 C Closure作为一个联合体,构成了Closure类型:

typedef union Closure{
  CClosure c;
  LClosure l;
}Closure;

Closure作为一个GC Object,自然需要包含CommonHeader,由于是一个联合体,所以这个CommonHeader就分别拆到了CClosure和LClosure里去了:

#define ClosureHeader \
    CommonHeader; lu_byte nupvalues; GCObject *gclist

typedef struct CClosure {
  ClosureHeader;
  lua_CFunction f;
  TValue upvalue[1];  /* list of upvalues */
} CClosure;


typedef struct LClosure {
  ClosureHeader;
  struct Proto *p;
  UpVal *upvals[1];  /* list of upvalues */
} LClosure;

注意,这里CommonHeader+nupvalues+gclist共同构成了ClosureHeader,这是因为两种Closure都有公共的部分:nupvalues说明闭包变量的个数,gclist则用以垃圾回收。

我们先看比较简单的CClosure,就是直接把lua_CFunction加上被闭包的c变量upvalue[1]数组,此处利用数组在结构的末尾,则只需声明为一个元素的数组即可。

比较复杂的是LClosure,中间的关键结构是Proto* p; 这个字段代表了一个Lua 闭包。我们一步步展开:

/*
** Function Prototypes
*/
typedef struct Proto {
  CommonHeader;
  lu_byte numparams;  /* number of fixed parameters */
  lu_byte is_vararg;
  lu_byte maxstacksize;  /* maximum stack used by this function */
  int sizeupvalues;  /* size of 'upvalues' */
  int sizek;  /* size of 'k' */
  int sizecode;
  int sizelineinfo;
  int sizep;  /* size of 'p' */
  int sizelocvars;
  int linedefined;
  int lastlinedefined;
  TValue *k;  /* constants used by the function */
  Instruction *code;
  struct Proto **p;  /* functions defined inside the function */
  int *lineinfo;  /* map from opcodes to source lines (debug information) */
  LocVar *locvars;  /* information about local variables (debug information) */
  Upvaldesc *upvalues;  /* upvalue information */
  struct LClosure *cache;  /* last created closure with this prototype */
  TString  *source;  /* used for debug information */
  GCObject *gclist;
} Proto;

调整字节对齐后的结构体并不利于阅读,我们不妨重新排版下:

typedef struct Proto{
  CommonHeader;
  
  // 1
  lu_byte numparams;
  lu_byte is_vararg;
  lu_byte maxstacksize;

  // 2
  int sizek;
  TValue* k;
  
  // 3
  int sizelocalvars;
  LocVar* locvars;

  // 4
  int sizeupvalues;
  Upvaldesc* upvalues;

  // 5
  int sizep;
  struct Proto** p;
  struct LClosure* cache;

  // 6
  int sizecode;
  Instruction* code;

  // 7
  int sizelineinfo;
  int* lineinfo;

  // 8
  int linedefined;
  int lastlinedefined;
  TString* source;

  // 9
  GCObject* gclist;
}Proto;
  1. 函数原型信息
  • num params: 函数参数个数
  • is_vararg: 是否是有变长参数
  • maxstacksize: 最大的函数栈长度
  1. 常量
  • sizek: 常量数组长度
  • k: 常量数组
  1. 局部变量
  • sizelocalvars:局部变量数组长度
  • localvars: 局部变量数组
  1. 闭包变量
  • sizeupvalues: 闭包变量数组长度
  • upvalus: 闭包变量数组
  1. 嵌套的Proto:
  • sizep:嵌套的Proto数组长度
  • p:嵌套的Proto数组
  • cache: 缓存嵌套的Proto的闭包。
  1. Proto代表一个可执行函数,前面的信息都是数据部分(参数、常量、局部变量、闭包变量),此处是指令:
  • sizecode:指令数组的长度
  • code:三地址指令数组,后面单独讲解。
  1. 行信息,用以debug,每行指令都有对应的行信息。
  • sizelineinfo:行信息数组长度
  • lineinfo:行信息数组
  1. 源码
  • linedefinedlastlinedefined:函数的起始定义行号
  • source:源码字符串。
  1. gclist,垃圾回收专用,后面讲解。

到此为止,我们把Proto的字段分拆一个闭包函数所需要的每个部分,更易于理解。但还有几个小模块。

LocVar

/*
** Description of a local variable for function prototypes
** (used for debug information)
*/
typedef struct LocVar {
  TString *varname;
  int startpc;  /* first point where variable is active */
  int endpc;    /* first point where variable is dead */
} LocVar;

LocVar的定义,包括变量名+作用域。

Upvaldesc

/*
** Description of an upvalue for function prototypes
*/
typedef struct Upvaldesc {
  TString *name;  /* upvalue name (for debug information) */
  lu_byte instack;  /* whether it is in stack */
  lu_byte idx;  /* index of upvalue (in stack or in outer function's list) */
} Upvaldesc;

Upvaldesc只是描述了闭包变量的信息:是否在栈上+在栈上的Index。这里只有描述信息,那么闭包变量的值存储在哪里呢?

我们回头看下LClosure的定义:

typedef struct LClosure {
  ClosureHeader;
  struct Proto *p;
  UpVal *upvals[1];  /* list of upvalues */
} LClosure;

注意看,这里和CClosure不同的是,CClosure直接用TValue数组存储闭包变量,但LClosure则是用UpVal数组。我们看下UpVal。

UpVal

/*
** Upvalues for Lua closures
*/
struct UpVal {
  TValue *v;  /* points to stack or to its own value */
  lu_mem refcount;  /* reference counter */
  union {
    struct {  /* (when open) */
      UpVal *next;  /* linked list */
      int touched;  /* mark to avoid cycles with dead threads */
    } open;
    TValue value;  /* the value (when closed) */
  } u;
};

UpVal定义在lfunc.h文件里,这里第一个字段v就是指向了闭包变量的真正的值的指针。refcount是被闭包的引用计数,按下不谈。单说后面的联合体:

  union {
    struct {  /* (when open) */
      UpVal *next;  /* linked list */
      int touched;  /* mark to avoid cycles with dead threads */
    } open;
    TValue value;  /* the value (when closed) */
  } u;

注意看,联合体内部有一个open结构和一个value字段。一个Proto在外层函数没有返回之前,处于open状态,闭包的变量,直接通过UpVal ->v这个指针引用。此时open结构用来把当前作用域内的所有闭包变量都串起来做成一个链表,方便查找。此时u->value并没有用到。

但是,如果外层函数返回,则Proto需要把闭包变量的值拷贝出来,保证对象安全。这个拷贝就放在u->value里。此时,UpVal ->v也直接指向内部的u->value。

从而,我们也可以通过判断UpVal ->v和u->value是否相等来判断UpVal处于open还是clsoed状态:

#define upisopen(up)    ((up)->v != &(up)->u.value)

待续

对象系统的定义部分就到这里,下次分解下对象系统基本属性读写的util。
......

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,588评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,456评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,146评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,387评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,481评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,510评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,522评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,296评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,745评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,039评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,202评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,901评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,538评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,165评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,415评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,081评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,085评论 2 352

推荐阅读更多精彩内容

  • Lua 是单线程的,但是Lua却有thread类型,显然直觉上Lua的thread并非通常意义上的线程,实际上它是...
    ffl阅读 4,684评论 2 5
  • 1.1程序块:Lua执行的每段代码,例如一个源代码文件或者交互模式中输入的一行代码,都称为一个程序块 1.2注释:...
    c_xiaoqiang阅读 2,587评论 0 9
  • Nginx API for Lua Introduction ngx.arg ngx.var.VARIABLE C...
    吃瓜的东阅读 5,765评论 0 5
  • 1. 写在前面 很多时候我们都需要借助一些脚本语言来为我们实现一些动态的配置,那么就会涉及到如何让脚本语言跟原生语...
    杰嗒嗒的阿杰阅读 3,429评论 9 31
  • 鹿 过草地 海 在翻腾 鲸 遨游
    斐狐阅读 191评论 0 0