FastText源码II

main.cc

main()

main():1.train(), 2.test(),3. quantize(), 4.printWordVectors(), 5.printSentenceVectors(), 6.printNgrams(), 7.nn(), 8.analogies(), 9.predict(), 10.dump(), 11.printUsage()

train()

1.train() :

    fasttext.train()训练

    fasttext.saveModel()保存模型

    fasttext.saveVectors()保存词向量,第一行是word数+空格+维度dim;从第二行开始 word+vector

fasttext.train()

fasttext.train():readFromFile(), loadVectors()/nowrds()+bucket, nlabels()/nwords(), startThreads(),setTargetCounts()

    readFromFile()读取文件,获取词典:

                        readWord():从文件中读入word,以空格、tab等作为分词依据;

                         add():若word已经存在于词典中,count+1,否则加入词典中;

                        threshold():根据词频排序,剔除阈值以下的词,构造哈希;

                         initTableDiscard():初始化丢弃规则;

                        initNgrams() :初始化Ngram


    若使用预训练的词向量文件,则loadVectors()加载该文件;否则,以(字典words数+bucket数)*dim词向量维度作为输入

    输出为label数*dim(分类)或者是words数*dim(词向量)。

                当 args_->model == model_name::sup 时,训练分类器, 所以输出的种类是标签总数 dict_->nlabels();

                否则训练的是词向量,输出种类就是词的种类 dict_->nwords()。

    startThreads():

                trainThread():根据线程数,将训练文件按照总字节数均分成多个部分;根据训练需求的不同,用的更新策略也不同,它们分别是: 

 trainThread()

                            1. supervised()2. cbow() 3. skipgram()

                                            model.update():

model.update():

                                                        computeHidden():计算前向传播:输入层 -> 隐层

                                                        loss=ns时,negativeSampling():负采样,训练时每次选择一个正样本,随机采样几个负样本,每种输出都对应一个参数向量,保存于 wo_ 的各行。对所有样本的参数更新,都是一次独立的 LR 参数更新。

                                                         loss=hs时,hierarchicalSoftmax():层次softmax() ,对于每个目标词,都可以在构建好的霍夫曼树上确定一条从根节点到叶节点的路径,路径上的每个非叶节点都是一个 LR,参数保存在 wo_ 的各行上,训练时,这条路径上的 LR 各自独立进行参数更新。

                                                        else,普通softmax()

                            model.getLoss():

2.test():fasttext.loadModel(),fasttext.test()

fasttext.loadModel():以binary格式加载模型

fasttext.test():

        Dictionary::getLine():

                                  addSubwords():

        Model::predict() 预测k个最有可能的分类

                                computeHidden():input上下文,计算隐层向量

                                如果是hierarchical softmax,dfs()遍历树寻找概率最大值;

                                否则,findKBest()数组输出前k个最大值

                                                        computeOutputSoftmax():计算softmax值,存入output中

输出预测结果

3. quantize()

    fasttext.loadModel():以binary格式加载模型

    fasttext.quantize();

    fasttext.saveModel();

4.printWordVectors()

    fasttext.loadModel():以binary格式加载模型

    fasttext.getDimension():获取词向量维度

    fasttext.getWordVector():输入word,返回vector

 5.printSentenceVectors()

    fasttext.loadModel():以binary格式加载模型

    fasttext.getDimension():获取词向量维度

    fasttext.getSentenceVector():

        如果是有监督学习:addInputVector()所有词向量累加做average

6.printNgrams()

    fasttext.loadModel()::以binary格式加载模型

    fasttext.ngramVectors():

7.nn():

fasttext.loadModel():以binary格式加载模型

fasttext.getDictionary()

fasttext.precomputeWordVectors():对词典中的所有word加载vector

输入queryWord

    fasttext.getWordVector(queryVec, queryWord);返回输入queryWord的queryVec

    fasttext.findNN(wordVectors, queryVec, k, banSet, results);使用优先队列存储最相近的word

8.analogies(): 

    fasttext.loadModel();

    fasttext.analogies(k);

9.predict():

Model::predict():给输入数据打上 1 ~ K 个类标签,并输出各个类标签对应的概率。同上

10.dump():

11.printUsage()

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,457评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,837评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,696评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,183评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,057评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,105评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,520评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,211评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,482评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,574评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,353评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,213评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,576评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,897评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,489评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,683评论 2 335

推荐阅读更多精彩内容