video caption评价标准简介

1.     BLEU

1.1       N-gram precision


观察如下示例:candidate1的1-gram precision为17/18,candidate2的1-gram precision为8/14.


1.2       Modified n-gram precision

对于下面的例句,其1-gram precision为7/7=1,显然这不是一个完整的句子,因此,这是不合理的。考虑改进的n-gram precision,如果一个unigram在reference sentence中已经被匹配过一次,则不会进行第二次匹配。


因此,修正过的n-gram precision,考虑了这一因素,


其中,

这样,candidate的modified 1-gram precision为2/7,而不是7/7.

1.3 Sentence brevity penalty

对于某些很短的句子,如下面的例句,虽然不能构成完整的有意义的一句话,但是由于它的所有unigram都可以在reference sentences中得到匹配,因此它的modified n-gram precision为1。考虑到这一因素,我们需要引入一个brevity penalty factor,对过于短的句子进行惩罚。



1.4  BLEU metrics

综合以上因素,得到BLEU的计算公式为:


一般,我们将N取到4. BLEU值越大,说明生成的句子越好。

2. ROUGE-L

不同于BLEU只考虑了precision,ROUGE是基于recall的相似度计算方法。

2.1 LCS(最长公共子序列)


2.2 ROUGE-L


3.  METEOR

3.1 创建alignment

根据以下准则创建candidate到reference的unigram之间的alignment:

1)每个candidate的unigram只能映射到0-1个reference的unigram

2)Unigram map criteria

      Exact:只有两个unigram完全相同时可以进行映射

      Porter stem:两个unigram为同根词时可以进行映射,如“computers”和“computer”

       WN synonymy:两个unigram为同义词时可以进行映射。

      一般情况下,首先考虑exact,其次为porter stem,最后为WN synonymy。

3)如果存在多种映射方式构成一个alignment,则选择有最少交叉映射数量的映射方式

3.2 F-mean

得到candidate和reference的unigram-alignment之后,计算它们的precision和recall,得到F-mean:


3.3 惩罚系数

考虑到如下的序列,ABCD和BDAC,虽然每个unigram都可以匹配上,但顺序完全不同,因此,引入一个惩罚系数,对这种不连续的情况进行处理。

Chunk:连续且匹配的语句块,最小长度为1


4. CIDEr

4.1 TF-IDF

在所有Image对应的reference senteces中频繁出现的n-gram,很可能是包含信息量很少的没有意义的词,应该给予更小的权重。因此,计算TF-IDF作为第k个n-gram的权重



4.2 CIDEr

将所有的n-gram得到的权重排在一起,可以得到一个向量。计算candidate和reference的余弦距离,得到CIDErn。


一般,N取到4

参考文献

1. BLEU: a Method for Automatic Evaluation of Machine Translation

2. METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments

3. CIDEr: Consensus-based Image Description Evaluation

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,490评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,581评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,830评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,957评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,974评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,754评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,464评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,357评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,847评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,995评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,137评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,819评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,482评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,023评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,149评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,409评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,086评论 2 355

推荐阅读更多精彩内容

  • 论文地址 ACL-2002 一、摘要 对机器翻译的人工评估是高代价且无法复用的。该文提出了一种自动评估机器翻译,且...
    EdwardLee阅读 5,535评论 0 4
  • 我好想家,可能人在孤单的时候最想家。总是想起家里的温暖,现在的我,一天说不了几句话,唯一的几句话还是妈妈打电话过来...
    somersbyyy阅读 91评论 0 0
  • 早,公交车站。 两个男女,男头部应该有受过伤做过手术,半边脑袋凹陷,手脚行动却极灵活,提着两袋编织行李匆匆从马路对...
    向向向上阅读 177评论 0 0
  • 醒在刚刚。 透过窗户, 是微微天光。 透过窗户, 是唰唰的车轮, 驶向远方。 远方啊~远方。 令我魂牵梦萦, 青山...
    木木无纹阅读 188评论 1 10
  • 每个人 从生下来就注定会有一个人和你从相识到相知最后到相濡以沫或是爱情出了问题,分手了,或是两个人中一方身体...
    爱听故事阅读 185评论 0 0