我发现网络上简单的例子都是使用stanfordcorenlp进行token、pos等等,居然没有lemma,这里提供一种调用lemma的方法,这种方法也可以调用java包中的其他方法
pros = {'annotators': 'tokenize, pos, lemma', 'pinelineLanguage': 'en', 'outputFormat': 'json'}
json_lemma_tag = nlp.annotate(text, properties=pros)
dic_lemma_tag = json.loads(json_lemma_tag)
for sentence in dic_lemma_tag['sentences']:
for word in sentence['tokens']:
lemma.append(word['lemma'])
tag.append(word['pos'])
lemma_sentence =" ".join(lemma)#string