Python检测多国语言

Python检测多国语言

文档链接:https://pypi.org/project/langdetect/

一、基础介绍

在很多场合中,我们获得的语言会很多种?例如,英文,法语,中文,繁体中文,如何对这些语言进行具有针对性的检测和处理尤为重要!


多国语言交流(图片为网图)

在这里,我们采用谷歌的langdetect库进行语言检测

(1)首先,我们先下载langdetect

pip install langdetect

(2)测试代码

# -*- coding: utf-8 -*-

# 需要识别的句子(这里是中文)
str = '中文'

# 需要识别的句子(这里是英文)
# str = 'Otec matka syn.'

# 引用库
from langdetect import detect
from langdetect import detect_langs

# 当文本过短或模糊时,判断出来的结果会不确定;
# 如果要让结果唯一,添加以下两行:
from langdetect import DetectorFactory
DetectorFactory.seed = 0

# 判断语言种类
print(detect(str))

# 概率
print(detect_langs(str))

(3)输出结果

zh-cn
[zh-cn:0.9999945807402004]

二、语言范围介绍

(1)支持的语言类型:
支持检测55种语言: af, ar, bg, bn, ca, cs, cy, da, de, el, en, es, et, fa, fi, fr, gu, he, hi, hr, hu, id, it, ja, kn, ko, lt, lv, mk, ml, mr, ne, nl, no, pa, pl, pt, ro, ru, sk, sl, so, sq, sv, sw, ta, te, th, tl, tr, uk, ur, vi, zh-cn, zh-tw

(2)语言类型解释:
百度百科:iso 639-1

(3)具体
快速查看:

标签 内容 标签 内容 标签 内容 标签 内容
aa 阿法尔语 fr 法语 li 林堡语 se 北萨米语
ab 阿布哈兹语 fy 弗里西亚语 ln 林加拉语 sg 桑戈语
ae 阿维斯陀语 ga 爱尔兰语 lo 老挝语 sh 塞尔维亚-克罗地亚语
af 南非语 gd 苏格兰盖尔语 lt 立陶宛语 si 僧加罗语
ak 阿坎语 gl 加利西亚语 lu 卢巴语 sk 斯洛伐克语
am 阿姆哈拉语 gn 瓜拉尼语 lv 拉脱维亚语 sl 斯洛文尼亚语
an 阿拉贡语 gu 古吉拉特语 mg 马达加斯加语 sm 萨摩亚语
ar 阿拉伯语 gv 马恩岛语 mh 马绍尔语 sn 绍纳语
as 阿萨姆语 ha 豪萨语 mi 毛利语 so 索马里语
av 阿瓦尔语 he 希伯来语 mk 马其顿语 sq 阿尔巴尼亚语
ay 艾马拉语 hi 印地语 ml 马拉亚拉姆语 sr 塞尔维亚语
az 阿塞拜疆语 ho 希里莫图语 mn 蒙古语 ss 斯瓦特语
ba 巴什基尔语 hr 克罗地亚语 mo 摩尔达维亚语 st 南索托语
be 白俄罗斯语 ht 海地克里奥尔语 mr 马拉提语 su 巽他语
bg 保加利亚语 hu 匈牙利语 ms 马来语 sv 瑞典语
bh 比哈尔语 hy 亚美尼亚语 mt 马耳他语 sw 斯瓦希里语
bi 比斯拉马语 hz 赫雷罗语 my 缅甸语 ta 泰米尔语
bm 班巴拉语 ia 国际语A na 瑙鲁语 te 泰卢固语
bn 孟加拉语 id 印尼语 nb 书面挪威语 tg 塔吉克斯坦语
bo 藏语 ie 国际语E nd 北恩德贝勒语 th 泰语
br 布列塔尼语 ig 伊博语 ne 尼泊尔语 ti 提格里尼亚语
bs 波斯尼亚语 ii 四川彝语诺苏语 ng 恩敦加语 tk 土库曼语
ca 加泰隆语 ik 依努庇克语 nl 荷兰语 tl 他加禄语
ce 车臣语 io 伊多语 nn 新挪威语 tn 塞茨瓦纳语
ch 查莫罗语 is 冰岛语 no 挪威语 to 汤加语
co 科西嘉语 it 意大利语 nr 南恩德贝勒语 tr 土耳其语
cr 克里语 iu 因纽特语 nv 纳瓦霍语 ts 宗加语
cs 捷克语 ja 日语 ny 尼扬贾语 tt 塔塔尔语
cu 古教会斯拉夫语 jv 爪哇语 oc 奥克语 tw 特威语
cv 楚瓦什语 ka 格鲁吉亚语 oj 奥吉布瓦语 ty 塔希提语
cy 威尔士语 kg 刚果语 om 奥洛莫语 ug 维吾尔语
da 丹麦语 ki 基库尤语 or 奥利亚语 uk 乌克兰语
de 德语 kj 宽亚玛语 os 奥塞梯语 ur 乌尔都语
dv 迪维希语 kk 哈萨克语 pa 旁遮普语 uz 乌兹别克语
dz 不丹语 kl 格陵兰语 pi 巴利语 ve 文达语
ee 埃维语 km 高棉语 pl 波兰语 vi 越南语
el 现代希腊语 kn 卡纳达语 ps 普什图语 vo 沃拉普克语
en 英语 ko 朝鲜语韩语 pt 葡萄牙语 wa 沃伦语
eo 世界语 kr 卡努里语 qu 凯楚亚语 wo 沃洛夫语
es 西班牙语 ks 克什米尔语 rm 罗曼什语 xh 科萨语
et 爱沙尼亚语 ku 库尔德语 rn 基隆迪语 yi 依地语
eu 巴斯克语 kv 科米语 ro 罗马尼亚语 yo 约鲁巴语
fa 波斯语 kw 康沃尔语 ru 俄语 za 壮语
ff 富拉语 ky 吉尔吉斯语 rw 卢旺达语 zh 中文汉语
fi 芬兰语 la 拉丁语 sa 梵语 zu 祖鲁语
fj 斐济语 lb 卢森堡语 sc 萨丁尼亚语
fo 法罗语 lg 卢干达语 sd 信德语

参考文献原文路径

1、Python使用谷歌langdetect检测语言
2、Python识别不同国家语言类型
3、github原代码

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,386评论 6 479
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,939评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,851评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,953评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,971评论 5 369
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,784评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,126评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,765评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,148评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,744评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,858评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,479评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,080评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,053评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,278评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,245评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,590评论 2 343