登录注册写文章

Perl Match with UTF-8

Perl Match with UTF-8

Perl Match with UTF-8

起

尝试使用perl处理中文文档时，发现匹配时总是有BUG。
测试后发现perl似乎判定UTF-8编码的字符长为3。
猜测大概是把汉字拆成ascii后做的匹配。

不过把长度变为三倍后似乎可以运行,即

$lines=~m/^第[一二三四五六七八九十]{6,9}集/

可以匹配

"第二十集","第二十一集" etc

测试后果然发现

print length("第二十集");

Output:
    12

所以说就是编码问题......

承

于是依照utf8 - perldoc.perl.org
增加了

use utf-8;

Do not use this pragma for anything else than telling Perl that your script is written in UTF-8.

测试后果然发现

print length("第二十集");

Output:
    4

但是测试输入发现长度依然不对，说明程序读入文件时无法确定输入的类型是否是UTF-8

转

于是在读文件改为

open(instream, $file) or die ("Could not open file"); # Open the file
binmode instream, ':encoding(UTF-8)';

但是发现报错

Wide character in print

说明输出时没有指定编码为UTF-8。

加上

binmode STDOUT, ':encoding(UTF-8)';

后搞定。

合

结论是似乎Perl没有自动判断输入文件的编码。
交由编程者判断虽然增加了语言的灵活性，但是我认为这更多的是在浪费编程者的精力......

最后编辑于：2017.11.27 06:19:41

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Spring Cloud
Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具（例如配置管理，服务发现，断路器，智...
卡卡罗2017阅读 134,933评论 18赞 139
Java初级面试题
1. Java基础部分基础部分的顺序：基本语法，类相关的语法，内部类的语法，继承相关的语法，异常的语法，线程的语...
子非鱼_t_阅读 31,765评论 18赞 399
iApp_《裕语言》速成开发手册3.0
《裕语言》速成开发手册3.0 官方用户交流：iApp开发交流（1） 239547050iApp开发交流（2） 10...
叶染柒丶阅读 27,825评论 5赞 19
如何在LinearLayout中设置居中
如果想要在LinearLayout中设置居中，需要用到gravity android:gravity: take...
STFocus阅读 6,270评论 0赞 0
【检视阅读】-《好好学习》＋《把时间当朋友》
一、起源在公众号看到永澄老师发起的共读活动，私想着看书谁都会，但是如何能理解作者意图，如何作用书本知识，更重要的...
羊咩咩0v0阅读 387评论 0赞 0

1赞2赞

赞赏

手机看全文