正则表达式学习

先搜索下文章学习
https://www.cnblogs.com/ggjucheng/p/3423731.html
http://www.runoob.com/java/java-regular-expressions.html
https://www.cnblogs.com/lizhenlin/p/6654934.html
http://www.zjmainstay.cn/my-regexp
然后自己开始测试

        var p=Pattern.compile("(\\d+)([a-z]+)")
        val  matcher=p.matcher("aa2222dd443")
        var groupCount=matcher.groupCount()
        println("match========${matcher.matches()}=====$groupCount")
        while (matcher.find()){
            val start=matcher.start()
            val end= matcher.end()
            println("result====start=$start=end=$end===========group=${     
 matcher.group()}==${matcher.group(1)}===${matcher.group(2)}")
        }

//结果
match========false=====2
result====start=2=end=8===========group=2222dd==2222===dd

先简单说明下代码里用到的知识。
\d 表示数字,前边还有个斜杠是用来转义的,因为后边用到的斜杠
加号表示匹配前边的规则一次或者多次,至少得有一次。如果要是0次或者多次,请用星号
[a-z] 匹配的是小写字母。类似的[A-Z] ,[0-9]
括号是用来分组的,可以看到有2个括号,所以下边的groupCount就是2了。
如果你要匹配的字符串里的括号,那么加个反斜杠 比如这样 ( 这样就匹配括号了
matches()方法,返回的结果,如果完全匹配,那么才返回true的,上边的明显不是完全匹配,我们只匹配中间的部分,所以返回的是false
find()看名字就知道开始查找了,它和后边的start ,end ,group都是一体的。
只有find返回true,表示找到匹配的东西了,后边几个方法才可以用,否则就异常拉。
start返回的是匹配的第一个字符的所以,end是最后一个字符的索引,
group返回的是当前find匹配到的字符串。相当于group(0)
至于group(1),group(2) 就是前边说的分组了,也就是括号括起来的部分。
解释完了,对于打印结果也就理解拉。
最后简单说下start(1),start(2),end(1) ,end(2)和上边的group(1),group(2)一个道理。都是对某个分组来说的。

修改下代码继续看

        var p=Pattern.compile("\\d+")
        val  matcher=p.matcher("aa2222dd443")
        var groupCount=matcher.groupCount()
        println("match========${matcher.matches()}=====$groupCount")
        while (matcher.find()){
            val start=matcher.start()
            val end= matcher.end()
            println("result====start=$start=end=$end=========${matcher.group()}")
        }

//打印结果
match========false=====0
result====start=2=end=6=========2222
 result====start=8=end=11=========443

分析说明,没有括号,所以groupcount就是0,而且也只能使用matcher.group()方法获取匹配的结果,
这时候用group(1)就挂了。

再修改加个括号

        var p=Pattern.compile("(\\d+)")
        val  matcher=p.matcher("aa2222dd443")
        var groupCount=matcher.groupCount()
        println("match========${matcher.matches()}=====$groupCount")
        while (matcher.find()){
            val start=matcher.start()
            val end= matcher.end()
            println("result====start=$start=end=$end=========${matcher.group()}===${matcher.group(1)}")
        }

//结果
 match========false=====1
result====start=2=end=6=========2222===2222
 result====start=8=end=11=========443===443

分析说明,和上边的差不多,就是多了个括号,所以它分组count就是1了,也能使用group(1),结果和group()一样,因为本来就只有一个。

继续例子

        val fileName="1/0912/3_98/hello-0912_3_98_0025.zip"
        val versionPattern = Pattern.compile("(\\S+)_(\\d+)_(\\d+)_(\\d+).zip")
        val patternMatcher = versionPattern.matcher(fileName)
        if (!patternMatcher.find() || patternMatcher.groupCount() !== 4) {
            println("count==========${patternMatcher.groupCount()}")
            return
        }
        try {
            val Version = patternMatcher.group(1)
            val majorVersion = Integer.valueOf(patternMatcher.group(2))
            val minorVersion = Integer.valueOf(patternMatcher.group(3))
            val subminorVersion = Integer.valueOf(patternMatcher.group(4))
            println("========$Version=====$majorVersion===$minorVersion===$subminorVersion")
        } catch (e: NumberFormatException) {
           
        }

========1/0912/3_98/hello-0912=====3===98===25

说明下\S 代表匹配任何非空白字符 \d代表数字

lookingat用法

Attempts to match the input sequence, starting at the beginning of the region
从开头开始查找,换句话说从第一个字母开始匹配,符合要求就是ture,不符合就是false

 val pattern=Pattern.compile("\\d+")
        val matcher=pattern.matcher("2332ddd")
         val r=matcher.lookingAt()
        var matcher2=pattern.matcher("aa222233dd")
          val  r2=matcher2.lookingAt()
        println("======$r===$r2")
       // ======true===false
 

最后了,复制一点常用的
正则表达式语法
在其他语言中,\ 表示:我想要在正则表达式中插入一个普通的(字面上的)反斜杠,请不要给它任何特殊的意义。

在 Java 中,\ 表示:我要插入一个正则表达式的反斜线,所以其后的字符具有特殊的意义。

所以,在其他的语言中(如Perl),一个反斜杠 \ 就足以具有转义的作用,而在 Java 中正则表达式中则需要有两个反斜杠才能被解析为其他语言中的转义作用。也可以简单的理解在 Java 的正则表达式中,两个 \ 代表其他语言中的一个 \,这也就是为什么表示一位数字的正则表达式是 \d,而表示一个普通的反斜杠是 \\。

字符

说明

\

将下一字符标记为特殊字符、文本、反向引用或八进制转义符。例如,"n"匹配字符"n"。"\n"匹配换行符。序列"\\\\"匹配"\\","\\("匹配"("。

^

匹配输入字符串开始的位置。如果设置了 RegExp 对象的 Multiline 属性,^ 还会与"\n"或"\r"之后的位置匹配。

$

匹配输入字符串结尾的位置。如果设置了 RegExp 对象的 Multiline 属性,$ 还会与"\n"或"\r"之前的位置匹配。

*

零次或多次匹配前面的字符或子表达式。例如,zo* 匹配"z"和"zoo"。* 等效于 {0,}。

+

一次或多次匹配前面的字符或子表达式。例如,"zo+"与"zo"和"zoo"匹配,但与"z"不匹配。+ 等效于 {1,}。

?

零次或一次匹配前面的字符或子表达式。例如,"do(es)?"匹配"do"或"does"中的"do"。? 等效于 {0,1}。

{n}

n 是非负整数。正好匹配 n 次。例如,"o{2}"与"Bob"中的"o"不匹配,但与"food"中的两个"o"匹配。

{n,}

n 是非负整数。至少匹配 n 次。例如,"o{2,}"不匹配"Bob"中的"o",而匹配"foooood"中的所有 o。"o{1,}"等效于"o+"。"o{0,}"等效于"o*"。

{n,m}

M 和 n 是非负整数,其中 n <= m。匹配至少 n 次,至多 m 次。例如,"o{1,3}"匹配"fooooood"中的头三个 o。'o{0,1}' 等效于 'o?'。注意:您不能将空格插入逗号和数字之间。

?

当此字符紧随任何其他限定符(*、+、?、{n}、{n,}、{n,m})之后时,匹配模式是"非贪心的"。"非贪心的"模式匹配搜索到的、尽可能短的字符串,而默认的"贪心的"模式匹配搜索到的、尽可能长的字符串。例如,在字符串"oooo"中,"o+?"只匹配单个"o",而"o+"匹配所有"o"。

.

匹配除"\r\n"之外的任何单个字符。若要匹配包括"\r\n"在内的任意字符,请使用诸如"[\s\S]"之类的模式。

(pattern)

匹配 pattern 并捕获该匹配的子表达式。可以使用 $0…$9 属性从结果"匹配"集合中检索捕获的匹配。若要匹配括号字符 ( ),请使用"\("或者"\)"。

(?:pattern)

匹配 pattern 但不捕获该匹配的子表达式,即它是一个非捕获匹配,不存储供以后使用的匹配。这对于用"or"字符 (|) 组合模式部件的情况很有用。例如,'industr(?:y|ies) 是比 'industry|industries' 更经济的表达式。

(?=pattern)

执行正向预测先行搜索的子表达式,该表达式匹配处于匹配 pattern 的字符串的起始点的字符串。它是一个非捕获匹配,即不能捕获供以后使用的匹配。例如,'Windows (?=95|98|NT|2000)' 匹配"Windows 2000"中的"Windows",但不匹配"Windows 3.1"中的"Windows"。预测先行不占用字符,即发生匹配后,下一匹配的搜索紧随上一匹配之后,而不是在组成预测先行的字符后。

(?!pattern)

执行反向预测先行搜索的子表达式,该表达式匹配不处于匹配 pattern 的字符串的起始点的搜索字符串。它是一个非捕获匹配,即不能捕获供以后使用的匹配。例如,'Windows (?!95|98|NT|2000)' 匹配"Windows 3.1"中的 "Windows",但不匹配"Windows 2000"中的"Windows"。预测先行不占用字符,即发生匹配后,下一匹配的搜索紧随上一匹配之后,而不是在组成预测先行的字符后。

x|y

匹配 x 或 y。例如,'z|food' 匹配"z"或"food"。'(z|f)ood' 匹配"zood"或"food"。

[xyz]

字符集。匹配包含的任一字符。例如,"[abc]"匹配"plain"中的"a"。

[^xyz]

反向字符集。匹配未包含的任何字符。例如,"[^abc]"匹配"plain"中"p","l","i","n"。

[a-z]

字符范围。匹配指定范围内的任何字符。例如,"[a-z]"匹配"a"到"z"范围内的任何小写字母。

[^a-z]

反向范围字符。匹配不在指定的范围内的任何字符。例如,"[^a-z]"匹配任何不在"a"到"z"范围内的任何字符。

\b

匹配一个字边界,即字与空格间的位置。例如,"er\b"匹配"never"中的"er",但不匹配"verb"中的"er"。

\B

非字边界匹配。"er\B"匹配"verb"中的"er",但不匹配"never"中的"er"。

\cx

匹配 x 指示的控制字符。例如,\cM 匹配 Control-M 或回车符。x 的值必须在 A-Z 或 a-z 之间。如果不是这样,则假定 c 就是"c"字符本身。

\d

数字字符匹配。等效于 [0-9]。

\D

非数字字符匹配。等效于 [^0-9]。

\f

换页符匹配。等效于 \x0c 和 \cL。

\n

换行符匹配。等效于 \x0a 和 \cJ。

\r

匹配一个回车符。等效于 \x0d 和 \cM。

\s

匹配任何空白字符,包括空格、制表符、换页符等。与 [ \f\n\r\t\v] 等效。

\S

匹配任何非空白字符。与 [^ \f\n\r\t\v] 等效。

\t

制表符匹配。与 \x09 和 \cI 等效。

\v

垂直制表符匹配。与 \x0b 和 \cK 等效。

\w

匹配任何字类字符,包括下划线。与"[A-Za-z0-9_]"等效。

\W

与任何非单词字符匹配。与"[^A-Za-z0-9_]"等效。

\xn

匹配 n,此处的 n 是一个十六进制转义码。十六进制转义码必须正好是两位数长。例如,"\x41"匹配"A"。"\x041"与"\x04"&"1"等效。允许在正则表达式中使用 ASCII 代码。

\num

匹配 num,此处的 num 是一个正整数。到捕获匹配的反向引用。例如,"(.)\1"匹配两个连续的相同字符。

\n

标识一个八进制转义码或反向引用。如果 \n 前面至少有 n 个捕获子表达式,那么 n 是反向引用。否则,如果 n 是八进制数 (0-7),那么 n 是八进制转义码。

\nm

标识一个八进制转义码或反向引用。如果 \nm 前面至少有 nm 个捕获子表达式,那么 nm 是反向引用。如果 \nm 前面至少有 n 个捕获,则 n 是反向引用,后面跟有字符 m。如果两种前面的情况都不存在,则 \nm 匹配八进制值 nm,其中 n 和 m 是八进制数字 (0-7)。

\nml

当 n 是八进制数 (0-3),m 和 l 是八进制数 (0-7) 时,匹配八进制转义码 nml。

\un

匹配 n,其中 n 是以四位十六进制数表示的 Unicode 字符。例如,\u00A9 匹配版权符号 (©)。

抽几个常用的出来

\d 数字0到9 ,等价于 [0-9]
\D 非数字0到9,等价于 [^0-9]
\s 空白字符,常用来匹配空格,当然也包括制表符tab按出来的空格,换页符
\S 大写的都表示非小写的效果
\w 匹配任何字类字符,字母数字外加下划线,也就是 [A-Za-z0-9_]
\W 上边的取反

星号 0次或多次
问号 0次或者1次
加号 1次或者多次
那么如果要有个范围咋办? 用花括号
{3} 固定3次
{3,9} 最小3次,最大9次
{3,} 最小3次,上不封顶
x|y匹配 x 或 y。例如,'z|food' 匹配"z"或"food"。'(z|f)ood' 匹配"zood"或"food"。

学这个的目的

我就是为了给手机号中间加个横杠才来学习的,学完了,才写一个
如下输入框,限数字,长度13,算上2个横杠的长度

 <EditText
                android:id="@+id/et_phone2"
                android:layout_width="match_parent"
                android:layout_height="wrap_content"
                android:layout_marginTop="10dp"
                android:maxLength="13"
                android:inputType="number"
                android:digits="0123456789"
                android:hint="125-2254-1452" />

代码如下

        et_phone2.addTextChangedListener(object :TextWatcher{
            override fun afterTextChanged(s: Editable?) {
                et_phone2.removeTextChangedListener(this)//取消监听,要不下边settext的话就死循环了。
                val pattern = Pattern.compile("(\\d{3})(\\d{0,4})(\\d{0,4})")
                val str=s.toString().trim().replace("-","")
                val m = pattern.matcher(str)
                if (m.matches()) {
                    var changed=m.group(1)
      //后边两个可能是空,为空的话不加横杠,
                    (2 .. 3).forEach {
                        val end=m.group(it)
                        if(!TextUtils.isEmpty(end)){
                            changed="$changed-$end"
                        }
                    }

                    et_phone2.setText(changed)
                    et_phone2.setSelection(changed.length)
                }else{
                    et_phone2.setText(str)
                    et_phone2.setSelection(str.length)
                }
                et_phone2.addTextChangedListener(this)
            }
            override fun beforeTextChanged(s: CharSequence?, start: Int, count: Int, after: Int) {
              
            }

            override fun onTextChanged(s: CharSequence?, start: Int, before: Int, count: Int) {
              
            }
        })

简单测试了下没啥问题,如果有人看到这里帮忙测试下有没有问题。

记录

实际使用中记录

Longtitude (X),Latitude (Y),POI Name,Address,City,State,Zip,Country
-98.418316,45.458857,ABERDEEN REGIONAL AIRPORT,4430 HWY 12 EAST,ABERDEEN,SD,57401,UNITED STATES
-81.430298,40.9151,AKRON - CANTON REGIONAL AIRPORT,5400 LAUBY ROAD,NORTH CANTON,OH,44720,UNITED STATES
-84.188528,31.532176,"ALBANY, GA - SOUTHWEST GEORGIA REGIONAL AIRPORT",3905 NEWTON ROAD,ALBANY,GA,31707,UNITED 

正则表达式我是这样写的
第一种逗号结尾的,[^,]表示不是逗号的字符,+表示至少有一个
第二种,双引号加逗号结尾,双引号里可能还有逗号

String rx="[^,]+,|\"[^,]+\",";

当然了,我们这个是从本地文件读取的,使用系统自带的类来处理
findInLine:如果找到,指针就会指向找到的字符串的末尾。所以我们调用N次就行,当然了最后一个Country的属性是没有逗号的,那使用next()方法,剩下的都给它即可。

Scanner scanner = new Scanner(poiFile);

              while(scanner.hasNextLine()) 
              {
                scanner.nextLine();
                try 
                {
          
                  Longtitude = scanner.findInLine(rx);
                  Latitude = scanner.findInLine(rx);
                  Name = scanner.findInLine(rx);
                  String Address = scanner.findInLine(rx);
                  String City = scanner.findInLine(rx);
                  String State = scanner.findInLine(rx);
                  String Zipcode = scanner.findInLine(rx);
                  String Country=scanner.next();

复习知识点
| 表示或者
[abc] 表示匹配a或者b或者c都可以

  1. 排除包含字符串helloworld的那些行, 查看日志的时候可以过滤一些无用的重复信息
^(?!.*helloworld).*$

资料
https://docs.python.org/zh-cn/3/library/re.html

例子

查找包含这些内容的行

map_1113|map_113|map_1140|map_1141|map_1142

取反,就是不要上边查找的那些行
注意,如果有换行符的话加上\r\n
查找,替换为空即可

.*(map_1113|map_113|map_1140|map_1141|map_1142).*
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容

  • 原文参考自: https://www.jianshu.com/p/681d3e07fb0f 一、原理概论 1、正则...
    Rui哥阅读 551评论 0 2
  • 正则表达式练习题点击这里 创建一个正则表达式 使用一个正则表达式字面量,其由包含在斜杠之间的模式组成,如下所示: ...
    打铁大师阅读 1,239评论 0 6
  • python的re模块--细说正则表达式 可能是东半球最详细最全面的re教程,翻译自官方文档,因为官方文档写的是真...
    立而人阅读 22,831评论 4 46
  • Python中的正则表达式(re) import rere.match #从开始位置开始匹配,如果开头没有则无re...
    BigJeffWang阅读 7,050评论 0 99
  • (一) 行走太匆匆 你向前一闪 便不见了你灵动的裙摆 我向后只一瞥 就错过了你的花季 时空沧桑 只留下彩虹 点缀风...
    水天一色的美阅读 468评论 29 66