【2017-08-29】字符串及文本的处理(四)

字符串搜索与合并

  • 正则表达式中使用Unicode
    问题:提取一段文本中的所有中文
    使用re模块中的正则表达式进行搜索与匹配,首先需要确保待匹配的字符串文本及正则表达式为Unicode编码,否则可能找不到,同理后续讲到的字节字符串的搜索与匹配,也要讲待匹配的字符及正则表达式转换成字节形式,其实,确定编码范围:例如基本汉字,Unicode编码范围\u4e00-\u9fa5
import re
text=u"we are 我是测试哈哈哈哈"
pattern=re.compile(u'[\u4e00-\u9fa5]+')
zhongwenUnicode=pattern.findall(text)
zhongwen=(i.encode("utf-8") for i in zhongwenUnicode)
for i in zhongwen:
       print(i)
  • 字符串的合并
    简单合并操作,使用+或者直接将字面字符串放在一起
text1="we are"
text2="a leader"
print(text1+" "+text2)#we are a leader
print("we are" "a leader")#we area leader

如果待合并的字符串在一个序列(比如列表、元组、字典等)或者iterable,通常使用join()方法

parts = ['Is', 'Chicago', 'Not', 'Chicago?']
print(','.join(parts))

字符串合并方式有很多种,比如说还有format()、输出的print()方法使用sep参数等,需要根据需求,选择性能更好的方式,适当可利用生成器表达式

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 在挖掘分析的过程当中对字符串的处理是极为重要的,且出现也较为频繁,R语言作为当前最为流行的开源数据分析和可视化平台...
    果果哥哥BBQ阅读 11,237评论 0 8
  • 第5章 引用类型(返回首页) 本章内容 使用对象 创建并操作数组 理解基本的JavaScript类型 使用基本类型...
    大学一百阅读 8,906评论 0 4
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 136,282评论 19 139
  • 母亲节,都在说妈妈,我也说说吧。 以前年纪小,没有觉得妈妈对自己有什么大的影响,年岁渐长,才发觉妈妈对每个孩子的影...
    孙岳阅读 2,622评论 0 0
  • 各位007的同学大家好,我来自浙江湖州.今年25,我是一名幼少儿舞蹈老师.在得到上看到了007计划.我觉得007里...
    VanAllen阅读 1,603评论 0 0

友情链接更多精彩内容