昨天在对字符串进行URL二次编码时用的是网上的编码器,这里用python脚本自己写一下,嗯。。。其中涉及了不同版本python的内置编码函数的不同,各种百度,一顿捣鼓,略有小成,这里稍微说明一下。
-
urllib模块
urllib为python自带的数据库,无需安装,直接可以使用;从python3.0开始,将urllib2、urlparse、和robotparser并入了urllib中,并且修改了urllib模块。
此处我们编码需要使用的是urllib的子模块urllib.request中的quote()和unquote()函数。
-
脚本
- 对不合法字符串进行url编码的脚本:
import urllib.request
a1=input('输入需要编码的字符串:')
print('%s的url编码是'%a1,urllib.request.quote(a1))
- url解码脚本:
import urllib.request
b1=input('输入需要解码的url编码:')
print('url编码%s的解码是'%b1,urllib.request.unquote(b1))
这里是通过使用文本编辑器来执行代码的,当然也可以直接通过命令来执行。
-
对于合法的url字符串(比如字母和数字),这里推荐直接使用burpsuite的decoder模块下的encode as,之后点击下URL就行了,嗯。。。。其实这篇文章的重点在于初步认识了python的urllib库,为后续的爬虫做点准备。
- 补充点url编码与解码的基础知识:
- 扩充下知识面
utf-8、Ascii、Unicode的区分