关于编码与解码的思考

关于编码与解码的思考

最近做了SCTF,看了官方wp,其中看到了在进行xss测试的使用了
{{'a'.constructor.prototype.charAt=[].join;$eval('x=1} } };\u0061\u006c\u0065\u0072\u0074\u0028\u0031\u0029//');}}
这时不禁想到了一个问题,为什么要进行js编码?什么时候才应该进行编码绕过?浏览器与服务器之间是如何处理编码与解码的?

常用编码

URL编码:一个百分号和该字符的ASCII编码所对应的2位十六进制数字,例如“/”的URL编码为%2F(一般大写,但不强求)
HTML实体编码
命名实体:以&开头,分号结尾的,例如“<”的编码是"&lt;"
字符编码:十进制、十六进制ASCII码或unicode字符编码,样式为“&#数值;”,例如“<”可以编码为“&#060;”和“&#x3c;
JS编码:js提供了四种字符编码的策略

1、三个八进制数字,如果不够个数,前面补0,例如"e"编码为"\145"
2、两个十六进制数字,如果不够个数,前面补0,例如"e"编码为"\x65"
3、四个十六进制数字,如果不够个数,前面补0,例如"e"编码为"\u0065"
4、对于一些控制字符,使用特殊的C类型的转义风格(例如\n和\r)

CSS编码:用一个反斜线()后面跟1~6位的十六进制数字,例如e可以编码为"\65"或"65"或"00065"
复合编码
所谓复合编码,也就是说输出的内容输出在多个环境中,例如

<td onclick="openUrl(add.do?userName='<%=value%>');">11</td>

value的内容首先出现在一个URL中,这个URL在一段javascript总,而javascript代码又是html的一部分。所以解码的顺序就是HTML解码–>js解码–>url解码,那么正确的编码顺序就应该是url编码–>js编码–>html编码。
下面的代码参考了文章:http://www.freebuf.com/articles/web/43285.html

实例

First

核心代码:

<?php
 
function htmlencode($str){
   if(empty($str)) return;
   if($str == "") return;
 
   $str = str_ireplace("<","",$str);
   $str = str_ireplace(">","",$str);
   $str = str_ireplace("script","",$str);
   $str = str_ireplace("img","",$str);
   $str = str_ireplace(":","",$str);
   $str = str_ireplace("javascript","",$str);
 
   return $str;
}
 
if(!array_key_exists ("name",$_GET) || $_GET['name'] == NULL || $_GET['name'] == ''){
 
 $isempty = true;
 
} else {
 
 $html .= '<pre>';
 $html .= '<a onclick="'.htmlencode($_GET['name']).'">click this url</a>';
 $html .= '</pre>';
 
}
echo $html;
?>

对用户输入进行了过滤操作,过滤了:<,>,script,等,这里还要提一下<pre>标签:

pre 元素可定义预格式化的文本。被包围在 pre 元素中的文本通常会保留空格和换行符。而文本也会呈现为等宽字体。

也就是说,原封不动应用原格式而不会进行html的预处理更改
然后考虑如何注入xss,$name存在于两层环境中,先在html中,然后在js中,所以解码的顺序是html->js,因此可以构造javascript:alert(/xss/),然后这里可以对整个语句进行html编码:

&#106;&#97;&#118;&#97;&#115;&#99;&#114;&#105;&#112;&#116;&#58;&#97;&#108;&#101;&#114;&#116;&#40;&#47;&#120;&#115;&#115;&#47;&#41;

或者局部编码:

java&#115;cript&#58;alert(/xss/)

都可以得到结果:


dom1.png

Second

主要代码:

<?php
 
if(!array_key_exists ("name",$_GET) || $_GET['name'] == NULL || $_GET['name'] == ''){
 
   $isempty = true;
 
} else {
   $value = $_GET['name'];
   $html .= '<pre>';
   $html .= "Your Name is :
   <div id='a'></div>
   <script>
   document.getElementById('a').innerHTML= "."'".htmlspecialchars($value)."'".";
   </script>
 ";
   $html .= '</pre>';
 
}

echo $html;
?>

当我们输入<img src=1 onerror=alert(1)>时,可以发现源代码已将其处理为

dom2.png

因为htmlspecialchars对特殊字符进行了处理,会将"<",">","&"," ' "," " "处理为实体,所以再分析$value所处的环境,因为处在<scritpt>中,所以先是js环境,然后是html环境,所以可以对其进行js编码:

\x3c\x69\x6d\x67\x20\x73\x72\x63\x3d\x31\x20\x6f\x6e\x65\x72\x72\x6f\x72\x3d\x61\x6c\x65\x72\x74\x28\x31\x29\x3e

得到弹窗


dom3.png

如何理解编码与解码过程

其实我当时看了还是有点绕,最后查了下资料,大致总结下:

DOM

首先要理解的是DOM这个东西,文档对象模型,DOM是现目前而言处理html和xml的常用方法,给个图:

dom.jpg

当处理html文档的时候,他就会将其肢解为一个个的分支树,然后解析

浏览器基本工作流程

浏览器的构成

  • 用户界面- 包括地址栏、后退/前进按钮、书签目录等,也就是你所看到的除了用来显示你所请求页面的主窗口之外的其他部分
  • 浏览器引擎- 用来查询及操作渲染引擎的接口
  • 渲染引擎- 用来显示请求的内容,例如,如果请求内容为html,它负责解析html及css,并将解析后的结果显示出来
  • 网络- 用来完成网络调用,例如http请求,它具有平台无关的接口,可以在不同平台上工作
  • UI 后端- 用来绘制类似组合选择框及对话框等基本组件,具有不特定于某个平台的通用接口,底层使用操作系统的用户接口
  • JS解释器- 用来解释执行JS代码
  • 数据存储- 属于持久层,浏览器需要在硬盘中保存类似cookie的各种数据,HTML5定义了web database技术,这是一种轻量级完整的客户端存储技术
dom4.jpg

工作流程

dom5.jpg

处理流程

  1. 当浏览器发送http请求时,会先对特殊字符进行URL编码后,发送给服务器。

  2. 服务器收到客户端发送来的http请求,会对其进行URL解码后,再进行处理,处理完成后将结果返回给浏览器。

  3. 浏览器接收到html文件后,最先是触发html解析器来解析html,将标签转化为内容树中的DOM节点,此时在识别标签的时候,html解析器是不能识别哪些被html实体编码了,只有当整个DOM树建立起来后,才能对每个节点的内容进行识别,如果有html实体编码,再对其进行解码。

  4. 在html解析器过程中,遇到js标签诸如<script>会调用js解释器对js代码进行解析,而js DOM API会对DOM结构进行更改,DOM树节点的更改也会反过来触发html解释器。

  5. CSS解释器也会在html解释器过程中参与进来,但它不会干扰到DOM树,它会结合<style>标签和CSS文件以及html指令来构建render tree。

概括言之:
URL解析->HTML解析->css渲染->js解析
DOM树有特定语法规则,识别特定标签,这意味着,如果标签被破坏,DOM则会置之不理
回顾之前两个例子:

  • 第一个场景中,js语句是在a标签中,在onclick事件触发js解释器之前,DOM树结构已经建立完成了,并且这里也没有DOM API操作,所以浏览器会先对该语句进行html解码,然后再是js解码,所以当我们对payload进行html编码后,在js解释器解析该js语句时,其已经被html解码了,是正常的js语句,所以能够正常弹窗。
  • 场景二中,payload是在script标签里面,浏览器解析到这里时,会触发js解释器,js解释器会对该语句进行js解码操作,我们使用js编码的payload被还原成正常的语句。虽然此时整个DOM树已经建立起来了,但是由于DOM API存在,会再一次的调用html解释器,对我们的payload进行解析,payload里面有js标签,再一次触发js解释器,完成对js语句调用,成功弹窗。

参考链接:
http://www.mamicode.com/info-detail-1712225.html
http://xuelinf.github.io/2016/05/18/%E7%BC%96%E7%A0%81%E4%B8%8E%E8%A7%A3%E7%A0%81-%E6%B5%8F%E8%A7%88%E5%99%A8%E5%81%9A%E4%BA%86%E4%BB%80%E4%B9%88/

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,444评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,421评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,363评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,460评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,502评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,511评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,280评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,736评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,014评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,190评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,848评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,531评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,159评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,411评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,067评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,078评论 2 352

推荐阅读更多精彩内容