最近研究了一下js加密，发现今日头条比较适合练手，在头条获取数据的XHR中request参数有一项_signature参数，这个是就是经过js加密的数据。解决方案在最后。

image.png

复制js代码进本地运行

先说寻找逻辑，叫顺藤摸瓜，藤是params中的key，瓜是js函数，在哪里摸，我用的是chrome F12，全局查找，就是在网址ctrl+f，注意看结果，前面有url这种一般都是在headers之类带着没什么价值，要看出来具体数据的。

然后在preview里，格式化看得清楚，还是查找signature。

image.png

这样就成功一大半了。顺便还找到了as和cp
as: e.as,cp: e.cp,
这个e也在前面定义了var e = ascp.getHoney()，然后在搜索getHoney，就找到了。

function() {
        var t = Math.floor((new Date).getTime() / 1e3)
          , e = t.toString(16).toUpperCase()
          , i = md5(t).toString().toUpperCase();
        if (8 != e.length)
            return {
                as: "479BB4B7254C150",
                cp: "7E0AC8874BB0985"
            };
        for (var n = i.slice(0, 5), a = i.slice(-5), s = "", o = 0; 5 > o; o++)
            s += n[o] + e[o];
        for (var r = "", c = 0; 5 > c; c++)
            r += e[c + 3] + a[c];
        return {
            as: "A1" + s + e.slice(-3),
            cp: e.slice(0, 3) + r + "E1"
        }

把这段复制进pycharm的zhu.js文件里，然后新建一个python文件来运行，nodejs直接运行也行。

import execjs
f2  = open('zhu.js','r')
js = f2.read()
ctx = execjs.compile(js)
can =ctx.call('getHoney')
print(can)

额，报错了，execjs._exceptions.ProgramError: ReferenceError: md5 is not defined
赶紧查了一下md5是个加密模块，nodejs安装MD5，然后改装了改装一下，增加了var md5 = require('md5-node');运行成功。

然后就到了signature， _signature: i，i = TAC.sign("refresh" === t ? 0 : r.params.max_behot_time_tmp))
params.max_behot_time_tmp应该是在回传的数据里的max_behot_time了。

preview

首次请求是0，后来的是根据前一次请求的后传数据继续请求。

下拉多加载几页发现果然是这样，

image.png

TAC.sign()，还是ctrl+f大法，发现在这里

("v[x++]=�v[--x]�t.charCodeAt(b++)-32�function �return �))�++�.substr�var �.length�()�,b+=�;break;case �;break}".split("�")))()('gr$Daten Иb/s!l y͒yĹg,(lfi~ah`{mv,-n|jqewVxp{rvmmx,&eff�kx[!cs"l".Pq%widthl"@q&heightl"vr*getContextx$"2d[!cs#l#,*;?|u.|uc{uq$fontl#vr(fillTextx$$龘ฑภ경2<[#c}l#2q*shadowBlurl#1q-shadowOffsetXl#$$limeq+shadowColorl#vr#arcx88802[%c}l#vr&strokex[ c}l"v,)}eOmyoZB]mx[ cs!0s$l$Pb<k7l l!r&lengthb%^l$1+s$j�l  s#i$1ek1s$gr#tack4)zgr#tac$! +0o![#cj?o ]!l$b%s"o ]!l"l$b*b^0d#>>>s!0s%yA0s"l"l!r&lengthb<k+l"^l"1+s"j�l  s&l&z0l!$ +["cs\'(0l#i\'1ps9wxb&s() &{s)/s(gr&Stringr,fromCharCodes)0s*yWl ._b&s o!])l l Jb<k$.aj;l .Tb<k$.gj/l .^b<k&i"-4j!�+& s+yPo!]+s!l!l Hd>&l!l Bd>&+l!l <d>&+l!l 6d>&+l!l &+ s,y=o!o!]/q"13o!l q"10o!],l 2d>& s.{s-yMo!o!]0q"13o!]*Ld<l 4d#>>>b|s!o!l q"10o!],l!& s/yIo!o!].q"13o!],o!]*Jd<l 6d#>>>b|&o!]+l &+ s0l-l!&l-l!i\'1z141z4b/@d<l"b|&+l-l(l!b^&+l-l&zl\'g,)gk}ejo{�cm,)|yn~Lij~em["cl$b%@d<l&zl\'l $ +["cl$b%b|&+l-l%8d<@b|l!b^&+ q$sign ', [TAC = {}]),

不知所云，但还是按照老办法试试看能不能运行。
execjs._exceptions.ProgramError: TypeError: Cannot read property 'userAgent' of undefined。
这回我参考一下别人怎么办
原来要加useagent，
global.navigator={};
global.navigator.userAgent=
然后变成这样

function tac(){
    Function(function(t) {
    global.navigator={};
    global.navigator.userAgent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36";


    return '�e(e,a,r){�(b[e]||(b[e]=t("x,y","�x "+e+" y"�)(r,a)}�a(e,a,r){�(k[r]||(k[r]=t("x,y","�new x[y]("+Array(r+1).join(",x[�y]")�(1)+")"�)(e,a)}�r(e,a,r){�n,t,s={},b=s.d=r?r.d+1:0;for(s["$"+b]=s,t=0;t<b;t�)s[n="$"+t]=r[n];for(t=0,b=s�=a�;t<b;t�)s[t]=a[t];�c(e,0,s)}�c(t,b,k){�u(e){v[x�]=e}�f�{�g=�,t�ing(b�g)}�l�{try{y=c(t,b,k)}catch(e){h=e,y=l}}for(�h,y,d,g,v=[],x=0;;)switch(g=�){case 1:u(!�)�4:�f��5:u(�(e){�a=0,r=e�;���{�c=a<r;�c&&u(e[a�]),c}}(���6:y=�,u(�(y��8:if(g=�,l��g,g=�,y===c)b+=g;else if(y!==l)�y�9:�c�10:u(s(���11:y=�,u(�+y)�12:for(y=f�,d=[],g=0;g<y�;g�)d[g]=y.charCodeAt(g)^g+y�;u(String.fromCharCode.apply(null,d��13:y=�,h=delete �[y]�14:���59:u((g=�)?(y=x,v.slice(x-=g,y�:[])�61:u(�[�])�62:g=�,k[0]=65599*k[0]+k[1].charCodeAt(g)>>>0�65:h=�,y=�,�[y]=h�66:u(e(t[b�],�,���67:y=�,d=�,u((g=�).x===c?r(g.y,y,k):g.apply(d,y��68:u(e((g=t[b�])<"<"?(b--,f�):g+g,�,���70:u(!1)�71:�n�72:�+f��73:u(parseInt(f�,36��75:if(�){b��case 74:g=�<<16>>16�g�76:u(k[�])�77:y=�,u(�[y])�78:g=�,u(a(v,x-=g+1,g��79:g=�,u(k["$"+g])�81:h=�,�[f�]=h�82:u(�[f�])�83:h=�,k[�]=h�84:�!0�85:�void 0�86:u(v[x-1])�88:h=�,y=�,�h,�y�89:u(��{�e�{�r(e.y,arguments,k)}�e.y=f�,e.x=c,e}�)�90:�null�91:�h�93:h=��0:��;default:u((g<<16>>16)-16)}}�n=this,t=n.Function,s=Object.keys||�(e){�a={},r=0;for(�c in e)a[r�]=c;�a�=r,a},b={},k={};�r'.replace(/[�-�]/g, function(e) {
        return t[15 & e.charCodeAt(0)]
    })
}("v[x++]=�v[--x]�t.charCodeAt(b++)-32�function �return �))�++�.substr�var �.length�()�,b+=�;break;case �;break}".split("�")))()('gr$Daten Иb/s!l y͒yĹg,(lfi~ah`{mv,-n|jqewVxp{rvmmx,&eff�kx[!cs"l".Pq%widthl"@q&heightl"vr*getContextx$"2d[!cs#l#,*;?|u.|uc{uq$fontl#vr(fillTextx$$龘ฑภ경2<[#c}l#2q*shadowBlurl#1q-shadowOffsetXl#$$limeq+shadowColorl#vr#arcx88802[%c}l#vr&strokex[ c}l"v,)}eOmyoZB]mx[ cs!0s$l$Pb<k7l l!r&lengthb%^l$1+s$j�l  s#i$1ek1s$gr#tack4)zgr#tac$! +0o![#cj?o ]!l$b%s"o ]!l"l$b*b^0d#>>>s!0s%yA0s"l"l!r&lengthb<k+l"^l"1+s"j�l  s&l&z0l!$ +["cs\'(0l#i\'1ps9wxb&s() &{s)/s(gr&Stringr,fromCharCodes)0s*yWl ._b&s o!])l l Jb<k$.aj;l .Tb<k$.gj/l .^b<k&i"-4j!�+& s+yPo!]+s!l!l Hd>&l!l Bd>&+l!l <d>&+l!l 6d>&+l!l &+ s,y=o!o!]/q"13o!l q"10o!],l 2d>& s.{s-yMo!o!]0q"13o!]*Ld<l 4d#>>>b|s!o!l q"10o!],l!& s/yIo!o!].q"13o!],o!]*Jd<l 6d#>>>b|&o!]+l &+ s0l-l!&l-l!i\'1z141z4b/@d<l"b|&+l-l(l!b^&+l-l&zl\'g,)gk}ejo{�cm,)|yn~Lij~em["cl$b%@d<l&zl\'l $ +["cl$b%b|&+l-l%8d<@b|l!b^&+ q$sign ', [TAC = {}]),
 var data = TAC.sign(0);
console.log(data);
return data

}

调用发现又有错误：

image.png

好像说的是var data = TAC.sign(0);之前出现了一个不该出现的逗号，把它改成分号，果然成功了，
满怀欣喜的把signature，cp，as找到拼接成url发送，结果并不能返回数据。

失败的请求

selenium执行js函数获取

有些忧郁的又看看别人怎么办，用selenium获取参数，phantomjs不维护了，听说chrome headless可以替代之，别人家说这么用，chrome还是打开窗口了，后来发现chromedriver.exe版本与chrome有严格的对应关系。官网这样说
总算是chrome是无头的了，现在只差跟着up主把参数弄出来就行了，因为有了前面的查找，selenium执行的函数名称也很清楚，
signature = brower.execute_script('return TAC.sign(0)')
果然出来一个参数，开心的拼接url发送请求还是没数据回来。。。

解决方案：

忧伤的想了好久，尝试了多次，终于在手机版里发现可以不用cp和as参数，用哪里生成的signature都能拼接出结果，只是max_behot_time是藏在前一页最后一项的信息里

image.png

用requests的session或者scrapy都能连续爬取了。不过m站将返回数量20写进了js里，更改params的参数也不能控制一次的爬取量还是很是遗憾。

import requests
import execjs
import requests
import json
import pandas as pd
def getsig():
    f1 = open('tac.js', 'r')
    js = f1.read()
    ctx = execjs.compile(js)
    sig = ctx.call('tac')
    return sig
url ='https://m.toutiao.com/list/?tag=news_hot&ac=wap&count=20&format=json_raw&as={}&cp={}&max_behot_time={}&_signature={}&i={}'
param={'time':0}
head={
    'user-agent':"Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Mobile Safari/537.36",
    'cookie':'Cookie: UM_distinctid=165b34a27731a-08af091a67ebb9-671c1574-1fa400-165b34a2774314; tt_webid=6598406814755440135; uuid="w:e754d55bfb6b4ef4a244960648cbf340"; csrftoken=8b1b549b8c31e14cefe16aa97d1e1662; _ga=GA1.2.1697010536.1536392799; _ba=BA0.2-20180908-51225-5rMin5u1sdxabGk6hoSE; tt_track_id=8e9db579e8a4f11af8d2271a01968604; W2atIF=1; _gid=GA1.2.1176989525.1536566954; __tasessionId=80wif3va21536569183902'
}
article_url =[]
keywords =[]

for _ in range(3):
    print(param['time'])
    sig = getsig()
    can =getas()
    se = requests.Session()

    res = se.get(url.format(param['time'],sig,param['time']),headers =head)
    # cookies = res.cookies.get_dict()
    resp= json.loads(res.text)
    for data in resp['data']:
        article_url.append(data['article_url'])
        keywords.append(data['title'])
    pa = resp['data'][-1]
    param['time'] = pa['behot_time']

df =pd.DataFrame([article_url,keywords]).T
print(df)

结果

image.png

好像必须带着cookie才能爬取后续的，不然永远都只能爬取第一页的内容，获取cookie用request的session都不行可能只能用selenium获取cookie之后再来。忧伤。。。

爬今日头条，各种失败经验，之后成功了

爬今日头条，各种失败经验，之后成功了

复制js代码进本地运行

selenium执行js函数获取

解决方案：

相关阅读更多精彩内容

友情链接更多精彩内容