如何利用 C# + Python 破解猫眼电影的反爬虫机制?

如何利用 C# 爬取「猫眼电影:最受期待榜」及对应影片信息! 这篇图文中可以看到猫眼电影对“本月新增想看人数” 和 “总想看人数”进行了字符集加密。

字体编码

如何利用 C# 爬取「猫眼电影:国内票房榜」及对应影片信息! 这篇图文中也可以看到猫眼电影对“实时票房” 和 “总票房”进行了字符集加密。

字体编码

破解这种利用字符集加密的反爬虫机制,需要建立映射关系表,找到每个字符对应的真实数字即可。怎么做呢?

我们 首先 需要把对应的字符集下载到本地。

stonefont类

然后,把该字符集转换成XML文件。由于 Python 中有 TTFont 指令可以直接使用,于是把转换的功能用 Python 来写并用 pyinstaller 指令打包成 EXE 文件,通过 C# 语言进行调用即可。

imports sys
from fontTools.ttLib import TTFont

if __name__ =='__main__'
    font1 = TTFont(str(sys.argv[1]))
    font1.saveXML(str(sys.argv[2]))

打包main.py文件的代码:

pyinstaller -F main.py

生成的 XML 文件如下:

图形信息

接着,建立映射关系表,把TTGlyph namecountour和真实的数据对应起来。这个不能自动化只能把网页上的数字与源代码中的字符对应,在通过源代码中的字符与这个XML中的 TTGlyph name对应。

映射关系

最后,可以通过加载这份映射表来破解猫眼电影的反爬虫机制。即我先在内存中加载这份映射表,每个字体的图形名称TTGlyph name在刷新后是变化的,但图形信息countour是不会变化的,所以可以先通过图形名称找到图形信息,在通过这份映射表找到对应的真实数字。


以上详细的介绍了破解猫眼电影反爬虫机制的方法,下面我们来写具体的代码。

1. 构造字体图形的结构 FontGlyph

public class FontGlyph
{
    /// <summary>
    /// 图形名称
    /// </summary>
    public string Name { get; set; }

    /// <summary>
    /// 图形数据
    /// </summary>
    public string Glyph { get; set; }

    /// <summary>
    /// 图形值
    /// </summary>
    public int Value { get; set; } = -1;
}

2. 获取字体 WOFF 文件的存储地址

private static string GetWoffUrl(string str)
{
    int end = str.IndexOf(@"') format('woff')", StringComparison.Ordinal);
    int start = str.LastIndexOf("//vfile.meituan.net", StringComparison.Ordinal);
    string url = str.Substring(start, end - start);
    return "http:" + url;
}

3. 下载字体 WOFF 文件到本地

private static string Download(string url)
{
    int index = url.LastIndexOf("/", StringComparison.Ordinal);
    string fileName = @".\font\" + url.Substring(index + 1);

    HttpWebRequest request = WebRequest.Create(url) as HttpWebRequest;

    if (request == null)
        return string.Empty;

    HttpWebResponse response = request.GetResponse() as HttpWebResponse;

    if (response == null)
        return string.Empty;

    Stream reponseStream = response.GetResponseStream();
    if (reponseStream == null)
        return string.Empty;

    Stream stream = new FileStream(fileName, FileMode.Create);
    byte[] bArr = new byte[1024];
    int size = reponseStream.Read(bArr, 0, bArr.Length);
    while (size > 0)
    {
        stream.Write(bArr, 0, size);
        size = reponseStream.Read(bArr, 0, bArr.Length);
    }
    stream.Close();
    reponseStream.Close();
    return fileName;
}

4. 转换字体 WOFF 文件为XML文件

private static string TransXml(string fileName)
{
    string xml = @".\font\" + Path.GetFileNameWithoutExtension(fileName) + ".xml";

    Process p = new Process();
    p.StartInfo.FileName = @".\font\main.exe";
    p.StartInfo.UseShellExecute = false;
    p.StartInfo.RedirectStandardOutput = true;
    p.StartInfo.RedirectStandardInput = true;
    p.StartInfo.CreateNoWindow = true;
    p.StartInfo.Arguments = fileName + " " + xml;
    p.Start();
    p.WaitForExit();
    p.Close();
    return xml;
}

5. 根据 XML 文件获得字体图形文件列表 List<FontGlyph>

private static List<FontGlyph> GetXmlGlyf(string path)
{
    List<FontGlyph> result = new List<FontGlyph>();
    XmlDocument xmldoc = new XmlDocument();
    XmlReaderSettings settings = new XmlReaderSettings();
    settings.IgnoreComments = true;
    XmlReader reader = XmlReader.Create(path, settings);
    xmldoc.Load(reader);
    if (xmldoc.DocumentElement == null)
        return result;

    XmlNodeList nodeList = xmldoc.DocumentElement.ChildNodes;
    foreach (XmlNode node in nodeList)
    {
        if (node.Name == "glyf")
        {
            XmlNodeList lst = node.ChildNodes;
            foreach (XmlNode n in lst)
            {
                XmlElement xe = n as XmlElement;
                if (xe != null)
                {
                    if (string.IsNullOrEmpty(xe.InnerXml) == false)
                    {
                        FontGlyph item = new FontGlyph();
                        item.Name = xe.GetAttribute("name");
                        item.Glyph = xe.InnerXml;
                        item.Value = -1;
                        result.Add(item);
                    }
                }
            }
        }

    }
    return result;
}

6. 建立映射关系

private static int GetValue(string name)
{
    string[] str = new string[]
    {
        "uniF756", "uniED75", "uniF8F8", 
        "uniF81A", "uniEE70", "uniECA0",
        "uniEC6F", "uniE93B", "uniE9D3",
        "uniF8B5"
    };
    for (int i = 0; i < str.Length; i++)
    {
        if (str[i] == name)
            return i;
    }
    return -1;
}

private static List<FontGlyph> GetFontGlyphList(string fileName)
{
    List<FontGlyph> lst = GetXmlGlyf(fileName);

    for (int i = 0, len = lst.Count; i < len; i++)
    {
        lst[i].Value = GetValue(lst[i].Name);
    }
    return lst;
}

7. 解密算法

private static string Decrypt(string str, List<FontGlyph> lstModel, List<FontGlyph> lstCur)
{
    string result = string.Empty;
    string[] ss = str.Split(new char[] {'.'});
    string[] ss1 = ss[0].Split(new char[] {';'}); //处理整数部分

    for (int i = 0; i < ss1.Length; i++)
    {
        if (string.IsNullOrEmpty(ss1[i]) == false)
        {
            int d = GetIndex(ss1[i], lstCur);
            int v = GetValue(lstCur[d].Glyph, lstModel);
            result += v.ToString();
        }
    }

    if (ss.Length != 1) //处理小数部分
    {
        result += ".";
        string[] ss2 = ss[1].Split(new char[] {';'});
        for (int i = 0; i < ss2.Length; i++)
        {
            if (string.IsNullOrEmpty(ss2[i]) == false)
            {
                int d = GetIndex(ss2[i], lstCur);
                int v = GetValue(lstCur[d].Glyph, lstModel);
                result += v.ToString();
            }
        }
    }
    return result;
}

private static int GetIndex(string str, List<FontGlyph> lstCur)
{
    for (int i = 0, len = lstCur.Count; i < len; i++)
    {
        if (lstCur[i].Name.Contains(str.Substring(3).ToUpper()))
            return i;
    }
    return -1;
}

private static int GetValue(string str, List<FontGlyph> lstModel)
{
    for (int i = 0, len = lstModel.Count; i < len; i++)
    {
        if (lstModel[i].Glyph == str)
        {
            return lstModel[i].Value;
        }
    }
    return -1;
}

8. 获取「猫眼电影:国内票房榜 及对应影片信息」修改后的代码

public static List<Film> GetFilmsTicket()
{

    List<Film> result = new List<Film>();

    string url = "https://maoyan.com/board/1"; //国内票房榜
    IHtmlDocument doc = GetHtmlDocument(url);
    if (doc == null)
        return result;

    List<FontGlyph> lstModel = GetFontGlyphList(@".\font\base.xml");

    List<IHtmlElement> woffStr = doc.Find("style").ToList();
    string tempUrl = GetWoffUrl(woffStr[0].InnerHtml());
    string fileNameWoff = Download(tempUrl);
    string fileNameXml = TransXml(fileNameWoff);
    List<FontGlyph> lstNew = GetXmlGlyf(fileNameXml);

    List<IHtmlElement> lists = doc.Find("dd").ToList();

    for (int i = 0; i < lists.Count; i++)
    {

        List<IHtmlElement> infor = lists[i].Find("p").ToList();

        Film item = new Film();
        item.Num = i + 1; //排名

        string dw, ticket;
        List<IHtmlElement> s;

        if (infor.Count < 5)
        {
            item.Time = infor[1].InnerHtml().Trim().Remove(0, 5); //上映时间
            dw = infor[2].InnerHtml().Trim();
            dw = dw.Remove(0, dw.Length - 1); //实时票房单位

            s = infor[2].Find(".stonefont").ToList();

            ticket = s[0].InnerHtml().Trim(); //加密的实时票房
            item.BoxInfo = Decrypt(ticket, lstModel, lstNew) + dw; //实时票房

            dw = infor[3].InnerHtml().Trim();
            dw = dw.Remove(0, dw.Length - 1); //总票房单位

            s = infor[3].Find(".stonefont").ToList();
            ticket = s[0].InnerHtml().Trim(); //加密的总票房
            item.SumBoxInfo = Decrypt(ticket, lstModel, lstNew) + dw; //总票房
        }
        else
        {
            item.Actor = infor[1].InnerHtml().Trim().Remove(0, 3); //演员
            item.Time = infor[2].InnerHtml().Trim().Remove(0, 5); //上映时间
            dw = infor[3].InnerHtml().Trim();
            dw = dw.Remove(0, dw.Length - 1); //实时票房单位

            s = infor[3].Find(".stonefont").ToList();

            ticket = s[0].InnerHtml().Trim(); //加密的实时票房
            item.BoxInfo = Decrypt(ticket, lstModel, lstNew) + dw; //实时票房

            dw = infor[4].InnerHtml().Trim();
            dw = dw.Remove(0, dw.Length - 1); //总票房单位

            s = infor[4].Find(".stonefont").ToList();
            ticket = s[0].InnerHtml().Trim(); //加密的总票房
            item.SumBoxInfo = Decrypt(ticket, lstModel, lstNew) + dw; //总票房
        }

        IHtmlElement a = infor[0].Find("a").ToList()[0]; //获取影片url
        item.MovieName = a.InnerHtml().Trim(); //名称

        url = "https://maoyan.com" + a.Attribute("href").AttributeValue;
        IHtmlDocument temp = GetHtmlDocument(url);

        List<IHtmlElement> t = temp.Find("li.ellipsis").ToList();
        item.Type = t[0].InnerHtml(); //类型

        List<IHtmlElement> b = temp.Find(".dra").ToList();
        item.Introduction = b[0].InnerHtml(); //介绍

        result.Add(item);
    }
    return result;
}

9. 获取「猫眼电影:最受期待榜及对应影片信息」修改后的代码

public static List<Film> GetFilmsExpect(int offset)
{
    List<Film> result = new List<Film>();

    string url = "https://maoyan.com/board/6"; //最受期待榜
    IHtmlDocument doc = GetHtmlDocument(url, offset);

    if (doc == null)
        return result;

    List<FontGlyph> lstModel = GetFontGlyphList(@".\font\base.xml");

    List<IHtmlElement> woffStr = doc.Find("style").ToList();
    string tempUrl = GetWoffUrl(woffStr[0].InnerHtml());
    string fileNameWoff = Download(tempUrl);
    string fileNameXml = TransXml(fileNameWoff);
    List<FontGlyph> lstNew = GetXmlGlyf(fileNameXml);

    List<IHtmlElement> lists = doc.Find("dd").ToList();

    for (int i = 0; i < lists.Count; i++)
    {
        List<IHtmlElement> infor = lists[i].Find("p").ToList();

        Film item = new Film();
        item.Num = i + 1; //排名

        item.Actor = infor[1].InnerHtml().Trim().Remove(0, 3); //演员
        item.Time = infor[2].InnerHtml().Trim().Remove(0, 5); //上映时间
        string dw = infor[3].InnerHtml().Trim();
        dw = dw.Remove(0, dw.Length - 1); //单位

        List<IHtmlElement> p = infor[3].Find(".stonefont").ToList();

        string people = p[0].InnerHtml().Trim(); //加密的新增想看人数
        item.NewWatcher = Decrypt(people, lstModel, lstNew) + dw; //解密的新增想看人数

        dw = infor[4].InnerHtml().Trim();
        dw = dw.Remove(0, dw.Length - 1); //单位

        p = infor[4].Find(".stonefont").ToList();
        people = p[0].InnerHtml().Trim(); //加密的总想看人数
        item.TotalWatcher = Decrypt(people, lstModel, lstNew) + dw; //解密的总想看人数

        IHtmlElement a = infor[0].Find("a").ToList()[0]; //获取影片url
        item.MovieName = a.InnerHtml().Trim(); //名称

        url = "https://maoyan.com" + a.Attribute("href").AttributeValue;
        IHtmlDocument temp = GetHtmlDocument(url);

        List<IHtmlElement> t = temp.Find("li.ellipsis").ToList();
        item.Type = t[0].InnerHtml(); //类型

        List<IHtmlElement> b = temp.Find(".dra").ToList();
        item.Introduction = b[0].InnerHtml(); //介绍

        result.Add(item);
    }
    return result;
}

10. 输出结果

猫眼电影:国内票房榜 及对应影片信息

结果1

猫眼电影:最受期待榜及对应影片信息

结果2

到此为止,有关如何破解猫眼电影的反爬虫机制就全部介绍完了,破解这种反爬虫机制相对来说比较复杂。如果网站通过用户请求的 Headers 进行反爬虫或者通过限制同一IP短时间内多次访问同一页面进行反爬虫,破解起来就相对容易很多,只要请求时加入相应的 Headers 信息或者利用代理IP绕过就好。今天就到这里吧,See You!


相关图文:

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,463评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,868评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,213评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,666评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,759评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,725评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,716评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,484评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,928评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,233评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,393评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,073评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,718评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,308评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,538评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,338评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,260评论 2 352

推荐阅读更多精彩内容