使用Python下载某个Android模块源码

个人感觉Android源码是学习Android开发的最好资料,在这里首先推荐两个看Android源码的网站:
androidos
androidxref
两个网站的内容都差不多,其中androidos的排版比较舒服,还进行了热门模块的索引,可以很方便的下载某些文件,但是下载整个模块时候就比较坑了,比如下载Music模块时,如图

只有8kb,明显这个网站自带的下载只是下载了一级目录下的内容,没有递归下载深层次目录的内容,这不是闹着玩么....

办法总是有的,我手动一级一级下载不就好了么( ̄▽ ̄)/。开个玩笑,正好最近在学Python,于是就试着写一个程序,来下载整个模块的内容。

主要思路是,利用栈,使用类似深度遍历的方法开始遍历:
1.访问模块根目录的地址,进入第2步
2.解析HTML文档,得到该级目录下的内容,将各个内容的地址进栈,进入第3步
3.如果栈不为空,从栈顶弹出一个地址,访问该地址,如果是文件,执行第4步,如果是文件夹,执行第5步。如果栈为空,执行第6步
4.下载该文件,进入第3步
5.在本地创建该文件夹,保持路径嵌套正确,并且访问该地址,回到第2步
6.程序结束

程序并不复杂,关键点在于解析HTML,获取到我们需要的东西,具体做法可以把我的代码和网页的源代码联合起来看,这里解析HTML我使用了BeautifulSoup模块,这里顺便提供一下该模块的官方中文文档
Beautiful Soup 中文文档

代码比较短我就直接贴出来,大部分地方会有注释:

from urllib import request
from bs4 import BeautifulSoup
from retrying import retry  #一个比较不错的出错重试库,没用的朋友可以尝试一下
import os
import time
import random
class Utils(object):
    SUCCESS_CODE = 200
    ERROR = "err"
    BaseUrl = "https://www.androidos.net.cn"
    Size = '-'
    DEBUG = True
    
    #打开地址,失败时最多重试3次,每次重试前等待3s
    @retry(stop_max_attempt_number = 3,wait_fixed = 3000)
    def opneUrl(self,url):
        with request.urlopen(url,None,10) as response:
            if response.getcode() == self.SUCCESS_CODE:
                return [True, url, response.read().decode('utf-8')]
            else:
                raise Exception("connect error")
    #主要用于捕获异常
    def getHtml(self,url):
        try:
            return self.opneUrl(url)
        except Exception as e:
            self.err += 1
            self.log("Error! url = " + url + str(e))
            return [False, url, self.ERROR]
    
    #解析HTML文档
    def parase(self,html):
        if html[0]:
            try:
                soup = BeautifulSoup(html[2],"lxml")  #此处使用lxml作为解析器,有可能需要另行安装,该解析器需要c语言库支持
                table = soup.find(self.getFileList)#找到文件列表所在的table
                trs = table.find('tbody').find_all('tr')#每个条目都是一个tr,拿到全部条目
                for tr in trs:
                    if len(tr.find_all('td')) > 2:#过滤掉那个返回上一级的条目
                        info = [True, tr.find(self.getName).a.string, tr.find(self.getSize).string != self.Size, self.BaseUrl+tr.find(self.getName).a['href']]#存储解析到的信息
                        if info[2]:
                            info[3] = info[3].replace("xref","download")#如果是文件的话替换为下载地址
                        self.stack.append(info)#进栈
            except Exception as e:
                self.err += 1
                self.log("Error! Parase fail ,url = " + html[1])
                self.stack.append([False,html[1]])
        else:
            self.stack.append([False,html[1]])
  
    #下载或者创建目录
    def mkDirOrDownload(self):
        while len(self.stack) != 0:#循环出栈
            s = self.stack.pop()
            if s[0]:
                if s[2]:#如果是文件,则下载
                    filename = s[3].partition(self.module)[2]#通过地址解析出文件名及相对路径
                    self.log("download file : " + filename)
                    try:
                        self.download(s[3],filename)
                    except Exception as e:
                        self.err += 1
                        self.log("Error! download fail : url = " + s[3] + " " + str(e))
                else:#如果是目录则创建目录
                    dirname = s[3].partition(self.module)[2]#通过地址解析出目录的相对路径
                    self.log("mkdir : " + dirname)
                    os.mkdir(self.downDir + dirname)
                    self.parase(self.getHtml(s[3]))
        self.log("end!!! error = "+ str(self.err) + " time = " + str(time.time() - self.startTime))
  
    #下载文件的方法,同样失败时重试3次,每次重试前等待3s
    @retry(stop_max_attempt_number = 3,wait_fixed = 3000)
    def download(self,url,filename):
        with request.urlopen(url,None,10) as file:
            data = file.read()
            with open(self.downDir + filename, 'wb') as down:
                down.write(data)

    def getFileList(self,tag):
        return tag.name == 'table' and 'table' in tag['class'] and 'filelist' in tag['class'] and 'table-hover' in tag['class']

    def getName(self,tag):
        return tag.name == 'td' and 'content' in tag['class']

    def getSize(self,tag):
        return tag.name == 'td' and 'size' in tag['class']
   
    #输出日志的方法
    def log(self,info):
        if self.DEBUG:
            print(info)
            with open(self.downDir + self.logName, 'a') as log:
                log.write(info)
                log.write('\n')

    #运行入口
    def run(self):
        self.parase(self.getHtml(self.url))
        self.mkDirOrDownload()
  
    #类初始化
    def __init__(self,url,directory):
        self.startTime = time.time()  #记录开始时间
        self.err = 0 #记录错误数
        self.stack = []  #初始化栈
        self.url = url  #存储传入的模块地址
        self.module = url.split('/').pop() + "/"  #解析出模块名
        self.downDir = directory + self.module  #构建下载目录
        self.logName = "log"+ str(random.uniform(10,20))[3:]  #随机生成一个日志文件
        try:
            os.mkdir(self.downDir)  #创建下载目录
        except Exception as e:
            print(e)
            exit(0)

以下载Music模块为例

from Utils import Utils
desktop = "C:/Users/mpc/Desktop/"
url = "https://www.androidos.net.cn/android/8.0.0_r4/xref/packages/apps/Music"

utils = Utils(url,desktop)
utils.run()

这基本属于Python比较简单基础的应用,由于初学Python,还写不出比较厉害的程序,还有许多不足点需要补充,另外本程序没有采用多线程方法,会导致下载速度比较慢。如果有什么建议或者补充欢迎提出ヾ(๑╹◡╹)ノ"


实测下来,下载整个apps下面的48个模块

用时如下

其中有7个错误,都是网站没有该文件



最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 221,576评论 6 515
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,515评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 168,017评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,626评论 1 296
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,625评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,255评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,825评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,729评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,271评论 1 320
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,363评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,498评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,183评论 5 350
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,867评论 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,338评论 0 24
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,458评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,906评论 3 376
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,507评论 2 359