转自我的 Blog: Danny's Dream
之前看到有好友微博分享的一个开源项目是提供 WWDC 的客户端的,同时还去抓取了字幕文件。
后来作者分享了一个开源项目:
https://github.com/rlwimi/wwwww
是把他项目里的字幕文件抓取逻辑抽取出来了,觉得很有意思,毕竟可能平时没有那么大段的时间能去看这些 session 的视频,这样先通过大概的字幕能了解到 session 中的内容,如果感兴趣的话可以再进行进一步的阅读。
这个东西很有趣,感觉就是 Swift 做的爬虫,可以结合项目做些有趣的东西。这里是这个项目如何使用,和原理的介绍。
这边我对该项目进行了一些修改,之前下载的直接就是 vtt 的文件,并没有对文本文件进行处理,我把vtt格式调整了正常阅读的模式,方便大家阅读。
我的项目地址:
如何使用?
之前项目的开发者,写的 usage 相当简单。
clone 项目之后,通过 Swift Package Manager(SPM) 来 build 项目
在项目下方执行
swift build
就会在你的项目的 .build/debug 目录下方生成一个可执行文件 wwwww
Usage:
wwwww [flags]
wwwww [command]
Available Commands:
meta Collect session information in a JSON file.
subtitle download WebVTT files, change to text
webvtt download WebVTT files
Flags:
-o, --output string output path
-s, --session string filter by session
-v, --verbose show work along the way
-y, --year int filter by year
Use "wwwww [command] --help" for more information about a command.
上面是用法介绍,下面是几个简单的例子:
./wwwww subtitle -s 204 -v -y 2017
获取 2017 年 204 session 的字幕,保存到当前目录的 2017 文件夹
./wwwww meta -s 204 -v -y 2016
获取 2016 年 204 session 的 meta 信息,以 json 格式并且保存在当前目录的 sessions.json 文件中
实现原理
主要分为框架和处理两个部分
简单的流程很简单无非是 抓取数据 -> 处理数据
CLI 框架介绍 & Guaka 指北
通过 Guaka Framework 来实现 CLI(command-line interface)。
该框架可以快速实现如下的效果:
git checkout -v "url"
git 就是一个 CLI 而 checkout 就是他的一个子命令,并接受一个 String 作为他的参数。
对应上述的命令可以为分为:
- git 主命令
- checkout 子命令
- -v/--v 命令所接收的 flag
└── git
├── checkout -v
└── push -f
└── ...
在 Guaka 中代码表现基本就是这样子的:
let flag = Flag(longName: "v", value: false, description: "Show verbose")
let command = Command(usage: "git", flags: [flag]) { flags, args in
let showVerbose = flags.getBool(name: "v")
// args the positional arguments passed to the command
}
上面就是 git 的 -v 指令,是否打印过程
快速上手
-
安装
通过 homebrew> brew install oarrabi/tap/guaka
-
新建工程
假设我们要建立一个 papa 的指令
cd 到需要建立工程的目录guaka create papa //会生成如下路径 //├── Package.swift //└── Sources // ├── main.swift // ├── root.swift // └── setup.swift
-
增加指令
给 papa 增加个子命令叫做 checkguaka add check
增加 flag
增加 flag 就要去 Source 下面对应的 Swift 文件中修改。-
编译执行 Swift build
swift build // 会编译生成可执行文件 // .build/debug/papa --help
-
运行可执行文件
.build/debug/papa check
增加逻辑就在对应的 Swift 文件中增加 :)
解析
wwwww 主要是使用了 Kanna 这个 XML/HTML 解析工具。
通过固定的参数链接请求 wwdc 的相关网页,然后通过 Kanna 来解析获取课程的信息,再拿到对应的字幕文件地址,转换后保存本地。
具体的逻辑在项目中都写的相当清晰,感兴趣的话大家可以 clone 下来查阅。
主要的解析脚本在 AppleComScraper.swift 文件中。
这一部分就不做过多的解释了,查阅一下文档就行啦,针对 html 文件的解析。
字幕文件
我 Fork 后修改的项目地址:
同时目前这边我把 2017 的 session 都下载下来了,大家感兴趣的话可以自取,后期准备做个脚本推到 Kindle 上,以便上下班坐地铁的时候看看。
Subtitiles | nums |
---|---|
App Frameworks | 50 |
Design | 20 |
Developer Tools | 15 |
Distribution | 5 |
Featured | 2 |
Graphics and Games | 9 |
Media | 15 |
System Frameworks | 19 |
本来想建一个个的链接的太麻烦了,(跑...