WWDC 2017 字幕抓取 & Guaka 介绍

转自我的 Blog: Danny's Dream

之前看到有好友微博分享的一个开源项目是提供 WWDC 的客户端的,同时还去抓取了字幕文件。
后来作者分享了一个开源项目:
https://github.com/rlwimi/wwwww
是把他项目里的字幕文件抓取逻辑抽取出来了,觉得很有意思,毕竟可能平时没有那么大段的时间能去看这些 session 的视频,这样先通过大概的字幕能了解到 session 中的内容,如果感兴趣的话可以再进行进一步的阅读。

这个东西很有趣,感觉就是 Swift 做的爬虫,可以结合项目做些有趣的东西。这里是这个项目如何使用,和原理的介绍。
这边我对该项目进行了一些修改,之前下载的直接就是 vtt 的文件,并没有对文本文件进行处理,我把vtt格式调整了正常阅读的模式,方便大家阅读。
我的项目地址:

如何使用?

之前项目的开发者,写的 usage 相当简单。
clone 项目之后,通过 Swift Package Manager(SPM) 来 build 项目
在项目下方执行
swift build
就会在你的项目的 .build/debug 目录下方生成一个可执行文件 wwwww

Usage:
  wwwww [flags]
  wwwww [command]

Available Commands:
  meta      Collect session information in a JSON file.
  subtitle  download WebVTT files, change to text
  webvtt    download WebVTT files

Flags:
  -o, --output string   output path 
  -s, --session string  filter by session 
  -v, --verbose         show work along the way 
  -y, --year int        filter by year 

Use "wwwww [command] --help" for more information about a command.

上面是用法介绍,下面是几个简单的例子:

./wwwww subtitle -s 204 -v -y 2017

获取 2017 年 204 session 的字幕,保存到当前目录的 2017 文件夹

./wwwww meta -s 204 -v -y 2016

获取 2016 年 204 session 的 meta 信息,以 json 格式并且保存在当前目录的 sessions.json 文件中

实现原理

主要分为框架和处理两个部分
简单的流程很简单无非是 抓取数据 -> 处理数据

CLI 框架介绍 & Guaka 指北

通过 Guaka Framework 来实现 CLI(command-line interface)。

该框架可以快速实现如下的效果:

git checkout -v "url"

git 就是一个 CLI 而 checkout 就是他的一个子命令,并接受一个 String 作为他的参数。

对应上述的命令可以为分为:

  • git 主命令
  • checkout 子命令
  • -v/--v 命令所接收的 flag
└── git
    ├── checkout -v
    └── push -f
    └── ...

在 Guaka 中代码表现基本就是这样子的:

let flag = Flag(longName: "v", value: false, description: "Show verbose")
let command = Command(usage: "git", flags: [flag]) { flags, args in
  let showVerbose = flags.getBool(name: "v")
  // args the positional arguments passed to the command
}

上面就是 git 的 -v 指令,是否打印过程

快速上手

  1. 安装
    通过 homebrew

    > brew install oarrabi/tap/guaka
    
  2. 新建工程
    假设我们要建立一个 papa 的指令
    cd 到需要建立工程的目录

    guaka create papa 
    //会生成如下路径
    //├── Package.swift
    //└── Sources
    //    ├── main.swift
    //    ├── root.swift
    //    └── setup.swift 
    
  3. 增加指令
    给 papa 增加个子命令叫做 check

    guaka add check
    
  4. 增加 flag
    增加 flag 就要去 Source 下面对应的 Swift 文件中修改。

  5. 编译执行 Swift build

    swift build
    // 会编译生成可执行文件
    // .build/debug/papa --help
    
  6. 运行可执行文件

    .build/debug/papa check
    

增加逻辑就在对应的 Swift 文件中增加 :)

解析

wwwww 主要是使用了 Kanna 这个 XML/HTML 解析工具。
通过固定的参数链接请求 wwdc 的相关网页,然后通过 Kanna 来解析获取课程的信息,再拿到对应的字幕文件地址,转换后保存本地。
具体的逻辑在项目中都写的相当清晰,感兴趣的话大家可以 clone 下来查阅。

主要的解析脚本在 AppleComScraper.swift 文件中。

这一部分就不做过多的解释了,查阅一下文档就行啦,针对 html 文件的解析。

字幕文件

我 Fork 后修改的项目地址:

wwwww

同时目前这边我把 2017 的 session 都下载下来了,大家感兴趣的话可以自取,后期准备做个脚本推到 Kindle 上,以便上下班坐地铁的时候看看。

Subtitiles nums
App Frameworks 50
Design 20
Developer Tools 15
Distribution 5
Featured 2
Graphics and Games 9
Media 15
System Frameworks 19

本来想建一个个的链接的太麻烦了,(跑...

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容

  • 嗯哼嗯哼蹦擦擦~~~ 转载自:https://github.com/Tim9Liu9/TimLiu-iOS 目录 ...
    philiha阅读 4,835评论 0 6
  • Name 应该以中国父母的观感为出发点 中国父母看起来有联想的 国外著名儿童节目/作品中的好名字OzzOzi著名国...
    DahuX阅读 551评论 0 0
  • ----记第一次参加文娱分协会课程。 时间:2016年12月7日周二。 地点:大学生公寓一楼 主讲老师:李伟,上海...
    Jackson_Run阅读 183评论 0 1
  • 微店或者网商的实质就是加好友聊天促成成交的一个过程。所以很多的人就会想尽一切的办法去加好友,但是加上之后却又不知道...
    威威_索尼娅阅读 528评论 0 0
  • 阳光下 等车的你 像是从小说里走出来的少年 那么美好 那一刻 突然有了怦然心动的感觉 只是 我们不同车 更不知道你...
    易小凡同学阅读 126评论 0 0