使用shell命令获取简书主页文章

概述

之前接口测试的时候,经常遇到从response中截取数据的情况,处理起来可能也相对简单一点。今天换个玩法,用shell命令获取简书个人主页文章。
命令如下:

$ curl https://www.jianshu.com/u/840c2172e2e3 
|grep 'title' | awk -F '>' '{print $2}' 
| grep -v -e '</div' -e '</title' |awk -F '<' '{print $1}'  

接口测试框架优化(三)---支持简单串接口
使用charles筛选、修改请求与响应
linux下MySQL常用操作(学习笔记)
随便写写最近的面试
一些linux命令学习(二)--grep命令
一些linux命令学习(一)
windows下appium1.6排坑及安装
基于python+appium+yaml安卓UI自动化测试分享
接口测试框架优化(二)---主要代码

result.png

详述

实现这个目标,需要懂一些基础的命令

  • curl
  • grep
  • awk

curl命令学习

curl命令是一个利用URL规则在命令行下工作的文件传输工具。它支持文件的上传和下载,所以是综合传输工具,但按传统,习惯称curl为下载工具。

目前我只get到了使用curl命令发送请求,暂时没有用来上传下载文件,所以不多做介绍。
输入 curl -h,可以看到使用帮助

$ curl -h
Usage: curl [options...] <url>
     --abstract-unix-socket <path> Connect via abstract Unix domain socket
     --anyauth       Pick any authentication method
 -a, --append        Append to target file when uploading
     --basic         Use HTTP Basic Authentication
     --cacert <file> CA certificate to verify peer against
     --capath <dir>  CA directory to verify peer against
 -E, --cert <certificate[:password]> Client certificate file and password
     --cert-status   Verify the status of the server certificate
     --cert-type <type> Certificate file type (DER/PEM/ENG)
     --ciphers <list of ciphers> SSL ciphers to use
     --compressed    Request compressed response
     --compressed-ssh Enable SSH compression
.
.
.

就我自己实际操作的几个介绍一下:

1.获取页面内容
curl https://www.jianshu.com/

不加任何选项使用 curl 时,默认会发送 GET 请求来获取链接内容

2.发送POST请求
curl -H "Content-Type: application/json" 
-X POST 
-d '{"uid": "10588666", "device_code": "", "count": 8, "op": 1, "page": 1, "content_type": [1,2,3,4], "skip_freq": 0, "exclude_docs": [], "is_wifi": 0, "is_videopage": 0, "region": 111, "register_timestamp":1519642955, "tk": "ACAWILmsfP5FV7JqM6knRK66w8j9Rqr0Aqk0NzUxNDk1MDg5NTIyNQ", "client_version":20826, "group":"exp_test_member00"}' 
http://localhost:2051/recommend

这边用到了3个参数

  • H 定义请求头 header
  • X 指定请求方式
  • d 指定发送的数据
3.显示响应头
 curl -I https://www.jianshu.com/u/840c2172e2e3

加了-I 参数,仅显示response header,结果如下

$ curl -I https://www.jianshu.com/u/840c2172e2e3
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0HTTP/1.1 200 OK
Date: Mon, 14 May 2018 13:05:15 GMT
Server: Tengine
Content-Type: text/html; charset=utf-8
X-Frame-Options: DENY
X-XSS-Protection: 1; mode=block
X-Content-Type-Options: nosniff
ETag: W/"600753ffd703a50bfb60aca2580cddb0"
Cache-Control: max-age=0, private, must-revalidate
Set-Cookie: locale=zh-CN; path=/
Set-Cookie: _m7e_session=406d79c64df9441d376f82b2; path=/; expires=Mon, 14 May 2018 19:05:15 -0000; secure; HttpOnly
X-Request-Id: 9813d0cf-a68e-492f-8d04-580b8e149af6
X-Runtime: 0.129613
Strict-Transport-Security: max-age=31536000; includeSubDomains; preload
X-Via: 1.1 PSfjqzdx7yx12:4 (Cdn Cache Server V2.0), 1.1 xinxiazai13:1 (Cdn Cache Server V2.0)
Connection: keep-alive
X-Dscp-Value: 0
4.保存响应的内容
curl -o D:\jianshu.html https://www.jianshu.com/u/840c2172e2e3

执行此命令,会在D盘根目录生成一个jianshu.html文件,如图:


jianshu.png

detail.png

curl命令还有其他用法,我这边由于暂时没有用到,所以没有进一步操作,感兴趣可以参考这篇文章学习一下

grep命令学习

关于grep命令,我上次学习了一次,这边就不多说了,可以参照我之前的学习笔记
shell命令获取文章标题中用到grep的可能就是 -v -e 两个命令,相对还是比较简单的。

awk命令学习

awk我也是get到一点皮毛,没有很深入研究。大致工作流如下:
-F 分隔符划分域,,$0则表示所有域,$1表示第一个域,$n表示第n个域。默认域分隔符是"空白键" 或 "[tab]键".

举个例子:

D盘下新建一个文件,awk.txt。
执行命令:

$ nl awk.txt
     1  root  1  name:001
     2  cha   2  naaa:002
     3  dong  3  nacc:003
     4  fead  4  naic:004

如果只要显示行号

$ nl awk.txt |awk '{print $1}'
1
2
3
4

如果要显示:后面的内容

$ nl awk.txt |awk -F':' '{print $2}'
001
002
003
004

结束

使用shell获取简书主页文章,写法肯定不止这一种方法

$ curl https://www.jianshu.com/u/840c2172e2e3 |grep 'title' | awk -F '>' '{print $2}' | grep -v -e '</div' -e '</title' |awk -F '<' '{print $1}'

但是大致上思路是固定的:

  • 将结果用grep 筛选出需要的,排除不需要的
  • 再用awk分割选择自己需要的域即可。

期待后面,开发出更多关于shell的玩法。。。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,875评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,569评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,475评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,459评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,537评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,563评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,580评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,326评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,773评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,086评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,252评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,921评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,566评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,190评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,435评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,129评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,125评论 2 352

推荐阅读更多精彩内容

  • linux资料总章2.1 1.0写的不好抱歉 但是2.0已经改了很多 但是错误还是无法避免 以后资料会慢慢更新 大...
    数据革命阅读 12,156评论 2 33
  • 命令行的艺术 前言 基础 日常使用 文件及数据处理 系统调试 单行脚本 冷门但有用 仅限 OS X 系统 仅限 W...
    进击的诺基亚阅读 3,845评论 0 19
  • 系统巡检脚本:Version 2016.08.09 ############################ 系统...
    NamasAmitabha阅读 1,302评论 0 0
  • 转载 原文的排版和内容都更加友好,并且详细,我只是在这里贴出了一部分留作自己以后参考和学习,如希望更详细了解AWK...
    XKirk阅读 3,206评论 2 25
  • 简介:采用众包模式,专注提供最后三公里一小时配送的物流平台。 创始人:CEO蒯佳祺、CTO杨骏 愿景:达达希望天下...
    Peter6196阅读 1,412评论 0 2