最近生物信息学与现代统计课已经进入第二个项目RNA-seq数据分析,根据已有的流程,我们需要使用cufflinks程序拼接转录本,但是cufflinks需要联网更新数据(可以使用
--no-update-check
参数忽略网络更新,但是合并转录本的程序cuffmerge并不能忽略),但是一直以来大家都以为学校的小型机并不能上网,所以程序一直被阻塞,导致进度卡住,本文就记录一下我解决这个问题的探索和最终的方案。
猜想
平时我们使用小型机,都是在机房内通过固定的IP来连接登陆小型机,而在宿舍里,通过苏大网(校园网)也可以使用该IP来连接小型机,那么,该小型机应该连接在校园网的局域网中,同时,猜想机房网络使用固定IP,小型机的IP也是固定的(不固定怎么用,顿时觉得这个猜想不现实,但当时确实这样想了,不过最后也证实是正确的),所以很可能也在和机房在同样的免费上网的网段内。
证实可行
根据以上的猜想,进行以下证实
- 使用
ping
命令来证实
$ ping baidu.com
PING baidu.com (180.149.132.47) 56(84) bytes of data.
64 bytes from 180.149.132.47: icmp_seq=1 ttl=48 time=208 ms
64 bytes from 180.149.132.47: icmp_seq=2 ttl=48 time=209 ms
64 bytes from 180.149.132.47: icmp_seq=3 ttl=48 time=207 ms
64 bytes from 180.149.132.47: icmp_seq=4 ttl=48 time=211 ms
64 bytes from 180.149.132.47: icmp_seq=5 ttl=48 time=209 ms
64 bytes from 180.149.132.47: icmp_seq=6 ttl=48 time=209 ms
^C
--- baidu.com ping statistics ---
6 packets transmitted, 6 received, 0% packet loss, time 5006ms
rtt min/avg/max/mdev = 207.858/209.435/211.620/1.187 ms
可以发现,确实是能够联网的,但是,试试访问网页
$ curl baidu.com
然后就没有然后了……这就很尴尬了。
至于为什么ping
命令可以连通百度却不能打开网页,猜测应该是网关系统是限制了HTTP请求,但是ping
命令使用更为底层的ICMP协议,纯属猜测,别干坏事!
- 试试打开网关的页面
$ curl wg.suda.edu.cn
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<title>苏州大学网关登录</title>
……以下省略……
可以看到屏幕哗啦哗啦出来一大堆,然而,重要的是!我们打开了网关,所以我们知道,登陆网关应该就是能够上网了。而且这个旧版的网关是免费网域内才使用的,开熏!
发掘可用的工具
到了这一步,就要想办法来登陆网关了,根据多年爬虫经验,猜测应该是发起一个HTTP请求就可以登陆网关,然后转战自己的电脑,来研究如何来登陆。
打开Chrome,登陆网关页面,调出调试工具,可以看到在登陆过程中,浏览器发起了一个POST请求
再来发掘小型机上能用的资源,虽然使用curl
也能模拟发送HTTP请求,但是因为还要在网页里找到两个奇怪的参数(应该时CRSF的令牌),这个对于没怎么接触过shell的小白真的是会很无语,庆幸的是,小型机安装的是anaconda发行版的Python,还预装了requests库,脸上瞬间就露出了老司机的笑容。
开始码代码
直接上改进多次的最终代码:
#! /opt/ibm/miniconda/bin/python
# -*- coding:utf-8 -*-
"""
@author: 杨满球
@file: wg.py
@time: 2016/11/12 12:03
"""
from requests.exceptions import ReadTimeout
import requests
import re
import sys
import getpass
def login():
s = requests.session()
r = s.get('http://wg.suda.edu.cn/')
viewstate = re.findall('id="__VIEWSTATE" value="(.+?)"', r.text)[0]
eventvalidation = re.findall('id="__EVENTVALIDATION" value="(.+?)"', r.text)[0]
try:
studentid = sys.argv[1]
except:
studentid = raw_input(u'studentid:')
try:
password = sys.argv[2]
except:
password = getpass.getpass(u'password:')
data = {
'__EVENTTARGET': '',
'__EVENTARGUMENT': '',
'__VIEWSTATE': viewstate,
'__EVENTVALIDATION': eventvalidation,
'TextBox1': studentid,
'TextBox2': password,
'nw': 'RadioButton2',
'tm': 'RadioButton8',
'Button1': '登录网关'
}
r = s.post('http://wg.suda.edu.cn', data=data)
html = r.text
if u'成功登录' in html:
print(u'succeed!')
else:
print(u'fail!')
if __name__ == '__main__':
try:
r = requests.get('http://baidu.com', timeout=3)
except ReadTimeout as e:
login()
else:
print('no necessary!')
原理很简单,使用Python模拟发起请求,然后测试一下
$ python wg.py <studentid> <password>
succeed!
不会是假的吧?试试访问网页
$ curl baidu.com
<html>
<meta http-equiv="refresh" content="0;url=http://www.baidu.com/">
</html>
这,真的成功了?好吧,真的是成功的!
人性化
最后想了想,如果能把这东西直接变成一个命令,,让大家能方便地使用才能顺利装逼啊!故又去研究了一大波,发现Linux是能够根据第一行的注释来规定解释器的,如此这般就有了第一句注释,不过这里有个大坑,那就是#!
之后这个空格,是必须的,找了老大一圈最后还是在StackOverflow上的小角落找到的答案,其次,一定要是Unix格式的文档,不然还是一直报错,最后重命名时去掉后缀名,然后移动到usr/local/bin
下,再把权限改为755,那么大家就可以畅快地使用
$ wg
no necessary! # 当还能上网时
studentid:<studentid> # 不能上网时
password: # 密码保密不回显
succeed! # 登陆成功
fail! # 登陆失败,可能是密码错误