爬虫前哨(1)--url是什么

url:统一资源定位符,是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。

举个例子:我在浏览器中输入:www.baidu.com(建议使用谷歌浏览器) ,就会出现百度的首页。我们得到的百度的首页,就是我们从互联网上得到的资源。那这个资源放在哪里呢,就放在“www.baidu.com”这个地址中。

现在我们来说说互联网是什么,根据名字理解意思,互联网就是互相连接的网络。刚开始人们将电脑互相连接起来通信。

电脑连接起来

我们把只有少数几个电脑相互连接称为局域网,比如说一个学校,因为地域较小,连接不广。可是少数几个电脑的资源比较有限,我们把一个城市的计算机都连接起来,叫做城域网,同样的,我们把世界上所有的网络都连接起来,我们叫它因特网,所谓因特,是指英文Inter, international是国际的意思,所谓因特网,就是指国际网络。而互联网,则指一切相互连接的网络。

那么现在小明买了一台电脑连了网,我要把一个消息发给小明。互联网上面那么多电脑,我怎么知道小明的电脑是哪个呢,所以我们给了互联网上所有的电脑都做了记号,我们叫它ip地址,只要找到ip地址,我们就可以找到小明的电脑。比如IP地址:167.167.1.1,由四个点和四个数字组成。而每位数字最大三位数,那也就是说世界上就那么多ip地址,但电脑却是却来越多,手机,手表,智能手环,都需要接入到网络中。很明显,ip就会不够用,所以科学家们在ip地址第四版的基础上进行改进,发明了ip地址第六版,于是前面的叫ipv4,后面的叫ipv6。而ipv6则很好地解决了地址不够用的问题。

现在我要访问小明的电脑可以吗?不可以,对吧。为什么呢,小明的电脑没有开放共享。但网络上有一些电脑是开放网络的,比如说我刚才打开百度首页,我输入了url,url就是在网络上定位资源服务器的地址。我们把这种和我们一般的IP地址不同的地址称为域名。通过域名就可以直接请求百度那边的电脑。我们把百度提供资源的电脑称为服务器,而把我们自己使用的电脑称为客户机。在访问时,客户机发送请求(request),服务器回送响应(response)。

那我们开始学习第一个爬虫,在此之前,我希望你正直,勤奋。零基础什么的都无所谓。(建议下载安装Sublime,并配置环境变量,下载安装库,请看我的文章《Sublime 下载安装,以及配置》,《库的使用以及安装》)

import requests

r = requests.get("https://www.baidu.com")

print(r.text)


第一个爬虫

import (引入)requests(这是一个库),库就相当于一个房子,里面装满了各种各样的工具,那么requests库是干什么的呢,一看单词意思就明白,是用来发起互联网请求的。而requests.get就是这个大房子中的一个得到响应内容的工具。我们把它得到的响应内容找了一张白纸条,写上“r”,r就是它的名字了。那么给了名字之后怎么办呢,可以看到我们最后一行说print(r.text),print(打印),打印r.text,text(文本),很明显,就是说让它以文本的方式打印出来,编译,运行,结果就出来了。


有的朋友就问了,我不叫r行的不,叫他张三,李四可以不,答案是可以的。不信?我们来试试。


改为张三之后

得到的结果,

改为张三后的结果

6不6,好玩吧,大家可以慢慢试试玩玩,也可以多找一些其他的网站域名链接试试,看看能不能抓取下来。下次我们讲讲为什么网站域名前面还会有https,http这些东西,他们究竟又是什么,有些什么作用呢?

ps:有朋友可能会问为什么上面的一大串都看不懂,哈哈,其实那是因为乱码的原因,因为电脑只能识别01010101的机器码,所以把我们的语言都需要经过编码转化为010101010,而各国的语言都有不同,所以编码不同,现在较为常用的编码为“utf-8”,故将上面的编码改为“utf-8”即可。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,558评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,002评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,024评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,144评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,255评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,295评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,068评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,478评论 1 305
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,789评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,965评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,649评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,267评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,982评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,800评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,847评论 2 351

推荐阅读更多精彩内容

  • 简介 用简单的话来定义tcpdump,就是:dump the traffic on a network,根据使用者...
    JasonShi6306421阅读 1,237评论 0 1
  • feisky云计算、虚拟化与Linux技术笔记posts - 1014, comments - 298, trac...
    不排版阅读 3,837评论 0 5
  • 网络层提供的两种服务 在计算机网络领域,网络层应该向运输层提供怎样的服务(面向连接还是无连接)曾引起了长期的争论,...
    srtianxia阅读 3,953评论 0 12
  • 名词延伸 通俗的说,域名就相当于一个家庭的门牌号码,别人通过这个号码可以很容易的找到你。如果把IP地址比作一间房子...
    杨大虾阅读 20,594评论 2 57
  • 本书结构是自顶向下的,所以请按下列顺序阅读: 1.计算机网络自顶向下--应用层2.计算机网络自顶向下--运输层3....
    牛富贵儿阅读 3,386评论 1 10