用powerbi爬取安居客昆明所有楼盘详情页

方法一:powerbi爬取安居客

不得不佩服powerbi,真是入得洞房(你没看错,就是洞房,不是厨房)、上得厅堂,除了能够连接一百多种数据源,居然还是一个好用的爬虫。

第一步:确保power bi desktop是最新版并打开它。

第二步:在安居客网站找到昆明新房源的链接,复制备用。

第三步:新建一个来自于web的数据源。

添加Web源

注意上图中的位置3,要点击“使用示例添加表”。

第四步:手动添加需爬取的字段。

使用示例添加表

如上图所示,我们想爬取的第一个字段是楼盘名字,我们在“列1”第一行中手动输入想爬取的第一个楼盘名字。确保一一对应。

当你输入开头几个字时,powerbi desktop会智能地提示,双击提示,就会自动填充。

绝大多数时候,我们输入第一个楼盘名字之后,powerbi desktop就会智能地帮我们把其他楼盘名字依次填到“列1”。

添加需爬取的字段

如上图所示,灰色部分为powerbi desktop自动填充的。

如果输入第一个楼盘后,powerbi desktop没有自动填充其他楼盘,不用担心,这是因为power bi desktop还没找到规律,所以当你再写一个楼盘名字后,它就知道该怎么填充了。

点红圈处的*号可以增加爬取的字段列。双击列名称可以重命名,比如我将列重命名为“楼盘名称”、“价格”和“户型”。

确保所有要爬取的字段都列出来之后,点击确定,进入下一步。

第五步:加载或编辑爬取结果。

勾选自定义表

上一步确定后,进入上图的界面,点击“加载”,就可以查看爬取结果了。如果对自动抓取的结果不满意,可以点“编辑”,进入编辑查询界面,对查询语句进行修改。

第六步:翻页。

注意我们前面爬取的只是一页内容。一页只有几十个楼盘。昆明可是有几百个楼盘的,安居客用了8页来显示,因此,我们需要确保能把八页内容全部爬取下来。

所以我们在上一步点击“编辑”,进入查询编辑页面。

这里我们要分四步走:

首先是把刚才建立的查询重命名下,便于识别,比如我重命名为“base”。

其次要拿到总页数,这个好办。在左侧查询列表栏右键点击,新建一个空白查询。

总页数的查询

然后在公式栏输入“= {1..8}”,这表示新建一个包含1到8共8个元素的列表。列表不好操作,所以我们把它转化成表,在窗口左上角点“到表”。再把列格式设置为文本。

将页数查询转化为表

接着我们要把base变成一个函数。因为只有函数才能调用变量,而变量就是我们刚才做的表格里的8个页码数字。

点击菜单栏上的“管理参数”,新建一个page参数。

新建参数

然后把base查询的第一个操作步骤代码变成“= Web.BrowserContents("https://km.fang.anjuke.com/loupan/all/p" & page & "/")”

再右键选中base,在弹出菜单中选择“创建函数”(下面截图中是灰色的,是因为我已经用它创建了一个函数)。

创建函数

最后一步就是在页码表格中以新增一列的方式引用刚才创建的函数:

领导给我一周时间让梳理昆明所有楼盘的信息,我半小时就完成了

然后点击自定义列列标题旁边的展开符号,展开列,就得到我们想要的数据了:

领导给我一周时间让梳理昆明所有楼盘的信息,我半小时就完成了

第七步:查看爬取结果。

展开自定义列

上图就是我们爬取的结果,可以把它加载到数据模型,进行下一步处理,如统计汇总,或导出为csv格式发给领导。

看上去步骤繁多,但是对powerbi desktop操作熟悉的话,其实就是分分钟的事情。

实际操作中主要耗时在爬取网页内容上。

尾巴

上面的七步其实爬取的是楼盘列表页的楼盘信息。实际任务中我需要爬取每个楼盘页面上的信息。其实思路都是一样的:先爬取单个楼盘页面的信息,然后将其转化为函数备用;获取到楼盘的链接地址,将其作为参数传递给函数;而楼盘页面地址就可以直接从楼盘列表页中获取。所以我没有继续往下写具体的操作步骤了。

爬虫老手应该也注意到了,我没设置headers,也没有设置等待时间,然而并没有触发安居客的反爬机制,不知道powerbi desktop在背后怎么避免了触发反爬机制,或者只是我运气好?

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容