記第一次JS動態的小小爬蟲

https://yunhai.ctrip.com/Games/6
無聊打算嘗試爬下裏面的數據列表,發現網頁源代碼裏面找不到想要的數據= =。。
后發現是JS動態加持,也不知道怎麽提取domain
看了一下https://www.jianshu.com/p/9de3be54abc1
這裏的介紹
然後到這

image.png

copy domain (https://yunhai.ctrip.com/api/games/data/6

剩下就是一頓提取啦

import requests
import json
from bs4 import BeautifulSoup
import bs4
import pandas as pd

#提取到的網站
url = 'https://yunhai.ctrip.com/api/games/data/6'

#經典二連
r = requests.get(url)
html = r.text

#我也不知道我在幹嘛 花里胡哨的轉格式
data=json.loads(html)
k = data['DataDesc']
soup = BeautifulSoup(k,'html.parser')

#創兩個list,一個放中文,一個放英文
a = []
b = []

for tr in soup.find('tbody').children:
        if isinstance(tr,bs4.element.Tag):
            tds = tr('td')
            a.append(tds[0].string)
            b.append(tds[1].string)

#轉dataframe
data = pd.DataFrame(a,columns = ['label'])
data['chinese'] = b
data
完成
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 《達爾文所未知的》解說詞 撰寫(Written):阿爾芒·馬裏耶(The Animal Mother) 翻譯(Tr...
    JENTSON阅读 5,363评论 0 1
  • 我們學會思考的那一天——紀錄片文字記錄 The Day We Learned To Think - program...
    JENTSON阅读 3,459评论 0 0
  • 概述 docker 是一个开发、交付和运行的开放平台。docker 能使你的应用和基础设施解耦,从而使软件交付更加...
    成长的键盘手阅读 3,085评论 0 1
  • 文/声色世界 本是蓬蒿人,偶做庙堂客。 执念经阁半卷书,坐井观天阔。 无意取功名,海斗量福祸。 论到囊中羞涩时,直...
    声色世界live阅读 4,968评论 0 2
  • 爸爸去走访了一个当老师亲戚,自然而然的,也就聊到了家里的学生。 说到一个孩子,在一步步堕落 在学校做错...
    喔喔奶糖_7a85阅读 1,560评论 1 0