import pandas as pd
import requests
from fake_useragent import UserAgent
from lxml.etree import HTML
ua = UserAgent()
headers = {'User-Agent':ua.ie}
url = "http://fgj.wuhan.gov.cn/mrxjspfcjtjqk/45243.jhtml"
r = requests.get(url,headers=headers)
html = HTML(r.text)
trs = html.xpath("//tr")
dataset = pd.DataFrame([tr.xpath("./td/text()") for tr in trs][6:-2],columns=['区域','商品住房成交套数','商品住房成交面积 ','写字楼成交套数','写字楼成交面积 ','商业成交套数','商业成交面积 ','其他成交套数','其他成交面积 ','合计成交套数','合计成交面积'])
print(dataset)
效果:
区域 商品住房成交套数 商品住房成交面积 写字楼成交套数 写字楼成交面积 商业成交套数 商业成交面积 其他成交套数 其他成交面积 合计成交套数 合计成交面积
0 江岸区 16 2086.46 4 236.18 3 168.14 0 0 23 2490.78
1 江汉区 29 3447.54 0 0 0 0 0 0 29 3447.54
2 硚口区 50 4915 0 0 0 0 0 0 50 4915.00
3 汉阳区 86 11147.45 2 83.59 1 235.67 0 0 89 11466.71
4 青山区 166 12270.08 2 89.22 0 0 0 0 168 12359.30
5 武昌区 12 1369.61 3 198.76 2 102.85 0 0 17 1671.22
6 洪山区 117 13158.73 14 747.79 1 49.46 0 0 132 13955.98
7 东西湖区 78 8532.9 0 0 5 262.3 6 1496.43 89 10291.63
8 东湖高新区 165 19081.07 0 0 3 101.08 4 762.41 172 19944.56
9 经济开发区 16 1922.23 1 22.94 3 163.06 0 0 20 2108.23
10 江夏区 74 8910.42 0 0 0 0 0 0 74 8910.42
11 黄陂区 131 14009.47 1 46.44 24 987.91 0 0 156 15043.82
12 蔡甸区 23 2510.41 0 0 2 69.09 0 0 25 2579.50
13 新洲区 111 11475.08 0 0 2 95.98 2 111.37 115 11682.43
14 汉南区 44 5037.38 0 0 0 0 0 0 44 5037.38
15 合计 1118 119873.83 27 1424.92 46 2235.54 12 2370.21 1203 125904.50