这是在做项目时的一个真实需求:需要了解ADHD家长、孩子的需求是什么,找到了一个ADHD的论坛(http://www.adhd.org.cn/forum),上面聚集了一些ADHD儿童的家长,基本上标题上就直观地反映了他们的一些需求。所以我就想简单的将标题都爬下来。
观察一下这个网站的结构,发现
(1) 这些标题都在<tr>标签下,但是为了页面显示奇偶行的样式不同,这些<tr>标签的class分别evenTableRow和oddTableRow,所以没有用这个标签。
(2) 一致的地方体现在都是<div style = “float:left”>的标签的第一个元素的文字部分,决定采用这个特征进行爬取。