2014-12-21

诀窍,大局观

  1. 找“打印该页面链接”,找“移动端显示”,会让格式更容易
  2. 找在js里的信息
  3. 信息可能在url里
  4. 换个网站找同样信息
    get_text()
    去掉所有tag部分,只留下text部分。留到最后再用这个功能。
    pythonnameList = bsObj.findAll("span", {"class":"green"})for name in nameList: print(name.get_text())findAll()pythonfindAll(tag, attributes, recursive, text, limit, keywords).findAll({"h1","h2","h3","h4","h5","h6"}) # 找tag属于的.findAll("span", {"class":"green", "class":"red"}) # 找tag=span,class属于的nameList = bsObj.findAll(text="the prince") # 找tag的text是“the price”的个数allText = bsObj.findAll(id="text") # keywords寻找对应关键词的allText = bsObj.findAll("", {"id":"text"}) # 与上式同义bsObj.findAll(class_="green") # class关键词时用class_,避免关键词soup.findAll(lambda tag: len(tag.attrs) == 2) # 加lambda表达式children(), descendants()pythonbsObj.find("tr",{"id":"gift1"}).children() # 满足条件tag的直属一级tagbsObj.find("tr",{"id":"gift1"}).descendants() # 满足条件tag的包含的所有tagnext_siblings, previous_siblingspythonbsObj.find("table",{"id":"giftList"}).tr.next_siblings # 当前tr tag之后的并列tagbsObj.find("table",{"id":"giftList"}).previous_siblings # 当前tag之前的并列tagparentpythonbsObj.find("img",{"src":"../img/gifts/img1.jpg"}).parent.previous_sibling.get_text() # 定位到当前tag的parentregular expressionspythonimages = bsObj.findAll("img", {"src":re.compile("\.\.\/img\/gifts/img.*\.jpg")}) # findAll加re获取tag属性attributespythonmyImgTag.attrs # 得到字典,包括这个tag的所有属性myImgTag.attrs['src'] # src属性值其他选择,不用bs41. lxml:处理HTML,XML,很快。2. HTML Parser:buit-in
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 今天晚起。昨天和前天都欠了这分东西,一直在补,其实每天的事情每天赶紧做完是最好的。第二天来补的话总觉得有些敷...
    侥幸汇成河阅读 165评论 0 1
  • 昨天去报了一个事业单位考试的培训班,想了想从小到大,学生时候从来没有做过的事,不做学生了反倒摆出了一副好学的样子。...
    仂七阅读 156评论 0 0
  • 报告仍然没有完成。实验也没有重新开始。论文也没有开始动笔。 开始读“经”。开始为毕业着急。开始觉得应该认真找个妹子...
    叶恪阅读 204评论 0 1
  • by 小Q 过去一个月工作总结 推文阅读情况 有些阅读率高,有些不高; 我觉得文章选择以及编辑都是很不错的;题目特...
    光电圈阅读 238评论 0 2
  • 处暑听到这个词汇肯定很多人和鱼泡泡一样,一无所知,现在就和鱼泡泡来简单了解一下什么是处暑,处暑又名“出暑”是炎热即...
    红小鹊阅读 475评论 0 0

友情链接更多精彩内容