用python写爬虫--4.5pandas存入excel

从什么值得买爬取下来的信息存入excel，可以用xlwt库，存入，但是要一行一行的存，有些麻烦，鉴于pandas优秀的数据处理能力，感觉把数据转成dataframe，再存成excel或者csv都是比较方便的。
还是先上代码

import feedparser
import pandas as pd

def rss():
    file = feedparser.parse('http://faxian.smzdm.com/feed')
    title =[item.title for item in file.entries]
    link = [item.link for item in file.entries]
    description = [item.description for item in file.entries]
    pubDate =[item.published for item in file.entries]
    df = pd.DataFrame(data=[title,link,description,pubDate]).T
    df.columns = ['title','link','description','pubDate']
    df.to_excel('smzdm.xls')

在解析过程中发现网页中<pubDate><![CDATA[Tue, 03 Apr 2018 09:22:37]]></pubDate>这一项直接写成[item.pubDate for item in file.entries]说是没有这个属性，上stackoverflow上说是这个属性归属于published，详见http://pythonhosted.org/feedparser/reference-entry-published.html?highlight=pubdate
可以在其文档上查询相关属性。

其他的是将'title','link','description','pubDate'几个list组合成多维数组。
因title,link,description,pubDate直接组合，默认是一个30列，4行的dataframe，即列数为title的项数，行数为爬取的几种类型，即title,link,description,pubDate共4种。
最后.T用于转置，把它变成4列30行的dataframe。
df.columns重新命名列名。
df.to_excel('smzdm.xls') 存成Excel表格。

最后编辑于：2018.04.12 16:19:08

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

用python写爬虫--4.5pandas存入excel

用python写爬虫--4.5pandas存入excel

相关阅读更多精彩内容

友情链接更多精彩内容