python
- DataFrame.iterrows()返回的是Series还是dictionary还是list of tuples?
返回的是一个迭代器generator,可以使用generator.next()方法获取下一行,该方法返回的是一个(index, Series)结构的tupe。 - tuple和list的区别?
tuple和list最大的区别就是tuple不可修改,而list可以修改。在大部分情况下,tuple和list都可以相互替代。但是,当tuple用于字典的键时,就不能用list替代。因为字典的键不可修改。 - 正则表达式
统计
SQL
- JOIN ON、DISTINCT、GROUP BY、ORDER BY
- PRIMARY KEY、int、str、double
逻辑思维
- 何为代理变量选择?
当你想要观察的某个变量的数据不容易量化或得到时,你可以选取另一个变量,这个变量能够代替你想观察的某个变量。举个例子说,如果你想衡量某高校录取学生的学术水平,这是一个无法准确量化的变量。那么你可以考虑寻求一个代理变量,比如,该高校录取学生的高考成绩,等等。
在LC的贷款数据中,我们也想知道贷款者的信用得分,而数据当中并没有这个变量,那么我们可以使用代表贷款者信用报告中的信用记录的属性来综合计算贷款者的信用得分。 - 因果解释
比如说吧,再做LC贷款数据分析时发现,贷款者贷款的目的大部分都是债务合并。那么问题来了:为什么会这样?咱们一步步来说明:
- 信用卡的由来:最初是因为商场为了提升客户忠诚度,给客户办了会员卡,提供了一定的透支额度(信用额度),客户在买东西之后不需要付现金,可以使用会员卡透支消费。在每个月末,商户将月账单寄给客户,客户收到账单后就寄送支票给商户。之后,银行就推出一项业务:办理信用卡。(资料来源:https://www.zhihu.com/question/23705747 )
- 信用卡的普及度高:据统计,在美国人的日常开支中有80%以上是用信用卡支付的,現金只占很小的比例。基本上吃穿住行全都是用信用卡搞定。这为美国人的生活带来了极大的方便。(资料来源:http://www.people.com.cn/BIG5/paper68/5910/593192.html )
- 信用卡欠账率:欠账率在网上并没有查到具体的数字,不过我们可以从下面几个数字当中得到有效信息:1. 有37%美国人的信用卡债务等于或者是超过了其应急存款的数字,即每3个美国人就有1个随时可能面临财务困境。(来源:http://www.xucai.net/zixun/28623317668.html ) 2. 2014年信用卡净债务达到571亿美元,2016年底将达到1万亿美元,如此高的增长率有点吓人。(来源:http://www.xucai.net/zixun/273574305757.html )3. 波音职工信贷联盟的一项调查称,大约35%的美国家庭会逐月结转信用卡债务。那么其他65%的家庭呢?欠款?(来源:http://www.xucai.net/zixun/273574305757.html )
- 信用卡年利率高:15~20%(来源:http://www.livinggreat.net/asp/article_read/showarticle.asp?rCategoryChain=27&rArticleID=341 )。信用卡如果不正常还款利息非常高,具体参见:http://www.uscreditcards101.com/when-you-should-pay-credit-card-bill/#6 。
- 通过以上分析我们可以解释为什么贷款者大部分贷款目的都是用来债务合并:1. 大部分贷款者都有信用卡债务 2. 在LC上贷款可以减轻信用卡债务。