统计学L8 Python概率练习（三）

癌症测试结果

一、测试的问题

1.总共有多少病人？
2.多少病人患癌症？
3.多少病人没有患癌症？
4.患癌症的病人比例是多少？
5.没有患癌症的病人比例是多少？
6.癌症患者测试为阳性的病人比例是多少？
7.癌症患者测试为阴性的病人比例是多少？
8.非癌症患者测试为阳性的病人比例是多少？
9.非癌症患者测试为阴性的病人比例是多少？
10.检测结果为阳性的病人患癌概率
11.检测结果为阳性的病人没有患癌概率
12.检测结果为阴性的病人患癌概率
13.检测结果为阴性的病人没有患癌概率

二、问题解决

1.总共有多少病人？

思考路径：
（1）先导入csv数据集，并查看开头几行数据格式是否合适

import pandas as pd
df = pd.read_csv('cancer_test_data.csv')
df.head()

（2）通过shape函数查看人数

df.shape

数据有四列：序号列；patient_id列；test_result列；has_cancer列

2.多少病人患癌症？

思考路径：求has_cancer列为True情况的总数。

(df.hac_cancer == True).sum()

3.多少病人没有患癌症？

思考路径：同上一个问题，将True改为False

(df.hac_cancer == False).sum()

4.患癌症的病人比例是多少？

思考路径：求比例的方法是将数据按照适用条件转换为bool，符合条件为True，不符合条件为False，然后对条件求mean。求mean时，逻辑为，结果为True的设为1，False的设为0，加总后求平均数就相当于计算符合条件的数量的比例。

(df.has_cancer == True).mean()

5.没有患癌症的病人比例是多少？

(df.has_cancer == False).mean()

6.癌症患者测试为阳性的病人比例是多少？

思考路径：同时调取符合条件的两列，然后计算均值。考虑使用query函数，前一个是基础事件。

(df.query('has_cancer')['test_result'] == 'Positive').mean()

相当于先用query调取：has_cancer列，然后在该列的基础上筛选符合条件的['test_result'] == 'Positive'数据。
df正常调用test_result == ''
Positive时表达式是：df.test_result == Positive
现在将两个条件直接并列即可。
query函数后只能调用str，所以需要将test_result == Positive转变为str格式。

7.癌症患者测试为阴性的病人比例是多少？

思考路径：同上一道题，

(df.query('has_cancer')['test_result'] == 'Negative').mean()

8.非癌症患者测试为阳性的病人比例是多少？

(df.query('has_cancer == False')['test_result'] == 'Positive').mean()

9.非癌症患者测试为阴性的病人比例是多少？

(df.query('has_cancer == False')['test_result'] == 'Negative').mean()

10.检测结果为阳性的病人患癌概率

(df.query(" test_result == 'Positive' ")['has_cancer']).mean()

11.检测结果为阳性的病人没有患癌概率

1 - (df.query(" test_result == 'Positive' ")['has_cancer']).mean()

12.检测结果为阴性的病人患癌概率

(df.query(" test_result == 'Negative' ")['has_cancer']).mean()

13.检测结果为阴性的病人没有患癌概率

1 - (df.query(" test_result == 'Negative' ")['has_cancer']).mean()

三、总结

这次练习中重点是如何通过query同时调用两列数据，第一列数据用（），第二列数据用[ ]。query函数后跟的是str型数据，其他型数据会报错。

另外python比手工计算贝叶斯更快，而且方便理解，没有更多的计算路径，直接调取前后调取不同的数据即可。

这是Udacity数据分析（入门）课程的统计学lesson8的学习笔记三
Lesson8的课程学习结束
转载请注明出处

统计学L8 Python概率练习（三）