1.POI (Person of Interest)
2. Accuracy & Training set size
3. download anron dataset
4. dataset type test1
salary-numerical
job-categorical
timestamps on emails
contents of emails-text
5.安然欺诈案是一个混乱而又引人入胜的大事件,从中可以发现几乎所有想像得到的企业违法行为。安然的电子邮件和财务数据集还是巨大、混乱的信息宝藏,而且,在你稍微熟悉这些宝藏后,它们会变得更加有用。我们已将这些电子邮件和财务数据合并为一个数据集,而你将在此迷你项目中研究它。
开始:
克隆这个 GitHub 库:https://github.com/udacity/ud120-projects
运行开始代码:datasets_questions/explore_enron_data.py
6.聚合的安然电子邮件和财务数据集被存储到字典中,字典中的每个键是一个人名,而且值是包含此人所有特征的一个字典。
电子邮件和财务 (E+F) 数据字典被存储在 pickle 文件中,该文件可直接存储和加载 python 对象,非常方便。 使用datasets_questions/explore_enron_data.py加载数据集。
数据集中有多少数据点(人)?
7. For each person, how many features are available?
8.How many POIs are there in the E+F dataset
9.我们编辑了一个包含所有 POI 姓名的列表(在../final_project/poi_names.txt中)并附上了相应的邮箱地址(在../final_project/poi_email_addresses.py中)。
总共有多少 POI?(使用姓名列表,不要用邮箱地址,因为许多雇员不止一个邮箱,而且其中少数人员不是安然的雇员,我们没有他们的邮箱地址。)
10.你可以看到,我们在 E+F 数据集中有许多 POI,但不是所有。这为何会是一个潜在的问题?
我们将在稍后解释 POI 为何有可能不在安然 E+F 数据集中,这样你就可以在往下继续之前完全理解这个问题。
11.和任何字典的字典一样,个人/特征可以这样被访问:
enron_data["LASTNAME FIRSTNAME"]["feature_name"]
或者
enron_data["LASTNAME FIRSTNAME MIDDLEINITIAL"]["feature_name"]
James Prentice 名下的股票总值是多少?
12.和任何字典的字典一样,个人/特征可以这样被访问:
enron_data["LASTNAME FIRSTNAME"]["feature_name"]
我们有多少来自 Wesley Colwell 的发给嫌疑人的电子邮件?
13.Jeffrey Skilling 行使的股票期权价值是多少?
14.如你刚才所见,不是每个 POI 在数据集中都有一个条目(比如:Michael Krautz)。那是因为数据集是通过你在final_project/enron61702insiderpay.pdf中找到的财务数据所创建的,这些数据中缺少了一些 POI(这些缺失的 POI 被传送至最终的数据集)。另一方面,对于这些“缺少的”POI,我们确实有他们的邮件。
尽管向 E+F 数据集中添加这些 POI 和他们的信息,并且为财务信息设置“NaN”非常简单,但这会带来一个微妙的问题。你将在此处了解到这一问题。
(当前的)E+F 数据集中有多少人的薪酬总额被设置了“NaN”?数据集中这些人的比例占多少?
15.E+F 数据集中有多少 POI 的薪酬总额被设置了“NaN”?这些 POI 占多少比例?
16.如果机器学习算法将 total_payments 用作特征,将“NaN”值关联到非 POI而不是POI