数据输入与输出
输入
- 文件名: Audit_client.csv
-
数据样例
关键字段含义
- gvkey:公司ID
- year:年份
- partnerID:合伙人ID
输出
- 文件名:final_score.csv
-
数据样例
对于每一个【gvkey,year,partnerID】输出一个打分score
打分计算逻辑
- 获取两个公司在同一个年份的相似性得分
- 依赖文件:tnicall2016.txt
- 数据样例:
数据含义:score为gvkey1和gvkey2的相似性得分,记为gvkey1_gvkey2_sim
- 两个合伙人教育背景相关性
- 依赖文件:Education_link.csv
-
数据样例:
数据含义:strength_education为两个partner的教育背景相关性,记为pid1_pid2_edu
- 输出score计算逻辑
对于每一个[gvkey,year,partnerID]:
1. 找到和partnerID有教育背景相关性的人(Education_link.csv提供),记为rel_pid
2. 对于和partnerID有教育背景相关性的每一个人pid
2.1 找到pid审计的每一个公司gvkey1,累计求和两个公司的相关性得分**gvkey_gvkey2_sim**,记为