一个人脸识别研究小组对若干名学生做了人脸识别的测试,将测试结果与被测试者的现场照片组合成文件名,写到了一个文件 dir_100.txt 中,每行是一个文件名的信息,示例如下:
['1709020621', '0']_116.jpg
['1709020621']_115.jpg
['1770603107', '1770603105', '0', '0']_1273.jpg
文件名各部分含义如下:
[‘识别出学号1’,‘ 识别出学号2’,…,‘0表示检测到人脸但未识别出人’]_照片的顺序编号.jpg
测试过程中,一个学生可能被抓拍到多张照片中,所以会在多个文件名中被识别,学号出现在多个文件名中;一张照片中,可能有多个人脸,但有些分辨率不够而识别不出来,文件名位置用‘0’代替学号。
使用字典和列表型变量进行数据分析,最终获取实际参加测试的学生人数和人均被测次数。
(1)读入 dir_300.txt 文件的内容,处理每一行文件名信息。将文件名中的学号内容以列表形式保存,丢掉‘0’的字串;照片的顺序编号作为字典的关键字,学号列表作为字典的值。转换后,显示字典中的每行信息,示例如下:
116:1709020621
115:1709020621
117:1709020621
1273: 1770603107,1770603105
(2)将该字典中的学号提取出来,构造另一个字典,以学号作为字典的关键字,累计学号出现的次数,将累计值作为字典的值。格式示例如下:
1709020621:3
1770603107:1
1770603105:1
(3)累计字典中关键字的个数,即为实际参加测试的学生人数;累加每个关键字对应的值,即为所有学号测试次数;与实际测试人数之比,即为人均被测次数。将实际参加测试人数和人均被测次数显示输出在屏幕上,示例如下:
实际参加测试的人数是:1024
人均被测次数是:2.7
【解题思路】
这是一个实际问题,解决问题的方法有实际的推广意义。问题的关键是要完成数据提取,然后才是分析统计
文件的读写,打开关闭是基础
读入文件要进行字符串的处理,按行,分割成列表
数据提取:先取得文件里的有效内容,转换成列表,利用列表的切片,提取出照片编号和学号,放到字典picd里
第二步数据分析,需要先从字典里把学号提取出来,为了便于统计每个学号被测的次数,再建一个字典idd
idd字典的键是学号,所以字典的len就是参加测试的人数
为了计算平均测试次数,需要累计每个学号被测的次数,最后除以参加测试人数就得到结果
from collections import Counter
s_id = [] # 学号总列表
q1 = "(1)读入 dir_300.txt 文件的内容,处理每一行文件名信息。\n将文件名中的学号内容以列表形式保存,丢掉‘0’的字串;\n照片的顺序编号作为字典的关键字,学号列表作为字典的值。\n"
'转换后,显示字典中的每行信息,示例如下:'
q2 = "(2)将该字典中的学号提取出来,构造另一个字典,以学号作为字典的关键字,\n累计学号出现的次数,将累计值作为字典的值。格式示例如下:"
q3 = "(3)累计字典中关键字的个数,即为实际参加测试的学生人数;\n累加每个关键字对应的值,即为所有学号测试次数;\n与实际测试人数之比,即为人均被测次数。\n将实际参加测试人数和人均被测次数显示输出在屏幕上,示例如下:\r\n"
try:
file_two = open("D:\程序是练出来的\dir_300.txt", "w")
file_two.truncate() # truncate会删除文件中所有记录
file_two.seek(0) # 光标回到起始位置
file_two.write(q1) # 写入q1到dir_300.txt
print(q1)
with open("D:\程序是练出来的\dir_100.txt", "r+") as file_one:
f = file_one.readlines()
for i in f:
j = i.replace("'", "")
j = j.replace(".jpg", "")
j = j.replace("[", "")
j = j.replace("]", "")
lst = j.split("_") # 按照符号“_”分割
if lst[0] is "\n": # 上下之间数据的空行去掉
continue
lst[1] = lst[1].rstrip() # 去掉右边空字符串
s_one = lst[0].split(",") # 学号列表
for n in s_one[:]: # s_one[:]是对原始s_one列表的一个拷贝,是一个新的list,我们遍历新的list,而删除原始的list中的元素,既不会引起索引溢出,最后又能够得到想要的最终结果。
if int(n) is 0:
s_one.remove(n) # 删除列表中的0元素
else:
s_id.append(int(n)) # 学号汇总到总学号列表
print(lst[1] + ":" + ",".join(s_one)) # lst[1] 文件号
file_two.write(lst[1] + ":" + ",".join(s_one)+"\r\n")
c = Counter(s_id)
print(q2)
file_two.write(q2)
k = c.most_common(len(c)) # 找出全部元素从大到小的元素频率以及对应的次数。
for o in k:
print(str(o[0]) + " " + str(o[1]))
file_two.write(str(o[0]) + " " + str(o[1])+"\r\n")
print(q3)
file_two.write(q3)
print("实际参加测试的人数:" + str(len(c)) + "人")
file_two.write("实际参加测试的人数:" + str(len(c)) + "人"+"\r\n")
print("学号总共测试次数:" + str(len(s_id)))
file_two.write("学号总共测试次数:" + str(len(s_id))+"\r\n")
print("人均测试次数是:"+"{:.2f}".format(len(s_id)/len(c)))
file_two.write("人均测试次数是:"+"{:.2f}".format(len(s_id)/len(c))+"\r\n")
finally:
file_one.close()
写入D盘文件的内容效果如下: