信息内容安全实验-TF-IDF信息检索

题目:针对“语料库.txt”文件,实现基于TF-IDF的检索系统。(每一行看做是一个文档)
基于TF-IDF的检索系统,
输入 不超过8个字的短语,系统首先自动进行分词,按照这些分子在所有文档中的TF-IDF的值求和排序返回前10项结果。
提示:注意检索速度,提前计算每个文档的词频并存储。

先利用实验一分词完成的结果,对每一行进行分词统计词频,并记录

image.png

然后利用实验一的FMM来对输入的单词进行分词,分词完成后先计算idf,因为输入确定后,idf就确定了。计算idf是根据分成每个单词,挨个遍历,若这一行有+1,最终除以行数

image.png

然后计算tf,tf每一行都不一样,需要利用前面的每行的统计词频来计算,最后计算tf-idf,将前十大的数值放进结果列表中,并记录行数。

image.png

最后输出前十符合的句子

image.png

完整代码:

import re
import math
#process_1.txt分词完成
#process_2.txt去重完成
#result.txt没行的结果
#end_result.txt 实验一去重排序的文本
def quchong():
    i=0
    with open("process_1.txt",'r',encoding='UTF-8') as f,open("process_2.txt",'w',encoding='UTF-8') as w:
        while(i<23062):
            i=i+1
            dict_temp={}
            temp_words = f.readline().replace("\n", "").split(" ")
            total_words = temp_words[1:]
            dict_temp=dict.fromkeys(total_words)
            for word in dict_temp:
                print(word)
                w.write(word+" ")
            w.write("\n")
def count(): #统计每行的词频
    i=0
    with open("process_1.txt", 'r', encoding='UTF-8') as f1,open("process_2.txt", 'r', encoding='UTF-8') as f2 ,open("result.txt","w",encoding="UTF-8") as w:
        while(i<23062):
            i=i+1
            temp_words=f1.readline().replace("\n","").split(" ")
            total_words=temp_words[1:]
            line_words=f2.readline().replace("\n","").split(" ")
            for word in line_words:
                word_num=total_words.count(word)
                print("{}:{}".format(word, word_num))
                w.write("{}:{} ".format(word, word_num))
            w.write("\n")
with open("end_result.txt","r",encoding="UTF-8") as f:
    temp=f.read()
    temp1=re.sub(r':\d*',"",temp)
    word_dict=temp1.split("\n")

def getword(text):
    if len(text)==0:
        return ""
    if len(text)==1:
        return text
    if text in word_dict:
        return text
    else:
        small=len(text)-1
        text=text[0:small]
        return getword(text)
def FMM():
    start_index = 0
    max_length = 15
    result_len=0
    result_str = ""
    test_str=input("输入不超过八个字短语:")
    while test_str!="":
        tmp_str = test_str[0:max_length]
        seg_str = getword(tmp_str)
        seg_len = len(seg_str)
        result_len = result_len + seg_len
        if seg_str.strip():
            result_str = result_str + seg_str + ' / '
        test_str = test_str[seg_len:]
    return(result_str)



def idf(text):#计算idf
    words=text.replace("'","").split(" / ")
    #计算idf
    idf = [0, 0, 0, 0, 0, 0, 0, 0]
    with open("result.txt",'r',encoding="UTF-8") as f:
        i=0
        while(i<23062):
            i=i+1
            line_words=f.readline().replace(":"," ").rstrip().split(" ")
            for word in words:
                if(word in line_words):
                    idf[words.index(word)]=idf[words.index(word)]+1
    for i in range(0,len(words)):
        if(idf[i]!=0):
            idf[i]=math.log(23062/idf[i],2)
    return idf

def tf(text,idf):#计算tf
    result= [0,0,0,0,0,0,0,0,0,0]
    result_index=[0,0,0,0,0,0,0,0,0,0]
    words = text.replace("'", "").split(" / ")
    print(words)
    with open("result.txt",'r',encoding="UTF-8") as f:
        i=0
        while(i<20632):
            tf = [0, 0, 0, 0, 0, 0, 0, 0]
            line_words=f.readline().replace(":"," ").rstrip().split(" ")
            lines_num=len(line_words)
            for word in words:
                if(word in line_words):
                    tf[words.index(word)]=int(line_words[line_words.index(word)+1])/lines_num
            sum=0
            for j in range(0,len(words)):
                sum=sum+tf[j]*idf[j]
            min_num=min(result)
            min_index=result.index(min_num)
            if(sum>min_num):
                result[min_index]=sum
                result_index[min_index]=i
            i = i + 1
    #print("idf:",idf)
    #print("tf:", tf)
    #print("result:",result)
    #print("result_index",result_index)
    #result_dic=dict(zip(result_index,result))
    #print(result_dic)
    with open("语料库.txt", 'r', encoding="UTF-8") as f:
        t=0
        while(t<20632):
            end_line_words = f.readline()
            if(t in result_index):
                end_index=result_index.index(t)
                #print("数值:{}\n文档:{}".format(result[t],end_line_words)
                print(str(result[end_index])+"   "+end_line_words)
                print("-----------------------------------------------")
            t=t+1
def main():
    x=FMM()
    idf_result=idf(x)
    tf(x,idf_result)

if __name__=='__main__':
    main()
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,546评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,224评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,911评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,737评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,753评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,598评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,338评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,249评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,696评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,888评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,013评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,731评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,348评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,929评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,048评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,203评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,960评论 2 355