初识Python:通过实践来学习

通常一门语言的学习都是由学习语法开始的,而本人在学习的过程中发现语法是很容易忘记的,即使学习完了假如不使用的话还是不会这门语言,因此本文通过一个具体的需求来学习python,一步一步走入python的世界。

题干:数据库为mysql,数据库名称为db,给定一张article表,其中包含字段keywords,内容为填写的文章关键词且用空格分隔多个关键词。

实现功能:统计所有文章的关键词及其个数,存入数据表中。

功能分析

  1. 读取所有文章的keywords字段,按照空格分隔,统计出现频次。

  2. 创建关键词统计表,将统计结果存入表中。

  3. 实现文章增量记录的读取与处理。

  4. 将python文件打包布置到服务器上,定时执行。


在项目开始之前,确保python开发环境已经装好,如何安装在此就不赘述。本人使用的是python2.7,win7系统,所有的代码以python2.7为例。

下面,将一步步的介绍如何实现上面设定的小功能。

读取Mysql数据库

第一步需要连接mysql,并读取article表中的keywords字段,为后续操作做准备。

Python操作mysql数据库用到的是MySQLdb包,使用命令pip install MySQLdb即可。

#引入MySQLdb 库,命名为mdb  
import MySQLdb as mdb  

##连接数据库
try:
    #建立数据库连接
    conn = mdb.connect(host='127.0.0.1',port = 3306, user='root',passwd='pwd', db ='db',charset='utf8' )
    #获取操作游标
    cursor = conn.cursor()
except:
      print "Could not connect to MySQL server."
      exit(0)

数据库连接成功后,读取article表,就要用到cursor.execute函数,并设置异常处理。

#引入MySQLdb 库,命名为mdb  
import MySQLdb as mdb  

##连接数据库
try:
    #建立数据库连接
    conn = mdb.connect(host='127.0.0.1',port = 3306, user='root',passwd='pwd', db ='db',charset='utf8' )
    #获取操作游标
    cursor = conn.cursor()
except:
      print "Could not connect to MySQL server."
      exit(0)
##处理数据
try: 
    table_name = 'article'
    sql = 'SELECT article_id,keywords FROM '+ table_name
    count = cursor.execute(sql)
    print count
except:
    import traceback
    traceback.print_exc()
finally:
    conn.commit()
    cursor.close()
    conn.close()

cursor.execute函数得到是返回记录个数。
如果返回有记录,则处理keywords 字段的数据,并统计词频。思路是,定义一个空的字典{}用于存放统计结果;遍历记录,通过空格拆分字段,去除空字符后,与字典进行比对,若存在字典中则对应词条频次加1,若不存在则向字典中新增词条频次为1。

#引入MySQLdb 库,命名为mdb  
import MySQLdb as mdb  

##连接数据库
try:
    #建立数据库连接
    conn = mdb.connect(host='127.0.0.1',port = 3306, user='root',passwd='pwd', db ='db',charset='utf8' )
    #获取操作游标
    cursor = conn.cursor()
except:
      print "Could not connect to MySQL server."
      exit(0)
##处理数据
try: 
    table_name = 'article'
    sql = 'SELECT article_id,keywords FROM '+ table_name
    count = cursor.execute(sql)
    #print count
    if(count>0):
        results = cursor.fetchall() #取出全部数据集
        results = list(results) #默认取出的数据集为元组,设置为列表进行遍历
        ##获取各关键词数目
        kw_list={} #存放词频统计结果的字典
        #遍历数据结果集
        for r_id,row in results:
            last_id = r_id #记录依次赋值,直到最后一条记录id
            kw_str = ('%s' % row) #字段转成字符类型
            kw_str = kw_str.strip() #去除文本前后空格
            if(kw_str!=''):
                kw_arr = kw_str.split(' ')
                for kw in kw_arr:
                    kw = kw.strip()
                    if (kw!=''):
                        if (kw_list.has_key(kw)):
                            kw_list[kw] = kw_list[kw] + 1
                        else:
                            kw_list[kw] = 1

    print kw_list
except:
    import traceback
    traceback.print_exc()
finally:
    conn.commit()
    cursor.close()
    conn.close()

打印kw_list即可看到计算出的关键词频次统计。其中,results = list(results)这句非常重要,python从数据库中取出的数据是元组,通过list()函数转换成列表之后即可执行遍历操作。中文关键词字段处理时,总是报编码错误,加上kw_str = ('%s' % row)语句将字段转成字符类型即可。
至此,文章关键词的频次统计功能完成了,需要将统计结果存入数据表中。


操作Mysql数据库

设计关键词统计表article_keyword表,表结构如下图所示。


article_keyword表结构.png

统计结果写入表中,会出现两种情况,一种是表中存在的词,直接累加更新频次即可;另一种是不存在的词,则需要新增词。
为了规避每循环一次就执行一次更新或者新增的数据库操作,提升数据库访问性能,采用批量执行的方式。具体代码实现如下所示:

#引入MySQLdb 库,命名为mdb  
import MySQLdb as mdb  

##连接数据库
try:
    #建立数据库连接
    conn = mdb.connect(host='127.0.0.1',port = 3306, user='root',passwd='pwd', db ='db',charset='utf8' )
    #获取操作游标
    cursor = conn.cursor()
except:
      print "Could not connect to MySQL server."
      exit(0)
##处理数据
try: 
    table_name = 'article'
    sql = 'SELECT article_id,keywords FROM '+ table_name
    count = cursor.execute(sql)
    #print count
    if(count>0):
        results = cursor.fetchall() #取出全部数据集
        results = list(results) #默认取出的数据集为元组,设置为列表进行遍历
        ##获取各关键词数目
        kw_list={} #存放词频统计结果的字典
        #遍历数据结果集
        for r_id,row in results:
            last_id = r_id #记录依次赋值,直到最后一条记录id
            kw_str = ('%s' % row) #字段转成字符类型
            kw_str = kw_str.strip() #去除文本前后空格
            if(kw_str!=''):
                kw_arr = kw_str.split(' ')
                for kw in kw_arr:
                    kw = kw.strip()
                    if (kw!=''):
                        if (kw_list.has_key(kw)):
                            kw_list[kw] = kw_list[kw] + 1
                        else:
                            kw_list[kw] = 1
    #print kw_list

    ##结果写入关键词统计表中
    update_values = [] ##update的值
    insert_values = [] ##insert的值
    for key,value in kw_list.items():
        kw_count = cursor.execute("SELECT * FROM article_keyword WHERE name = '"+key+"'")    
        if(kw_count>0): #表中存在当前词
            update_values.append((key,int(value)))              
        else:       #表中不存在当前词
            insert_values.append((key,int(value)))     
                    
    #执行批量更新语句
    if (len(update_values)>0):
        sub_str = ''
        sub_str_in = ''
        for k,v in update_values:
            sub_str += 'WHEN \''+k+'\' THEN count+'+str(v) +' '
            sub_str_in += "'"+k+"',"

        sub_str_in = sub_str_in.strip(',')
        sub_str_in = '(' + sub_str_in + ')'
        sql_update = 'UPDATE article_keyword SET count = CASE name ' + sub_str +' END WHERE name IN '+sub_str_in
        #原始数量+本次计算数量
        cursor.execute(sql_update)
                        
    #执行批量插入语句
    if (len(insert_values)>0):
        cursor.executemany('insert into zk_article_keyword(name,count) values(%s,%s)', insert_values)
                  
except:
    import traceback
    traceback.print_exc()
finally:
    conn.commit()
    cursor.close()
    conn.close()

本文使用mysql 自带的语句构建批量更新,实例如下:

UPDATE tablename
    SET field = CASE id 
        WHEN 1 THEN 3 
        WHEN 2 THEN 4 
        WHEN 3 THEN 5 
    END
WHERE id IN (1,2,3)

意思是,更新tablename表中的field 字段,当id=1时field =3;当id=2时field =4;当id=3时field =5。
MySQLdb提供了executemany函数执行数据库批量插入操作。
至此,实现了关键词统计结果批量写入数据库中的功能。


分页处理大数据量

以上的操作是一次性读取所有文章并循环处理记录。如果数据量较大,一次性读取的记录太多,会极大影响执行效率,甚至产生内存错误。
为了规避这类错误的发生,采用分页处理的方式,设定每次处理的记录数量,并记录最后一个读取到的记录ID,直至数据读取完成。

#引入MySQLdb 库,命名为mdb  
import MySQLdb as mdb  
import random,time

##连接数据库
try:
    #建立数据库连接
    conn = mdb.connect(host='127.0.0.1',port = 3306, user='root',passwd='pwd', db ='db',charset='utf8' )
    #获取操作游标
    cursor = conn.cursor()
except:
      print "Could not connect to MySQL server."
      exit(0)

##处理数据
number = 20 #设置每次处理的记录条数
last_id = 0 #每次循环的最后一个处理记录ID 
try: 
    table_name = 'article'
    while True:
        if (last_id>0):
            sql = 'SELECT article_id,keywords FROM '+ table_name +' WHERE article_id>'+str(last_id)+' LIMIT '+str(number)
        elif(last_id==0):
            #从第一个记录开始执行
            sql = 'SELECT article_id,keywords FROM '+ table_name +' LIMIT '+str(number)

        count = cursor.execute(sql)
        if(count>0):
            results = cursor.fetchall() #取出全部数据集
            results = list(results) #默认取出的数据集为元组,设置为列表进行遍历
            ##获取各关键词数目
            kw_list={} #存放词频统计结果的字典
            #遍历数据结果集
            for r_id,row in results:
                last_id = r_id #记录依次赋值,直到最后一条记录id
                kw_str = ('%s' % row) #字段转成字符类型
                kw_str = kw_str.strip() #去除文本前后空格
                if(kw_str!=''):
                    kw_arr = kw_str.split(' ')
                    for kw in kw_arr:
                        kw = kw.strip()
                        if (kw!=''):
                            if (kw_list.has_key(kw)):
                                kw_list[kw] = kw_list[kw] + 1
                            else:
                                kw_list[kw] = 1

            #print kw_list

            ##结果写入关键词统计表中
            update_values = [] ##update的值
            insert_values = [] ##insert的值
            for key,value in kw_list.items():
                kw_count = cursor.execute("SELECT * FROM article_keyword WHERE name = '"+key+"'")    
                if(kw_count>0):
                    update_values.append((key,int(value)))              
                else:       
                    insert_values.append((key,int(value)))     
                            
            #执行批量更新语句
            if (len(update_values)>0):
                sub_str = ''
                sub_str_in = ''
                for k,v in update_values:
                    sub_str += 'WHEN \''+k+'\' THEN count+'+str(v) +' '
                    sub_str_in += "'"+k+"',"

                sub_str_in = sub_str_in.strip(',')
                sub_str_in = '(' + sub_str_in + ')'
                sql_update = 'UPDATE article_keyword SET count = CASE name ' + sub_str +' END WHERE name IN '+sub_str_in
                #print sql_update
                #原始数量+本次计算数量
                cursor.execute(sql_update)
                                
            #执行批量插入语句
            if (len(insert_values)>0):
                cursor.executemany('insert into article_keyword(name,count) values(%s,%s)', insert_values)
        else:
            break #跳出while循环
                  
except:
    import traceback
    traceback.print_exc()
finally:
    conn.commit()
    cursor.close()
    conn.close()

设置每次读取记录数number,并记录每次循环处理的最后一个记录ID(last_id),使用while循环来读取、处理数据,直到没有数据则跳出循环。


定时执行增量数据

以上实现了对article表中所有记录的分页读取与批量处理,但在实际作业中,article表中的记录是会不断新增的,不可能每次都对全部记录执行操作,因此需要在每次执行程序后记录最后一个记录的ID,下次执行程序前读取文章ID,从该记录之后读取数据。
解决此问题的方式,我采用了通过一个txt文件记录文章ID,文件名为bak.txt,初识值为0,每次程序执行先读取该文件记录的ID,程序执行完后将处理的最后一篇文章的ID放入文件中。这里就包含了python对txt文件的读取和写入功能,具体代码如下所示:

#引入MySQLdb 库,命名为mdb  
import MySQLdb as mdb  
import random,time

##读取bak.txt文件中记录的ID
txt_id = 0 #文件中记录的ID
file_obj = open('bak.txt')
try:
    txt_id = file_obj.read()    
finally:
    file_obj.close()

##连接数据库
try:
    #建立数据库连接
    conn = mdb.connect(host='127.0.0.1',port = 3306, user='root',passwd='pwd', db ='db',charset='utf8' )
    #获取操作游标
    cursor = conn.cursor()
except:
      print "Could not connect to MySQL server."
      exit(0)

##处理数据
number = 20 #设置每次处理的记录条数
last_id = int(txt_id) #每次循环的最后一个处理记录ID 
try: 
    table_name = 'article'
    while True:
        if (last_id>0):
            sql = 'SELECT article_id,keywords FROM '+ table_name +' WHERE article_id>'+str(last_id)+' LIMIT '+str(number)
        elif(last_id==0):
            #从第一个记录开始执行
            sql = 'SELECT article_id,keywords FROM '+ table_name +' LIMIT '+str(number)

        count = cursor.execute(sql)
        if(count>0):
            results = cursor.fetchall() #取出全部数据集
            results = list(results) #默认取出的数据集为元组,设置为列表进行遍历
            ##获取各关键词数目
            kw_list={} #存放词频统计结果的字典
            #遍历数据结果集
            for r_id,row in results:
                last_id = r_id #记录依次赋值,直到最后一条记录id
                kw_str = ('%s' % row) #字段转成字符类型
                kw_str = kw_str.strip() #去除文本前后空格
                if(kw_str!=''):
                    kw_arr = kw_str.split(' ')
                    for kw in kw_arr:
                        kw = kw.strip()
                        if (kw!=''):
                            if (kw_list.has_key(kw)):
                                kw_list[kw] = kw_list[kw] + 1
                            else:
                                kw_list[kw] = 1

            #print kw_list

            ##结果写入关键词统计表中
            update_values = [] ##update的值
            insert_values = [] ##insert的值
            for key,value in kw_list.items():
                kw_count = cursor.execute("SELECT * FROM article_keyword WHERE name = '"+key+"'")    
                if(kw_count>0):
                    update_values.append((key,int(value)))              
                else:       
                    insert_values.append((key,int(value)))     
                            
            #执行批量更新语句
            if (len(update_values)>0):
                sub_str = ''
                sub_str_in = ''
                for k,v in update_values:
                    sub_str += 'WHEN \''+k+'\' THEN count+'+str(v) +' '
                    sub_str_in += "'"+k+"',"

                sub_str_in = sub_str_in.strip(',')
                sub_str_in = '(' + sub_str_in + ')'
                sql_update = 'UPDATE article_keyword SET count = CASE name ' + sub_str +' END WHERE name IN '+sub_str_in
                #print sql_update
                #原始数量+本次计算数量
                cursor.execute(sql_update)
                                
            #执行批量插入语句
            if (len(insert_values)>0):
                cursor.executemany('insert into article_keyword(name,count) values(%s,%s)', insert_values)
        else:
            break #跳出while循环
                  
except:
    import traceback
    traceback.print_exc()
finally:
    conn.commit()
    cursor.close()
    conn.close()

##获取处理完的最后一条记录ID,写入文件中
file_obj = open('bak.txt', 'w')
file_obj.writelines(str(last_id))
file_obj.close( )

需要注意的是last_id 的初始值不再是0,需要改成从txt文件中读取的文章ID即last_id = int(txt_id)
另,python对于数据类型要求很严格,字符串的连接必须要先强制转换成字符型,数值类型亦然。
至此,所有的代码书写完成。


Python文件打包成exe

写完python脚本以后,需要在IDLE运行才能执行程序,而文章可能每天都会更新,因此需要脚本能够定期自动运行,所以考虑将python脚本打包成exe文件,设置成定时任务。
Python文件打包成exe有两种工具:py2exe和pyInstaller,根据网友推荐选择pyInstaller进行python文件打包。步骤如下所示:

  • 官网下载pyInstaller,解压到任意文件夹下。本人下载的版本是PyInstaller-3.2.1,解压到D盘。
  • 在pyInstaller文件目录下,点击(Shift+鼠标右键)在弹出菜单栏中选择“在此处打开命令窗口”。在命令窗口中输入setup.py install进行安装。
  • 若安装报错,则还需要安装PyWin32,输入import win32com若不报错则表示安装成功。
  • 在命令窗口输入pyinstaller.py -F D:/PyRoot/getkws.py,执行完成后在pyInstaller目录下生成了名字为python文件名的文件夹getkws,打开后看到如下内容。
    Python文件打包成exe.png
  • 打开dist文件夹,即可看到生成好的getkws.exe文件。

exe文件生成成功后,在系统自带的系统工具-任务计划程序中“创建基本任务”,选择执行文件并设置定时间隔,设定完成后即可。
至此,使用Python实现文章关键词分割、统计的功能就全部实现了。


本文通过一个简单的需求,运用python语言一步步的介绍了功能的解决思路和python的编程写法,其中遇到了很多的坑,例如中文乱码、字符串连接、批量修改、文件打包等。有问题的出现才会激发解决问题的冲动,不懂的就去百度谷歌,一个个的解决、实现、最终完成,很有成就感。虽然这只是一个小小的功能,代码的书写也比较基础,却也明白了python整个开发流程和部署,算是对本人python入门项目的一次梳理。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,080评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,422评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,630评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,554评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,662评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,856评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,014评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,752评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,212评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,541评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,687评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,347评论 4 331
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,973评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,777评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,006评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,406评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,576评论 2 349

推荐阅读更多精彩内容