初识Python：通过实践来学习

通常一门语言的学习都是由学习语法开始的，而本人在学习的过程中发现语法是很容易忘记的，即使学习完了假如不使用的话还是不会这门语言，因此本文通过一个具体的需求来学习python，一步一步走入python的世界。

题干：数据库为mysql，数据库名称为db，给定一张article表，其中包含字段keywords，内容为填写的文章关键词且用空格分隔多个关键词。

实现功能：统计所有文章的关键词及其个数，存入数据表中。

功能分析：

读取所有文章的keywords字段，按照空格分隔，统计出现频次。
创建关键词统计表，将统计结果存入表中。
实现文章增量记录的读取与处理。
将python文件打包布置到服务器上，定时执行。

在项目开始之前，确保python开发环境已经装好，如何安装在此就不赘述。本人使用的是python2.7，win7系统，所有的代码以python2.7为例。

下面，将一步步的介绍如何实现上面设定的小功能。

读取Mysql数据库

第一步需要连接mysql，并读取article表中的keywords字段，为后续操作做准备。

Python操作mysql数据库用到的是MySQLdb包，使用命令pip install MySQLdb即可。

#引入MySQLdb 库，命名为mdb  
import MySQLdb as mdb  

##连接数据库
try:
    #建立数据库连接
    conn = mdb.connect(host='127.0.0.1',port = 3306, user='root',passwd='pwd', db ='db',charset='utf8' )
    #获取操作游标
    cursor = conn.cursor()
except:
      print "Could not connect to MySQL server."
      exit(0)

数据库连接成功后，读取article表，就要用到cursor.execute函数，并设置异常处理。

#引入MySQLdb 库，命名为mdb  
import MySQLdb as mdb  

##连接数据库
try:
    #建立数据库连接
    conn = mdb.connect(host='127.0.0.1',port = 3306, user='root',passwd='pwd', db ='db',charset='utf8' )
    #获取操作游标
    cursor = conn.cursor()
except:
      print "Could not connect to MySQL server."
      exit(0)
##处理数据
try: 
    table_name = 'article'
    sql = 'SELECT article_id,keywords FROM '+ table_name
    count = cursor.execute(sql)
    print count
except:
    import traceback
    traceback.print_exc()
finally:
    conn.commit()
    cursor.close()
    conn.close()

cursor.execute函数得到是返回记录个数。
如果返回有记录，则处理keywords 字段的数据，并统计词频。思路是，定义一个空的字典{}用于存放统计结果；遍历记录，通过空格拆分字段，去除空字符后，与字典进行比对，若存在字典中则对应词条频次加1，若不存在则向字典中新增词条频次为1。

#引入MySQLdb 库，命名为mdb  
import MySQLdb as mdb  

##连接数据库
try:
    #建立数据库连接
    conn = mdb.connect(host='127.0.0.1',port = 3306, user='root',passwd='pwd', db ='db',charset='utf8' )
    #获取操作游标
    cursor = conn.cursor()
except:
      print "Could not connect to MySQL server."
      exit(0)
##处理数据
try: 
    table_name = 'article'
    sql = 'SELECT article_id,keywords FROM '+ table_name
    count = cursor.execute(sql)
    #print count
    if(count>0):
        results = cursor.fetchall() #取出全部数据集
        results = list(results) #默认取出的数据集为元组，设置为列表进行遍历
        ##获取各关键词数目
        kw_list={} #存放词频统计结果的字典
        #遍历数据结果集
        for r_id,row in results:
            last_id = r_id #记录依次赋值，直到最后一条记录id
            kw_str = ('%s' % row) #字段转成字符类型
            kw_str = kw_str.strip() #去除文本前后空格
            if(kw_str!=''):
                kw_arr = kw_str.split(' ')
                for kw in kw_arr:
                    kw = kw.strip()
                    if (kw!=''):
                        if (kw_list.has_key(kw)):
                            kw_list[kw] = kw_list[kw] + 1
                        else:
                            kw_list[kw] = 1

    print kw_list
except:
    import traceback
    traceback.print_exc()
finally:
    conn.commit()
    cursor.close()
    conn.close()

打印kw_list即可看到计算出的关键词频次统计。其中，results = list(results)这句非常重要，python从数据库中取出的数据是元组，通过list()函数转换成列表之后即可执行遍历操作。中文关键词字段处理时，总是报编码错误，加上kw_str = ('%s' % row)语句将字段转成字符类型即可。
至此，文章关键词的频次统计功能完成了，需要将统计结果存入数据表中。

操作Mysql数据库

设计关键词统计表article_keyword表，表结构如下图所示。

article_keyword表结构.png

统计结果写入表中，会出现两种情况，一种是表中存在的词，直接累加更新频次即可；另一种是不存在的词，则需要新增词。
为了规避每循环一次就执行一次更新或者新增的数据库操作，提升数据库访问性能，采用批量执行的方式。具体代码实现如下所示：

#引入MySQLdb 库，命名为mdb  
import MySQLdb as mdb  

##连接数据库
try:
    #建立数据库连接
    conn = mdb.connect(host='127.0.0.1',port = 3306, user='root',passwd='pwd', db ='db',charset='utf8' )
    #获取操作游标
    cursor = conn.cursor()
except:
      print "Could not connect to MySQL server."
      exit(0)
##处理数据
try: 
    table_name = 'article'
    sql = 'SELECT article_id,keywords FROM '+ table_name
    count = cursor.execute(sql)
    #print count
    if(count>0):
        results = cursor.fetchall() #取出全部数据集
        results = list(results) #默认取出的数据集为元组，设置为列表进行遍历
        ##获取各关键词数目
        kw_list={} #存放词频统计结果的字典
        #遍历数据结果集
        for r_id,row in results:
            last_id = r_id #记录依次赋值，直到最后一条记录id
            kw_str = ('%s' % row) #字段转成字符类型
            kw_str = kw_str.strip() #去除文本前后空格
            if(kw_str!=''):
                kw_arr = kw_str.split(' ')
                for kw in kw_arr:
                    kw = kw.strip()
                    if (kw!=''):
                        if (kw_list.has_key(kw)):
                            kw_list[kw] = kw_list[kw] + 1
                        else:
                            kw_list[kw] = 1
    #print kw_list

    ##结果写入关键词统计表中
    update_values = [] ##update的值
    insert_values = [] ##insert的值
    for key,value in kw_list.items():
        kw_count = cursor.execute("SELECT * FROM article_keyword WHERE name = '"+key+"'")    
        if(kw_count>0): #表中存在当前词
            update_values.append((key,int(value)))              
        else:       #表中不存在当前词
            insert_values.append((key,int(value)))     
                    
    #执行批量更新语句
    if (len(update_values)>0):
        sub_str = ''
        sub_str_in = ''
        for k,v in update_values:
            sub_str += 'WHEN \''+k+'\' THEN count+'+str(v) +' '
            sub_str_in += "'"+k+"',"

        sub_str_in = sub_str_in.strip(',')
        sub_str_in = '(' + sub_str_in + ')'
        sql_update = 'UPDATE article_keyword SET count = CASE name ' + sub_str +' END WHERE name IN '+sub_str_in
        #原始数量+本次计算数量
        cursor.execute(sql_update)
                        
    #执行批量插入语句
    if (len(insert_values)>0):
        cursor.executemany('insert into zk_article_keyword(name,count) values(%s,%s)', insert_values)
                  
except:
    import traceback
    traceback.print_exc()
finally:
    conn.commit()
    cursor.close()
    conn.close()

本文使用mysql 自带的语句构建批量更新，实例如下：

UPDATE tablename
    SET field = CASE id 
        WHEN 1 THEN 3 
        WHEN 2 THEN 4 
        WHEN 3 THEN 5 
    END
WHERE id IN (1,2,3)

意思是，更新tablename表中的field 字段，当id=1时field =3；当id=2时field =4；当id=3时field =5。
MySQLdb提供了executemany函数执行数据库批量插入操作。
至此，实现了关键词统计结果批量写入数据库中的功能。

分页处理大数据量

以上的操作是一次性读取所有文章并循环处理记录。如果数据量较大，一次性读取的记录太多，会极大影响执行效率，甚至产生内存错误。
为了规避这类错误的发生，采用分页处理的方式，设定每次处理的记录数量，并记录最后一个读取到的记录ID，直至数据读取完成。

#引入MySQLdb 库，命名为mdb  
import MySQLdb as mdb  
import random,time

##连接数据库
try:
    #建立数据库连接
    conn = mdb.connect(host='127.0.0.1',port = 3306, user='root',passwd='pwd', db ='db',charset='utf8' )
    #获取操作游标
    cursor = conn.cursor()
except:
      print "Could not connect to MySQL server."
      exit(0)

##处理数据
number = 20 #设置每次处理的记录条数
last_id = 0 #每次循环的最后一个处理记录ID 
try: 
    table_name = 'article'
    while True:
        if (last_id>0):
            sql = 'SELECT article_id,keywords FROM '+ table_name +' WHERE article_id>'+str(last_id)+' LIMIT '+str(number)
        elif(last_id==0):
            #从第一个记录开始执行
            sql = 'SELECT article_id,keywords FROM '+ table_name +' LIMIT '+str(number)

        count = cursor.execute(sql)
        if(count>0):
            results = cursor.fetchall() #取出全部数据集
            results = list(results) #默认取出的数据集为元组，设置为列表进行遍历
            ##获取各关键词数目
            kw_list={} #存放词频统计结果的字典
            #遍历数据结果集
            for r_id,row in results:
                last_id = r_id #记录依次赋值，直到最后一条记录id
                kw_str = ('%s' % row) #字段转成字符类型
                kw_str = kw_str.strip() #去除文本前后空格
                if(kw_str!=''):
                    kw_arr = kw_str.split(' ')
                    for kw in kw_arr:
                        kw = kw.strip()
                        if (kw!=''):
                            if (kw_list.has_key(kw)):
                                kw_list[kw] = kw_list[kw] + 1
                            else:
                                kw_list[kw] = 1

            #print kw_list

            ##结果写入关键词统计表中
            update_values = [] ##update的值
            insert_values = [] ##insert的值
            for key,value in kw_list.items():
                kw_count = cursor.execute("SELECT * FROM article_keyword WHERE name = '"+key+"'")    
                if(kw_count>0):
                    update_values.append((key,int(value)))              
                else:       
                    insert_values.append((key,int(value)))     
                            
            #执行批量更新语句
            if (len(update_values)>0):
                sub_str = ''
                sub_str_in = ''
                for k,v in update_values:
                    sub_str += 'WHEN \''+k+'\' THEN count+'+str(v) +' '
                    sub_str_in += "'"+k+"',"

                sub_str_in = sub_str_in.strip(',')
                sub_str_in = '(' + sub_str_in + ')'
                sql_update = 'UPDATE article_keyword SET count = CASE name ' + sub_str +' END WHERE name IN '+sub_str_in
                #print sql_update
                #原始数量+本次计算数量
                cursor.execute(sql_update)
                                
            #执行批量插入语句
            if (len(insert_values)>0):
                cursor.executemany('insert into article_keyword(name,count) values(%s,%s)', insert_values)
        else:
            break #跳出while循环
                  
except:
    import traceback
    traceback.print_exc()
finally:
    conn.commit()
    cursor.close()
    conn.close()

设置每次读取记录数number，并记录每次循环处理的最后一个记录ID（last_id），使用while循环来读取、处理数据，直到没有数据则跳出循环。

定时执行增量数据

以上实现了对article表中所有记录的分页读取与批量处理，但在实际作业中，article表中的记录是会不断新增的，不可能每次都对全部记录执行操作，因此需要在每次执行程序后记录最后一个记录的ID，下次执行程序前读取文章ID，从该记录之后读取数据。
解决此问题的方式，我采用了通过一个txt文件记录文章ID，文件名为bak.txt，初识值为0，每次程序执行先读取该文件记录的ID，程序执行完后将处理的最后一篇文章的ID放入文件中。这里就包含了python对txt文件的读取和写入功能，具体代码如下所示：

#引入MySQLdb 库，命名为mdb  
import MySQLdb as mdb  
import random,time

##读取bak.txt文件中记录的ID
txt_id = 0 #文件中记录的ID
file_obj = open('bak.txt')
try:
    txt_id = file_obj.read()    
finally:
    file_obj.close()

##连接数据库
try:
    #建立数据库连接
    conn = mdb.connect(host='127.0.0.1',port = 3306, user='root',passwd='pwd', db ='db',charset='utf8' )
    #获取操作游标
    cursor = conn.cursor()
except:
      print "Could not connect to MySQL server."
      exit(0)

##处理数据
number = 20 #设置每次处理的记录条数
last_id = int(txt_id) #每次循环的最后一个处理记录ID 
try: 
    table_name = 'article'
    while True:
        if (last_id>0):
            sql = 'SELECT article_id,keywords FROM '+ table_name +' WHERE article_id>'+str(last_id)+' LIMIT '+str(number)
        elif(last_id==0):
            #从第一个记录开始执行
            sql = 'SELECT article_id,keywords FROM '+ table_name +' LIMIT '+str(number)

        count = cursor.execute(sql)
        if(count>0):
            results = cursor.fetchall() #取出全部数据集
            results = list(results) #默认取出的数据集为元组，设置为列表进行遍历
            ##获取各关键词数目
            kw_list={} #存放词频统计结果的字典
            #遍历数据结果集
            for r_id,row in results:
                last_id = r_id #记录依次赋值，直到最后一条记录id
                kw_str = ('%s' % row) #字段转成字符类型
                kw_str = kw_str.strip() #去除文本前后空格
                if(kw_str!=''):
                    kw_arr = kw_str.split(' ')
                    for kw in kw_arr:
                        kw = kw.strip()
                        if (kw!=''):
                            if (kw_list.has_key(kw)):
                                kw_list[kw] = kw_list[kw] + 1
                            else:
                                kw_list[kw] = 1

            #print kw_list

            ##结果写入关键词统计表中
            update_values = [] ##update的值
            insert_values = [] ##insert的值
            for key,value in kw_list.items():
                kw_count = cursor.execute("SELECT * FROM article_keyword WHERE name = '"+key+"'")    
                if(kw_count>0):
                    update_values.append((key,int(value)))              
                else:       
                    insert_values.append((key,int(value)))     
                            
            #执行批量更新语句
            if (len(update_values)>0):
                sub_str = ''
                sub_str_in = ''
                for k,v in update_values:
                    sub_str += 'WHEN \''+k+'\' THEN count+'+str(v) +' '
                    sub_str_in += "'"+k+"',"

                sub_str_in = sub_str_in.strip(',')
                sub_str_in = '(' + sub_str_in + ')'
                sql_update = 'UPDATE article_keyword SET count = CASE name ' + sub_str +' END WHERE name IN '+sub_str_in
                #print sql_update
                #原始数量+本次计算数量
                cursor.execute(sql_update)
                                
            #执行批量插入语句
            if (len(insert_values)>0):
                cursor.executemany('insert into article_keyword(name,count) values(%s,%s)', insert_values)
        else:
            break #跳出while循环
                  
except:
    import traceback
    traceback.print_exc()
finally:
    conn.commit()
    cursor.close()
    conn.close()

##获取处理完的最后一条记录ID，写入文件中
file_obj = open('bak.txt', 'w')
file_obj.writelines(str(last_id))
file_obj.close( )

需要注意的是last_id 的初始值不再是0，需要改成从txt文件中读取的文章ID即last_id = int(txt_id)。
另，python对于数据类型要求很严格，字符串的连接必须要先强制转换成字符型，数值类型亦然。
至此，所有的代码书写完成。

Python文件打包成exe

写完python脚本以后，需要在IDLE运行才能执行程序，而文章可能每天都会更新，因此需要脚本能够定期自动运行，所以考虑将python脚本打包成exe文件，设置成定时任务。
Python文件打包成exe有两种工具：py2exe和pyInstaller，根据网友推荐选择pyInstaller进行python文件打包。步骤如下所示：

官网下载pyInstaller，解压到任意文件夹下。本人下载的版本是PyInstaller-3.2.1，解压到D盘。
在pyInstaller文件目录下，点击（Shift+鼠标右键）在弹出菜单栏中选择“在此处打开命令窗口”。在命令窗口中输入setup.py install进行安装。
若安装报错，则还需要安装PyWin32，输入import win32com若不报错则表示安装成功。
在命令窗口输入pyinstaller.py -F D:/PyRoot/getkws.py，执行完成后在pyInstaller目录下生成了名字为python文件名的文件夹getkws，打开后看到如下内容。

Python文件打包成exe.png
打开dist文件夹，即可看到生成好的getkws.exe文件。

exe文件生成成功后，在系统自带的系统工具-任务计划程序中“创建基本任务”，选择执行文件并设置定时间隔，设定完成后即可。
至此，使用Python实现文章关键词分割、统计的功能就全部实现了。

本文通过一个简单的需求，运用python语言一步步的介绍了功能的解决思路和python的编程写法，其中遇到了很多的坑，例如中文乱码、字符串连接、批量修改、文件打包等。有问题的出现才会激发解决问题的冲动，不懂的就去百度谷歌，一个个的解决、实现、最终完成，很有成就感。虽然这只是一个小小的功能，代码的书写也比较基础，却也明白了python整个开发流程和部署，算是对本人python入门项目的一次梳理。

初识Python：通过实践来学习