1. 目的
venus商城的项目,为了更加贴近真实场景,计划模拟1百万的虚拟用户数据。这是一个宏大计划的第一步,千里之行,始于足下,在这个项目中,希望可以将我所掌握的东西融汇贯通,并进一步扩展;在这个项目规划中,包括了分布式相关的技术、流式处理、大数据分析、以及前端、小程序等等。虽然连我自己都觉得这是在吹牛,是不可能实现的,但是话先放出去,万一将来真做成了呢!
2. 用户表相关
先从简单开始,电商项目的用户表,只要包含用户姓名、手机号、证件号、地址等信息就可以了,后续根据需要进行扩展。
// 用户表
{"userName":"李靖",
"sex":"M",
"phone":"16866668888",
"idNo":"120103xxxxxxxxxxxx",
"passwd":"uhng2343",
"address": {"province":"天津市","tag":"家","city":"天津市","district":"河西区","street_address":"陈塘关李府"},
"create_time":"2020.10.31 12:11:30"
}
3. python中的Faker库介绍
为了让模拟的数据更接近真实数据,这里引入一个python的库,Faker,地址:https://pypi.org/project/Faker/ 。使用它可以生成身份证号,手机号,地址,姓名等等,
关于这个库的详细教程,可以参照以下这篇文章:
https://zhuanlan.zhihu.com/p/87203290
以下是python使用Faker生成用户的方法(初学python,如果代码写的有毛病欢迎大家指正:) ):
4. 用户表数据库存储
这个项目的第一张表是用户表,但是我没打算使用mysql做数据存储,我选择mongoDB。在很多人眼中,mongoDB更多是一个非关系型数据库,不可能成为一个项目的核心存储库,就像redis,es等一样,只能用来辅助。但是mongoDB其实在最新的版本中已经具备了承担核心库任务的条件:
mongoDB4.2以后的版本,不仅优化了性能,而且提供了关键的事务支持。相对mysql,mongoDB在功能上已经差异不大。
mongoDB的数据结构是json形式的,数据的存储更接近代码中的实体类对象,而且表结构的扩展简单,想像一下mysql中对千万级别的表增加字段是一个多个漫长的过程?!json可以嵌套,这样在mysql中需要多张表存储的数据,mongoDB只要一张就可以了。
下面定义一个方法,将用户表的数据写入mongoDB
import pymongo
def insert_user():
client = pymongo.MongoClient('mongodb://flnn:flnn1110@192.168.3.152:27017')
database = client['venus']foriinrange(100):
user = generate_user()
database['user'].insert_one(user)
下面就是执行了:
insert_user()
5. 效率提升
原本设想得很美好,我只要将上面for循环中的100改为100万,然后静静地等待它执行完就可以了,但是实际结果是程序跑了近5个小时,数据库中才插入了30多万的数据,这个效率实在是。。。(想我以前使用java往mongoDB中插入数据的时候,可是能够一个小时插入1千万的呀)
那么考虑下python的多线程吧,我的电脑是4核8线程的, 将程序改成多线程执行:
注意这里的target参数的值不要写成insert_user(),加上括号之后,就变成了将insert_user的执行结果传递给target了,那是完全不对的。
不过上面多线程的执行效率,经过对比,似乎也没有提升8倍速度,不过总算有些效果。python程序如何提升执行效率,目前能想到的就是这个手段了,其他的也许可以从mongoDB的插入方法上改进一下,比如逐条插入修改为批量插入。
万里长征的第一步总算走出去了,下一步,就是构建程序主体啦。