数据分析:揭开张艺谋导演选角的秘密!

在数据分析中大家可能都听过“啤酒与尿布”的故事,意思是商家将啤酒放在尿布盘边,能够增加啤酒的销售量。

那么我们会问,商家是怎么从以往的购物数据得到这个结论的呢?

原理:

这里我们不得不提到关联算法,Apriori算法。商家将以往的购物清单进行关联规制统计,得到了三个数据:置信度、支持度、提升度。

支持度:支持度是个百分比,它指的是某个商品组合出现的次数与总次数之间的比例。支持度越高,代表这个组合出现的频率越大。

置信度:它指的就是当你购买了商品+A,会有多大的概率购买商品+B。

提升度:我们在做商品推荐的时候,重点考虑的是提升度,因为提升度代表的是“商品+A+的出现,对商品+B+的出现概率提升的”程度。

提升度 (A→B)= 置信度 (A→B)/ 支持度 (B)

三种可能:
1、提升度 (A→B)>1:代表有提升;
2、提升度 (A→B)=1:代表有没有提升,也没有下降;
3、提升度 (A→B)<1:代表有下降。

总体来说:
Apriori 算法其实就是查找频繁项集 (frequent itemset) 的过程,所以首先我们需要定义什么是频繁项集。

频繁项集就是支持度大于等于最小支持度 (Min Support) 阈值的项集,所以小于最小值支持度的项目就是非频繁项集,而大于等于最小支持度的项集就是频繁项集。

Apriori改进,FP-Growth算法:

Apriori缺点:
1、可能产生大量的候选集。因为采用排列组合的方式,把可能的项集都组合出来了;
2、每次计算都需要重新扫描数据集,来计算每个项集的支持度。

fp-growth算法:
1、创建了一棵 FP 树来存储频繁项集。在创建前对不满足最小支持度的项进行删除,减少了存储空间;
2、 整个生成过程只遍历数据集 2 次,大大减少了计算量。

Apriori算法:

将二元列表导入模型,可以求出最终结果,频繁项目集和频繁规则。

from efficient_apriori import apriori
# 设置数据集
data = [['牛奶','面包','尿布'],
           ['可乐','面包', '尿布', '啤酒'],
           ['牛奶','尿布', '啤酒', '鸡蛋'],
           ['面包', '牛奶', '尿布', '啤酒'],
           ['面包', '牛奶', '尿布', '可乐']]
# 挖掘频繁项集和频繁规则
itemsets, rules = apriori(data, min_support=0.5,  min_confidence=1)
print(itemsets)
print(rules)

结果显示:

{1: {('啤酒',): 3, ('尿布',): 5, ('牛奶',): 4, ('面包',): 4}, 2: {('啤酒', '尿布'): 3, ('尿布', '牛奶'): 4, ('尿布', '面包'): 4, ('牛奶', '面包'): 3}, 3: {('尿布', '牛奶', '面包'): 3}}
[{啤酒} -> {尿布}, {牛奶} -> {尿布}, {面包} -> {尿布}, {牛奶, 面包} -> {尿布}]

接下来我们对张艺谋电影选角的秘密,看看其频繁项目集和频繁规则,最后我们还要进行词云展示!

1、爬虫爬取豆瓣电影中关于张艺谋导演所有的电影和演员名称,并保存在csv文件中。

# -*- coding: utf-8 -*-
from efficient_apriori import apriori
from lxml import etree
import time
from bs4 import BeautifulSoup
from selenium import webdriver
import csv

#收集演员与电影资料
driver=webdriver.Chrome()
director='张艺谋'#u我是含有中文字符组成的字符串。

# #文件写入三步骤
file_name='C:/Users/17617/Desktop'+director+'.csv'#储存路径名
base_url='https://movie.douban.com/subject_search?search_text=%E5%BC%A0%E8%89%BA%E8%B0%8B&cat=1002&start='
out=open(file_name,'w',newline='',encoding='utf-8-sig')#打开,路径,写入,newline换行标志为空
csv_write=csv.writer(out,dialect='excel')#写入,dialect为编码风格

flags=[]#起到判断作用

def dowload(request_url):
    driver.get(request_url)
    time.sleep(3)
    html=driver.find_element_by_xpath('//*').get_attribute('outerHTML')#获取包含选中元素的HTML
    html=etree.HTML(html)#转化为Xpath格式
    names=html.xpath("//div[@class='item-root']/div[@class='detail']/div[@class='meta abstract_2']")#内容1
    movies=html.xpath("//div[@class='item-root']/div[@class='detail']/div[@class='title']/a[@class='title-text']")#内容2
# 电影的个数如果超过15个,第一个是导演需要删除
    num=len(movies)
    if num>15:
        names=names[1:]#从1开始到结束,0没有在内
        movies=movies[1:]
        #从封包中解出来
    for (movie1,name_list) in zip(movies,names):
        #出行空白的情况继续
        if name_list.text is None :
            continue
        # print(movie1.text)
        # print(name_list.text)
        #用斜杠进行分割
        name1 = name_list.text.split('/')
        #判断第一个名字是否为导演,是否有存储进FLAGS,如果正确
        if name1[0].strip() == director and  movie1.text is not flags :
            #将第一个字段设置为电影名
            name1[0]=movie1.text
            # print(movie1.text)
            print(name1)
            flags.append(movie1.text)#可有可无
            csv_write.writerow(name1)
    print('ok')
#如果数字小于14个就停止运行函数
    print(num)
    if num>=14:
        return True
    else:
        return False

start=0
while start<10000:
    request_url=base_url+str(start)
    flag=dowload(request_url)#如果函数运行就翻页,不运行就不翻
    if flag:
        start=start + 15
    else:
        break
out .close()
# print(flags)
print('finished')

数据结果:


爬取结果

第二步,进行Apriori计算。
导出获得的数据,整理成二元list数组。
这里最小支持度,最好置信度两个参数的大小,需要自行调整。

# 导入数据
lists=csv.reader(open(file_name,'r',encoding='utf-8-sig'))
print(lists)
data=[]
for names in lists:#利用for循环解封
    # print(names)
    new_name=[]
    for name in names:
        new_name.append(name.strip())
    data.append(new_name[1:])
    # data=data[:11]
    # data=data.strip[35]
    data1 = [x for x in data if x]#删去空值
# print(len(data1))

# print(data1)

itemsets,rules=apriori(data1,min_support=0.06,min_confidence=0.8)#自行调整最小支持度和最小置信度。
print(itemsets)
print(rules)

结果:

{1: {('倪大红',): 3, ('傅彪',): 2, ('刘佩琦',): 2, ('刘德华',): 2, ('姜文',): 2, ('孙红雷',): 3, ('巩俐',): 9, ('李保田',): 3, ('李曼',): 2, ('李雪健',): 5, ('杨凤良',): 2, ('牛犇',): 2, ('章子怡',): 3, ('葛优',): 3, ('赵本山',): 2, ('郭涛',): 2, ('闫妮',): 2, ('陈道明',): 2}, 2: {('倪大红', '巩俐'): 2, ('傅彪', '李雪健'): 2, ('刘佩琦', '巩俐'): 2, ('孙红雷', '赵本山'): 2, ('巩俐', '李保田'): 2, ('巩俐', '杨凤良'): 2, ('巩俐', '葛优'): 2, ('巩俐', '郭涛'): 2, ('李保田', '李雪健'): 2}}
[{傅彪} -> {李雪健}, {刘佩琦} -> {巩俐}, {赵本山} -> {孙红雷}, {杨凤良} -> {巩俐}, {郭涛} -> {巩俐}]

可以看到,巩俐是张艺谋最喜欢用的演员双方9次合作,其次是李雪健双方5次合作。章子怡、葛优、孙红雷、李保田等各合作3次。

在置信度上超过0.8的有[{傅彪} -> {李雪健}, {刘佩琦} -> {巩俐}, {赵本山} -> {孙红雷}, {杨凤良} -> {巩俐}, {郭涛} -> {巩俐}]。

接下来就是词云展示了。

WordCloud().generate(data),传入已经分好词的字符串就可以。

#-*- coding:utf-8 -*-
from wordcloud import WordCloud
import matplotlib.pyplot as plt
import jieba
from PIL import Image
import numpy as np
import csv
# 生成词云
def create_word_cloud(name4):
     print('根据词频计算词云')
     # text = " ".join(jieba.cut(name4,cut_all=False, HMM=True))#文字分割,暂时不用
     # print(text)
     wc = WordCloud(
           font_path="./simhei.ttf",
           max_words=100,
           width=2000,
           height=1200,
    )
     wordcloud = wc.generate(name4)
     # 写词云图片
     wordcloud.to_file("wordcloud2.jpg")
     # 显示词云文件
     plt.imshow(wordcloud)
     plt.axis("off")
     plt.show()

director='张艺谋'
file_name='C:/Users/17617/Desktop'+director+'.csv'#储存路径名
f=csv.reader(open(file_name,'r',encoding='utf-8-sig'))#打开文件
name2=[]
for names in f:
    names.remove(names[0])#除去第一格,电影
    name1=''.join(names)#将所有的的list转为字符串
    name2.append(name1)#将字符串转为list
    # print(name1)
name3=''.join(name2)#将list转为字符串,由于字符串间已经有空格,不需要分词。

create_word_cloud(name3)

结果展示:


wordcloud2.jpg

是不是一目了然。巩俐,李雪健,倪大红,葛优……这几个人?

接下来,我来看看周星驰,星爷怎么选角的~~

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,546评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,224评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,911评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,737评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,753评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,598评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,338评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,249评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,696评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,888评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,013评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,731评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,348评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,929评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,048评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,203评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,960评论 2 355

推荐阅读更多精彩内容