注意：该项目只展示部分功能

1 开发环境

发语言：python
采用技术：Spark、Hadoop、Django、Vue、Echarts等技术框架
数据库：MySQL
开发环境：PyCharm

2 系统设计

随着高等教育的普及和"大众创业、万众创新"政策的推进，大学生创业已成为推动社会经济发展的重要力量。然而，传统的学生创业指导往往依赖经验判断，缺乏科学的数据支撑，难以精准识别具有创业潜力的学生群体，也无法为不同特征的学生提供个性化的职业发展建议。在大数据时代背景下，通过整合学生的学习行为、技能评估、实践参与等多维度数据，运用先进的数据分析技术，能够更加客观、全面地评估学生的创业潜力和职业发展方向，为高校创业教育提供数据驱动的决策支持。

本系统基于Python、Spark、Hadoop等大数据技术栈，结合Vue前端框架和Echarts可视化组件，构建了一套基于数据挖掘+spark的大学生创新创业数据分析与可视化系统。研究内容主要围绕四个维度展开深入分析：
1.通过学生群体综合画像分析，系统能够统计分析学生创业潜力的整体分布情况，揭示"高"、"中"、"低"三个等级的占比构成，同时分析职业路径推荐的分布特征，识别主流发展方向。基于技术技能、管理技能、沟通技能三项核心能力，生成学生群体能力雷达图，直观展示整体能力模型特征。此外，通过分析学生的日均学习时间、创业活动投入和创新项目参与情况，评估其在理论学习与创业实践之间的精力分配状况。

2.系统重点开展学生创业潜力深度挖掘分析，这是研究的核心内容。通过对比不同创业潜力等级学生的技能画像，识别高潜力学生在特定技能领域的突出表现。同时分析不同潜力学生在学习时长、时间管理和平台参与度等行为模式上的差异，以及在项目协作、创新活动和创业活动参与度上的投入对比。通过职业目标契合度分析，验证清晰职业规划对创业潜力的影响程度。

3.针对不同职业发展路径的学生特征进行对比分析，系统按职业推荐分组分析各类职业对核心技能的差异化要求，为学生能力培养提供参考。特别关注"初创公司创始人"和"驻场企业家"等创业相关路径学生的创业属性表现，分析其创业潜力和创新活动参与的关联性。通过学习行为对比，探索不同职业方向与学习习惯的关联模式，并对创业相关职业路径进行专门的深度画像分析。

4.运用统计学方法和机器学习算法进行关键影响因素的关联性与聚类分析，生成核心数值特征的皮尔逊相关系数矩阵和可视化热力图，揭示各指标间的关联强度。采用K-Means聚类算法，基于学生的技能与行为数据自动划分学生群体，发现"技术钻研型"、"管理实践型"、"均衡发展型"等潜在分类。对聚类结果进行详细画像分析，并验证不同学生类型在创业潜力和职业路径选择上的预测有效性，为精准化创业教育提供科学依据。

3 系统展示

3.1 大屏页面

大屏上.png

3.2 分析页面

查看画像.png

查看聚类.png

查看潜力.png

查看特征.png

3.3 基础页面

数据.png

5 部分功能代码

    
    def module4_correlation_clustering_analysis(self, n_clusters=4):
        """
        模块4：关键影响因素关联性与聚类分析
        生成相关性热力图、K-Means聚类、聚类画像分析和创业潜力预测
        """
        results = {}
        
        # 4.1 核心数值特征相关性热力图分析 - 计算各指标间的皮尔逊相关系数
        correlation_features = [
            'technical_skill_score', 'managerial_skill_score', 'communication_skill_score',
            'avg_daily_study_time', 'time_management_score', 'learning_platform_engagement',
            'project_collaboration_score', 'innovation_activity_count', 'entrepreneurial_event_hours',
            'career_goal_alignment_score'
        ]
        
        # 筛选数据中实际存在的特征
        available_features = [col for col in correlation_features if col in self.df.columns]
        correlation_matrix = self.df[available_features].corr()
        
        # 转换相关性矩阵为适合前端展示的格式
        correlation_heatmap_data = []
        for i, row_feature in enumerate(correlation_matrix.index):
            for j, col_feature in enumerate(correlation_matrix.columns):
                correlation_heatmap_data.append({
                    'x': i, 'y': j,
                    'correlation_value': round(correlation_matrix.iloc[i, j], 3),
                    'feature_x': row_feature,
                    'feature_y': col_feature
                })
        
        results['correlation_heatmap'] = correlation_heatmap_data
        results['correlation_features'] = available_features
        
        # 4.2 基于技能与行为的K-Means聚类分析 - 根据核心能力和行为数据自动分类学生群体
        clustering_features = [
            'technical_skill_score', 'managerial_skill_score', 'communication_skill_score',
            'time_management_score', 'innovation_activity_count'
        ]
        
        available_clustering_features = [col for col in clustering_features if col in self.df.columns]
        clustering_data = self.df[available_clustering_features].copy()
        
        # 数据标准化处理
        scaler = StandardScaler()
        scaled_clustering_data = scaler.fit_transform(clustering_data)
        
        # 执行K-Means聚类算法
        kmeans_model = KMeans(n_clusters=n_clusters, random_state=42, n_init=10)
        cluster_labels = kmeans_model.fit_predict(scaled_clustering_data)
        
        # 将聚类结果添加到原始数据中
        self.df['cluster_label'] = cluster_labels
        
        # 4.3 不同学生聚类的画像分析 - 分析每个聚类群体的详细特征
        cluster_profiles = {}
        for cluster_id in range(n_clusters):
            cluster_students = self.df[self.df['cluster_label'] == cluster_id]
            
            # 计算该聚类的基本信息和各项指标平均值
            cluster_profile = {
                'cluster_size': len(cluster_students),
                'size_percentage': round(len(cluster_students) / len(self.df) * 100, 2),
                'technical_skill_avg': round(cluster_students['technical_skill_score'].mean(), 2),
                'managerial_skill_avg': round(cluster_students['managerial_skill_score'].mean(), 2),
                'communication_skill_avg': round(cluster_students['communication_skill_score'].mean(), 2),
                'study_time_avg': round(cluster_students['avg_daily_study_time'].mean(), 2),
                'time_management_avg': round(cluster_students['time_management_score'].mean(), 2),
                'innovation_activities_avg': round(cluster_students['innovation_activity_count'].mean(), 2),
                'platform_engagement_avg': round(cluster_students['learning_platform_engagement'].mean(), 2),
                'goal_alignment_avg': round(cluster_students['career_goal_alignment_score'].mean(), 2)
            }
            
            # 生成聚类标签 - 根据技能强弱判断聚类类型
            tech_score = cluster_profile['technical_skill_avg']
            mgmt_score = cluster_profile['managerial_skill_avg']
            comm_score = cluster_profile['communication_skill_avg']
            
            if tech_score > mgmt_score and tech_score > comm_score:
                cluster_profile['cluster_type'] = "技术专精型"
            elif mgmt_score > tech_score and mgmt_score > comm_score:
                cluster_profile['cluster_type'] = "管理导向型"  
            elif comm_score > tech_score and comm_score > mgmt_score:
                cluster_profile['cluster_type'] = "沟通协调型"
            else:
                cluster_profile['cluster_type'] = "综合均衡型"
            
            cluster_profiles[f'cluster_{cluster_id}'] = cluster_profile
        
        results['cluster_profiles'] = cluster_profiles
        
        # 4.4 不同聚类的创业潜力与职业路径分析 - 验证聚类结果对创业潜力和职业选择的预测效果
        cluster_prediction_analysis = {}
        for cluster_id in range(n_clusters):
            cluster_students = self.df[self.df['cluster_label'] == cluster_id]
            
            # 分析该聚类的创业潜力分布
            aptitude_distribution = cluster_students['entrepreneurial_aptitude'].value_counts(normalize=True) * 100
            
            # 分析该聚类的职业路径推荐分布
            career_distribution = cluster_students['career_path_recommendation'].value_counts(normalize=True) * 100
            
            cluster_prediction_analysis[f'cluster_{cluster_id}'] = {
                'entrepreneurial_aptitude_distribution': {k: round(v, 2) for k, v in aptitude_distribution.items()},
                'career_path_distribution': {k: round(v, 2) for k, v in career_distribution.items()},
                'high_potential_ratio': round(
                    len(cluster_students[cluster_students['entrepreneurial_aptitude'] == '高']) / len(cluster_students) * 100, 2
                ) if len(cluster_students) > 0 else 0
            }
        
        results['cluster_prediction_analysis'] = cluster_prediction_analysis
        
        return results
    
    def generate_comprehensive_analysis_report(self):
        """
        生成完整的四模块综合分析报告
        整合所有分析结果，提供完整的学生创业数据分析洞察
        """
        # 执行四个核心分析模块
        module1_results = self.module1_overall_portrait_analysis()
        module2_results = self.module2_entrepreneurial_potential_analysis()  
        module3_results = self.module3_career_path_analysis()
        module4_results = self.module4_correlation_clustering_analysis()
        
        # 整合生成综合报告
        comprehensive_report = {
            'analysis_summary': {
                'total_students_analyzed': len(self.df),
                'analysis_modules_completed': 4,
                'analysis_timestamp': pd.Timestamp.now().strftime('%Y-%m-%d %H:%M:%S')
            },
            'module1_overall_portrait': module1_results,
            'module2_entrepreneurial_potential': module2_results,
            'module3_career_path_characteristics': module3_results,
            'module4_correlation_clustering': module4_results
        }

源码项目、定制开发、文档报告、PPT、代码答疑
希望和大家多多交流

大数据实战项目-基于数据挖掘+spark的大学生创新创业数据分析与可视化系统源码