注意：该项目只展示部分功能

1 开发环境

发语言：python
采用技术：Spark、Hadoop、Django、Vue、Echarts等技术框架
数据库：MySQL
开发环境：PyCharm

2 系统设计

在现代医疗体系中，随着生命体征监测设备的普及，每日都会产生海量的患者生理数据。这些高维度、动态的数据蕴含着预测疾病进展和评估健康风险的巨大潜力，但传统的人工判读方式难以高效、系统地利用这些信息。本项目正是在此背景下，旨在利用大数据技术栈，对患者生命体征数据进行深度整合与智能分析，并通过现代化的Web可视化技术，将复杂的风险模式与生理指标关联直观呈现。其核心意义在于，构建一个数据驱动的健康风险评估与预警平台，帮助医护人员从海量数据中快速识别高风险患者的关键生理特征、发现潜在的风险组合模式，并基于客观数据对患者进行科学分群，从而实现早期干预、优化医疗资源分配、提升重症监护效率，最终推动临床决策从经验驱动向数据驱动的智能化转型。

系统功能模块根据临床分析逻辑进行设计，旨在从不同维度层层递进地揭示健康风险的规律。
1.生命体征与风险关联分析模块：此模块是风险评估的基础，专注于揭示核心生理指标与健康风险等级的直接关系。它包括分析不同风险等级下的平均生命体征差异，以及探究心率与血压、体温与呼吸频率等关键指标组合对风险等级的联合影响，为风险识别提供量化依据。
2.多维风险患者画像模块：该模块旨在从多个角度描绘不同风险等级患者群体的具体特征。通过分析各风险等级的患者数量占比、意识状态分布、吸氧情况对比，以及高低风险群体的生命体征极端值差异，构建清晰的风险人群画像，辅助临床快速识别高危个体。
3.氧疗专题分析模块：此模块聚焦于“吸氧”这一重要临床干预措施，深入分析其背后的患者状态。通过对比吸氧与不吸氧患者的生命体征、风险构成及血氧饱和度分布，评估氧疗需求与患者危重程度的关联，为优化呼吸支持方案提供数据参考。
4.患者智能分群与模式探索模块：作为系统的高级功能，该模块利用K-Means聚类算法对患者进行智能分群，并深入分析各聚类群体的实际风险构成、临床特征，旨在发现医生预设标签之外的潜在风险亚群，为个性化诊疗和精准风险管理提供新的视角。

3 系统展示

3.1 大屏页面

wechat_2025-10-19_134709_637.png

3.3 分析页面

wechat_2025-10-19_134757_360.png

wechat_2025-10-19_134809_566.png

wechat_2025-10-19_134817_006.png

wechat_2025-10-19_134828_333.png

wechat_2025-10-19_134838_123.png

3.4 基础页面

wechat_2025-10-19_134740_908.png

wechat_2025-10-19_134748_737.png

5 部分功能代码

def patient_clustering_analysis(df: DataFrame, k: int = 4) -> DataFrame:
    """
    核心模块：基于核心生命体征的患者聚类分析
    该函数应用K-Means算法对患者进行无监督聚类，完成以下核心操作：
    1. 选取核心生命体征指标作为聚类的特征。
    2. 使用VectorAssembler将多个特征列合并为单个特征向量列。
    3. 使用StandardScaler对特征向量进行标准化，消除量纲影响，提升聚类效果。
    4. 训练K-Means模型，并对数据进行预测，为每个患者分配一个簇ID。
    5. 为每个簇ID添加一个可解释的中文描述字段，说明该群体的典型特征。
    
    :param df: 包含生命体征数据的Spark DataFrame
    :param k: K-Means算法的簇数量（默认为4）
    :return: 带有聚类结果（'cluster_id'）和描述（'cluster_description'）的DataFrame
    """
    # 1. 选取用于聚类的特征列
    feature_columns = ['Respiratory_Rate', 'Oxygen_Saturation', 'Systolic_BP', 'Heart_Rate', 'Temperature']
    
    # 2. 将特征列合并为特征向量
    # VectorAssembler是Spark ML中的一个转换器，它将多个列合并成一个向量列
    assembler = VectorAssembler(inputCols=feature_columns, outputCol="features_raw")
    df_assembled = assembler.transform(df)
    
    # 3. 特征标准化
    # StandardScaler可以对每个特征进行缩放，使其具有单位标准差和/或零均值
    # 这对于K-Means这类基于距离的算法至关重要
    scaler = StandardScaler(inputCol="features_raw", outputCol="features_scaled", withStd=True, withMean=False)
    scaler_model = scaler.fit(df_assembled)
    df_scaled = scaler_model.transform(df_assembled)
    
    # 4. 训练K-Means模型并进行预测
    # 创建KMeans实例，设置簇数(k)和特征列
    kmeans = KMeans(featuresCol='features_scaled', k=k, seed=1)
    model = kmeans.fit(df_scaled)
    
    # 使用训练好的模型为数据集添加预测的簇ID列，列名为'prediction'
    df_clustered = model.transform(df_scaled)
    
    # 为了方便后续使用，将'prediction'列重命名为'cluster_id'
    df_with_cluster_id = df_clustered.withColumnRenamed("prediction", "cluster_id")
    
    # 5. 为每个簇添加可解释的中文描述
    # 这里的描述是示例性的，实际应用中需要根据每个簇的中心点特征进行分析和命名
    # 例如，可以计算每个簇中各特征的平均值来定义其特征
    df_with_description = df_with_cluster_id.withColumn("cluster_description",
        when(col("cluster_id") == 0, "群体A: 低风险稳定群")
        .when(col("cluster_id") == 1, "群体B: 高心率-低血氧群")
        .when(col("cluster_id") == 2, "群体C: 高血压-高体温群")
        .when(col("cluster_id") == 3, "群体D: 呼吸异常群")
        .otherwise("未知群体")
    )
    
    # 返回包含原始数据、簇ID和簇描述的结果DataFrame
    # 选择需要的列进行返回，避免过多中间列
    result_df = df_with_description.select('Patient_ID', *feature_columns, 'Risk_Level', 'cluster_id', 'cluster_description')
    
    return result_df

源码项目、定制开发、文档报告、PPT、代码答疑
希望和大家多多交流

计算机大数据选题-基于Hadoop与Spark的健康风险预测数据可视化分析系统-基于python可视化的临床健康风险分析与预警系统