注意：该项目只展示部分功能

1 开发环境

发语言：python
采用技术：Spark、Hadoop、Django、Vue、Echarts等技术框架
数据库：MySQL
开发环境：PyCharm

2 系统设计

随着健康中国战略的推进和居民健康意识的提升，健康保险行业积累了海量的客户与理赔数据。然而，这些数据往往以原始、分散的形式存在，蕴含的商业价值难以被直观洞察。本项目正是在此背景下，旨在利用大数据技术栈，对健康保险数据进行深度清洗、整合与多维度分析，并通过现代化的Web可视化技术，将复杂的分析结果以直观、易懂的图表形式呈现。其核心意义在于，为保险公司提供一个强大的数据驱动决策支持平台，帮助其精准描绘客户画像、识别影响医疗费用的核心风险因素、评估保费定价的合理性，并实现客户的精细化分群与管理，从而在产品设计、精准营销、风险控制和提升盈利能力等方面获得科学依据，最终推动保险业务的智能化转型。

采用Hadoop HDFS作为海量原始保险数据的底层存储方案，保证数据的可靠性与可扩展性。核心分析引擎采用Apache Spark，利用其基于内存的分布式计算框架，通过Python语言和PySpark库，高效执行数据清洗、转换、聚合及机器学习K-Means聚类等复杂计算任务。

系统功能模块根据业务逻辑划分为四大分析维度，旨在层层递进地揭示健康保险数据背后的规律。
1..投保人基本画像分析模块：此模块是数据分析的基础，旨在全面描绘客户群体的基本特征。它包括对投保人年龄、性别、地理区域、家庭结构（子女人数）、BMI健康状况以及折扣资格的分布情况进行统计与可视化，为市场定位和产品初步设计提供依据。
2.医疗费用与核心因素关联分析模块：该模块专注于探究影响理赔费用的关键驱动因素。通过交叉分析年龄、BMI、性别、地区等特征与平均医疗费用之间的关系，量化不同风险因子对医疗成本的影响，为风险评估和精准定价提供核心数据支持。
3.保费定价策略分析模块：此模块旨在评估当前保费策略的合理性。它通过分析保费与实际医疗费用、年龄、BMI、地区等因素的相关性，验证保费是否能有效覆盖风险成本，并揭示不同特征客群的保费差异，为优化定价模型提供参考。
4.多维组合与客户分群模块：作为系统的高级分析功能，该模块运用多变量分析和机器学习算法挖掘深层价值。主要包括利用K-Means算法进行客户群体聚类，实现客户细分；对高费用群体的共同特征进行分析，识别核心风险人群；以及构建各地区风险画像和分析不同客群的保费盈亏能力，为精准营销和动态风险管理提供决策支持。

3 系统展示

3.1 大屏页面

wechat_2025-10-19_134250_599.png

wechat_2025-10-19_134308_014.png

wechat_2025-10-19_134325_493.png

3.3 分析页面

wechat_2025-10-19_134339_039.png

wechat_2025-10-19_134346_124.png

wechat_2025-10-19_134407_725.png

wechat_2025-10-19_134418_644.png

3.4 基础页面

wechat_2025-10-19_134436_496.png

wechat_2025-10-19_134447_968.png

5 部分功能代码

好的，遵照您的要求，以下是“不同BMI区间的平均医疗费用分析”这一核心功能模块的核心代码。该模块是“医疗费用与核心因素关联分析”维度中的关键部分，因为它涉及到数据分箱、聚合计算，是揭示健康风险与医疗成本关系的核心。

```python
from pyspark.sql import DataFrame
from pyspark.sql.functions import col, when, avg, round

def bmi_expenses_analysis(df: DataFrame) -> DataFrame:
    """
    核心模块：不同BMI区间的平均医疗费用分析
    该函数处理包含投保人信息的DataFrame，完成以下核心操作：
    1. 根据BMI（身体质量指数）的数值，将投保人划分为不同的健康状况区间（如：偏瘦、正常、超重、肥胖）。
    2. 按划分好的BMI区间进行分组。
    3. 计算每个区间的平均医疗费用(expenses)。
    4. 对结果进行格式化，确保数值精确到两位小数，并按逻辑顺序排序。
  
    :param df: 包含'bmi'和'expenses'列的原始Spark DataFrame
    :return: 分析后的结果DataFrame，包含'bmi_category', 'average_expenses'列
    """
    # 1. 使用when().otherwise()链式判断，根据BMI数值创建新的分类列'bmi_category'
    # 这是数据分箱的关键步骤，将连续性变量转换为分类变量以便于统计分析
    df_with_category = df.withColumn("bmi_category",
        when(col("bmi") < 18.5, "偏瘦")
        .when((col("bmi") >= 18.5) & (col("bmi") < 25), "正常")
        .when((col("bmi") >= 25) & (col("bmi") < 30), "超重")
        .when(col("bmi") >= 30, "肥胖")
        .otherwise("未知")  # 处理可能存在的空值或异常值
    )

    # 2. 按新创建的'bmi_category'列进行分组，并计算每个组的'expenses'平均值
    # 使用agg()函数执行聚合操作，avg()计算平均值
    result_df = df_with_category.groupBy("bmi_category") \
                                .agg(
                                    # 使用round函数将平均费用精确到两位小数，并为其设置别名'average_expenses'
                                    round(avg("expenses"), 2).alias("average_expenses")
                                )
  
    # 3. (可选但推荐) 为了可视化效果更佳，可以按健康状况的逻辑顺序对结果进行排序
    # 创建一个临时排序列，然后排序，最后删除该列
    order_col = when(col("bmi_category") == "偏瘦", 1) \
                .when(col("bmi_category") == "正常", 2) \
                .when(col("bmi_category") == "超重", 3) \
                .when(col("bmi_category") == "肥胖", 4) \
                .otherwise(5)
              
    result_df = result_df.withColumn("sort_order", order_col) \
                         .orderBy("sort_order") \
                         .drop("sort_order")

    return result_df


> **源码项目、定制开发、文档报告、PPT、代码答疑**
>  希望和大家多多交流

大数据毕设实战项目分享-基于Python与Spark的健康保险数据分析与可视化-基于机器学习的健康保险客户风险评估与可视化分析系统