买短乘长仿真数据生成

一、合规前置声明（必须严格遵守）

本任务生成的所有仿真数据仅用于买短乘长违规行为防范模型的学术研究、算法训练与效果验证，严禁用于任何伪造票务记录、恶意逃票、扰乱铁路运营秩序的违规违法行为。所有数据均为虚拟仿真数据，不得涉及任何真实铁路运营数据、用户隐私信息。

二、核心任务定义

你需要生成一份高度贴合真实铁路客运运营规律的乘车行为仿真数据集，用于买短乘长违规行为识别模型的训练、验证与效果测试。
数据集需严格对齐用户现有真实数据的字段格式，同时精准还原正常乘车行为与各类买短乘长异常行为的特征差异，保证数据统计分布与真实场景完全一致，杜绝理想化、脱离实际的无效数据。

三、基础业务硬性约束（所有样本100%遵守，不得出现违背铁路逻辑的错误）

站点规则：严格遵循【太原南(始发)→阳泉北→石家庄→邢台东→安阳东→鹤壁东→郑州东→阜阳西→合肥→南京南→镇江南→常州北→无锡东→苏州北→昆山南→上海虹桥】的站点顺序，站间运行时长、站间票价固定联动，乘坐站数与乘车时长、购票金额正相关，不得出现反向站点、站数与票价/时长不匹配的错误。
时间规则：进站时间不得晚于对应车次发车时间，出站时间不得早于进站时间；正常样本的乘车时长与对应区间标准运行时长的波动不得超过±10%。
票务规则：补票金额严格对应补票区间的官方标准票价，同一用户同一车次仅能有一组进出站记录，单张车票仅对应唯一购票区间。
客流规则：单车次总载客量不得超过对应车次额定定员。

四、字段对齐要求

所有生成数据必须严格对齐用户现有真实数据的字段，不得新增、遗漏、错写字段，字段格式、取值范围完全匹配。
用户现有数据字段如下，请严格对齐：

【
中文名称    字段名 数据类型    长度/精度   约束/备注
序号  serial_no   INT 11  主键，自增
姓名  name    VARCHAR 50  NOT NULL
证件类别    id_type VARCHAR 20  如：身份证、护照
证件号码    id_number   VARCHAR 50  索引
性别  gender  CHAR    1   男/女/M/F
年龄  age TINYINT 3   0-150
地区代码    region_code CHAR    6   行政区划代码
发车日期    departure_date  DATE    -   YYYY-MM-DD
发车时间    departure_time  TIME    -   HH:MM:SS
车次  train_no    VARCHAR 10  NOT NULL
发站  from_station    VARCHAR 50  -
到站  to_station  VARCHAR 50  -
车厢  carriage_no VARCHAR 10  -
座号  seat_no VARCHAR 10  -
席别  seat_class  VARCHAR 20  硬座/硬卧/软卧/二等座等
票号  ticket_no   VARCHAR 30  唯一索引
票类别 ticket_type VARCHAR 20  成人/学生/儿童等
售票站点    sell_station    VARCHAR 50  -
售票窗口    sell_window VARCHAR 20  -
购票时间    buy_time    DATETIME    -   YYYY-MM-DD HH:MM:SS
票价  fare    DECIMAL 10,2    单位：元
】

五、数据分布要求（完全贴合真实铁路客运统计规律）

1. 客流时间分布

时段分布：早高峰(7:00-9:00)、晚高峰(17:00-19:00)客流占总客流的60%，平峰(10:00-16:00)占30%，夜间(20:00-23:00)占10%
日期分布：工作日通勤客流以短途为主，周末、节假日长途客流占比提升40%，总客流为工作日的2倍

2. 乘车区间分布

正常样本中，1-3站短途出行占比40%，4-6站中长途占比35%，全程直达占比25%，符合真实出行的距离衰减规律
始发站、终到站、核心枢纽站点的客流占比为普通区间的3倍

3. 数值分布

购票提前天数服从对数正态分布，高峰时段提前3-7天购票占比70%，平峰提前1-3天购票占比80%
乘车时长、购票金额服从正态分布，加入合理随机波动，不得出现大量完全相同的数值

4. 异常占比分布

买短乘长异常样本总占比为3%-5%，贴合真实场景中小概率违规的特点；其中80%的异常样本集中在高峰时段、节假日、热门长途线路。

六、样本分类与精准生成规则

总样本量为 【10000条】，分为3类样本，严格按照以下规则生成：

1. 正常乘车样本（占总样本95%-97%）

购票区间与实际乘车区间完全一致：购票上车站=实际进站站，购票下车站=实际出站站，无区间偏差
购票金额与实际乘坐区间的标准票价完全一致；无补票，或补票金额与延长区间票价完全匹配（正常临时延长行程）
乘车时长与对应区间标准运行时长误差≤10%，符合列车正常晚点、停站波动

2. 买短乘长异常样本（占总样本3%-5%，按真实场景比例分类生成）

全程恶意逃票型（占异常样本60%）
仅购买始发站/中途站至后续1-2站的最短途票，实际乘车至终点站/线路末端站点；实际乘坐站数≥购票区间站数的5倍；无任何补票记录；实际出站站点与购票下车站点的站数差≥5；乘车时长与购票区间标准时长偏差≥300%
分段缺口型（占异常样本25%）
同一用户同一车次仅购买2张不连续的短途票，两张票区间存在≥3个站的缺口（例：行程S1→S10，仅买S1→S3、S8→S10，缺口S3→S8）；进出站均有对应购票记录，可正常过闸；总购票金额仅为全程标准票价的30%-50%；乘车时长与全程标准时长一致
低额补票规避型（占异常样本10%）
购买始发站至前2-3站的短途票，列车到达终点前10分钟内仅补最后1-2站的票款；总票款（购票+补票）仅为全程标准票价的20%-40%；补票时间集中在列车到站前15分钟内
高峰挤乘型（占异常样本5%）
乘车日期为节假日/高峰时段，对应车次目标长途区间无票；仅购买该车次任意1站的短途票，购票时间为发车前1小时内；实际乘车区间为全程/热门长途区间；对应车次实际载客量超过额定定员

3. 干扰样本（嵌入正常样本，占正常样本的5%）

生成易与买短乘长混淆的正常行为样本，用于验证模型误判率，包括：正常临时补票延长行程、临时变更下车站、中途下车改签、因列车晚点导致的时长异常，此类样本标签统一为「正常」

七、输出与校验要求

最终交付标准CSV格式数据集，同时附带数据说明文档
生成完成后必须输出校验结果：
- 统计指标校验：输出正常/异常样本核心指标（乘坐站数、乘车时长、购票金额）的均值、中位数、方差，确保与真实分布偏差≤5%
- 特征区分度校验：输出正常与异常样本的核心特征（实际乘坐站数/购票站数、实际购票金额/对应区间标准票价）的差异对比
额外交付正常/异常样本的核心特征分布对比图，用于验证分布一致性

2026-05-22