# 肥胖等级分类预测 **Repository Path**: yrss-gitee/prediction-of-obesity-level ## Basic Information - **Project Name**: 肥胖等级分类预测 - **Description**: 使用多种算法对肥胖等级进行分类预测(含数据预处理与模型评估) - **Primary Language**: Python - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-06-16 - **Last Updated**: 2025-06-16 ## Categories & Tags **Categories**: Uncategorized **Tags**: Python, Jupyter-notebook, Algorithm ## README # 肥胖等级预测:基于机器学习的分类研究 ## 项目简介 本项目旨在基于个人的生活方式和生理特征,使用多种机器学习模型对个体的肥胖等级进行预测。数据集来源于墨西哥、秘鲁和哥伦比亚共 2111 位个体,包含饮食习惯、身体活动频率以及基本人口统计特征等 17 个变量。 我们在该数据集上应用并比较了六种主流分类算法,结合全面的数据预处理流程,评估其在肥胖等级分类任务中的表现,旨在为健康预测与慢病干预等实际应用提供建模参考。 ## 数据来源 本项目使用的原始数据集来自 UC Irvine Machine Learning Repository: - 数据集链接: https://archive.ics.uci.edu/dataset/544/estimation+of+obesity+levels+based+on+eating+habits+and+physical+condition - 数据集描述论文: Palechor, F.M., & Manotas, A.D. (2019). Dataset for estimation of obesity levels based on eating habits and physical condition in individuals from Colombia, Peru and Mexico. *Data in Brief, 25*. DOI: https://doi.org/10.1016/j.dib.2019.104344 ## 数据分析 ### 数据预处理 为了提高模型的泛化能力和预测性能,本项目实现了如下预处理步骤: - 缺失值与异常值处理 - 连续变量分箱(Feature Binning) - 特征相关性分析与选择 - 类别变量编码(如独热编码) - 数据标准化与归一化(视模型而定) ### 使用模型 本项目实现并比较了以下六种分类模型: - 逻辑回归(Logistic Regression) - 随机森林(Random Forest) - 支持向量机(Support Vector Machine, SVM) - K近邻算法(K-Nearest Neighbors, KNN) - 朴素贝叶斯(Naive Bayes) - XGBoost ### 评估指标 模型性能通过以下多个指标进行评估: - 准确率(Accuracy) - 精确率(Precision) - 召回率(Recall) - F1 分数 - 混淆矩阵(Confusion Matrix) ### 实验结果 在所有模型中,XGBoost 在准确率、精确率和召回率等指标上表现最优,显示出其对肥胖等级分类任务的良好适应性和泛化能力。结果表明,模型选择和数据预处理对健康类分类问题的性能有重要影响。 ## 项目配置 ### 使用环境 - Python 3.8 - 所需依赖见 `requirements.txt` 文件 ### 项目结构 ``` ├── Obesity level prediction.ipynb # 主分析脚本 ├── ObesityDataSet_raw_and_data_sinthetic.csv # 原始数据 ├── obesity_data_binning.csv # 分箱处理后数据 ├── obesity_data_cleaned.csv # 清洗后数据 ├── requirements.txt # 项目依赖 ├── README.md # 项目说明文件 ``` ### 使用方法 1. 克隆项目: ``` git clone https://gitee.com/yrss-gitee/prediction-of-obesity-level.git ``` 2. 安装依赖: ``` pip install -r requirements.txt ``` 3. 运行 Jupyter Notebook 文件查看数据分析与建模过程。