# 肥胖等级分类预测

**Repository Path**: yrss-gitee/prediction-of-obesity-level

## Basic Information

- **Project Name**: 肥胖等级分类预测
- **Description**: 使用多种算法对肥胖等级进行分类预测（含数据预处理与模型评估）
- **Primary Language**: Python
- **License**: MIT
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-06-16
- **Last Updated**: 2025-06-16

## Categories & Tags

**Categories**: Uncategorized

**Tags**: Python, Jupyter-notebook, Algorithm

## README

# 肥胖等级预测：基于机器学习的分类研究

## 项目简介

本项目旨在基于个人的生活方式和生理特征，使用多种机器学习模型对个体的肥胖等级进行预测。数据集来源于墨西哥、秘鲁和哥伦比亚共 2111 位个体，包含饮食习惯、身体活动频率以及基本人口统计特征等 17 个变量。

我们在该数据集上应用并比较了六种主流分类算法，结合全面的数据预处理流程，评估其在肥胖等级分类任务中的表现，旨在为健康预测与慢病干预等实际应用提供建模参考。

## 数据来源

本项目使用的原始数据集来自 UC Irvine Machine Learning Repository：

- 数据集链接：  
   https://archive.ics.uci.edu/dataset/544/estimation+of+obesity+levels+based+on+eating+habits+and+physical+condition
   
- 数据集描述论文：  
   Palechor, F.M., & Manotas, A.D. (2019). Dataset for estimation of obesity levels based on eating habits and physical condition in individuals from Colombia, Peru and Mexico. *Data in Brief, 25*. DOI: https://doi.org/10.1016/j.dib.2019.104344

## 数据分析

### 数据预处理

为了提高模型的泛化能力和预测性能，本项目实现了如下预处理步骤：

- 缺失值与异常值处理
- 连续变量分箱（Feature Binning）
- 特征相关性分析与选择
- 类别变量编码（如独热编码）
- 数据标准化与归一化（视模型而定）

### 使用模型

本项目实现并比较了以下六种分类模型：

- 逻辑回归（Logistic Regression）
- 随机森林（Random Forest）
- 支持向量机（Support Vector Machine, SVM）
- K近邻算法（K-Nearest Neighbors, KNN）
- 朴素贝叶斯（Naive Bayes）
- XGBoost

### 评估指标

模型性能通过以下多个指标进行评估：

- 准确率（Accuracy）
- 精确率（Precision）
- 召回率（Recall）
- F1 分数
- 混淆矩阵（Confusion Matrix）

### 实验结果

在所有模型中，XGBoost 在准确率、精确率和召回率等指标上表现最优，显示出其对肥胖等级分类任务的良好适应性和泛化能力。结果表明，模型选择和数据预处理对健康类分类问题的性能有重要影响。

## 项目配置

### 使用环境

- Python 3.8
- 所需依赖见 `requirements.txt` 文件

### 项目结构

```
├── Obesity level prediction.ipynb              # 主分析脚本
├── ObesityDataSet_raw_and_data_sinthetic.csv   # 原始数据
├── obesity_data_binning.csv                    # 分箱处理后数据
├── obesity_data_cleaned.csv                    # 清洗后数据
├── requirements.txt                            # 项目依赖
├── README.md                                   # 项目说明文件
```

### 使用方法

1. 克隆项目：

```
git clone https://gitee.com/yrss-gitee/prediction-of-obesity-level.git
```

2. 安装依赖：

```
pip install -r requirements.txt
```

3. 运行 Jupyter Notebook 文件查看数据分析与建模过程。