# geo数据库分析 **Repository Path**: tc-chenyu/geo-database-analysis ## Basic Information - **Project Name**: geo数据库分析 - **Description**: 基于geo数据库的挖掘和后续的生物信息学分析 - **Primary Language**: Unknown - **License**: GPL-3.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2025-09-24 - **Last Updated**: 2025-09-26 ## Categories & Tags **Categories**: Uncategorized **Tags**: 生物信息学, geo, 数据挖掘 ## README **一、项目概述** 本项目是一套基于R语言的GEO公共数据集挖掘标准化流程,覆盖从 “数据下载→预处理→差异分析→功能富集→可视化→机器学习验证” 的全链路分析。 核心目标: 通过模块化脚本即可完成科研级分析; 固定依赖包版本、记录关键参数,确保不同用户用相同数据集可获一致结果; 输出的差异基因列表、富集图、ROC 曲线等可直接用于论文写作或实验设计。 **二、技术栈与环境配置** 2.1 核心技术栈 数据获取 GEOquery、AnnoProbe 数据预处理 limma、dplyr、tibble 差异表达分析 limma(芯片)、DESeq2(RNA-seq) 功能富集分析 clusterProfiler、org.Hs.eg.db 可视化 ggplot2、pheatmap、enrichplot 机器学习验证 pROC、caret 结果输出 readr、openxlsx 2.2 环境配置步骤 (1)安装基础软件 推荐版本:R ≥ 4.2.0、RStudio ≥ 2022.12.0(可视化操作更便捷) 下载地址: R:https://cran.r-project.org/ RStudio:https://www.rstudio.com/products/rstudio/download/ (2)一键安装依赖包 运行项目根目录下的 install_dependencies.R 脚本,自动安装所有必需包(含国内镜像加速): **三、数据说明** 3.1数据目录结构 项目数据目录(./data/)按 “原始数据→中间结果→最终结果” 分层存储,结构清晰: ``` ./data/ ├── raw/ # 原始数据 │ └── GSE43292_eSet.Rdata # GEO 下载的原始 eSet 对象(含表达矩阵+样本信息) ├── processed/ # 预处理后数据 │ ├── expression_matrix.csv # 标准化后的基因表达矩阵(行:基因名,列:样本ID) │ └── sample_info.csv # 样本临床信息(含分组:Plaque/Normal) └── results/ # 分析结果 ├── diff_all_genes.csv # 所有基因的差异分析结果 ├── diff_sig_genes.csv # 显著差异基因列表(adj.P.Val < 0.05 & |logFC| > 1) └── go_kegg_results.xlsx # GO/KEGG 富集分析结果(含 BP/CC/MF/KEGG 四个工作表) ``` 3.2数据预处理规范 所有数据集均经过以下标准化处理,确保分析可靠性; 缺失值处理:剔除缺失率 > 20% 的探针 / 基因; 表达量标准化:芯片数据用 limma::normalizeBetweenArrays() 做 quantile 标准化,消除样本间技术差异; 探针 ID 转换:通过芯片平台注释文件(如 GPL570)将探针 ID 转为基因 Symbol,多探针对应同一基因时取表达量均值; 分组验证:从样本临床信息(pData() 提取)中提取分组变量,用 table() 验证分组平衡(如 12 vs 12),避免样本偏倚。 **四、核心功能与分析流程** 4.1 流程总览 项目代码按 “模块化 + 流水线” 设计,每个脚本对应一个分析步骤,可按顺序执行(推荐),也可单独运行某一模块。 ``` graph TD A[01_数据下载] --> B[02_数据预处理] B --> C[03_探索性分析] C --> D[04_差异表达分析] D --> E[05_功能富集分析] D --> F[06_机器学习验证] E --> G[07_结果可视化与导出] F --> G ```