# Report Collect **Repository Path**: zhang-juixia/report-collect ## Basic Information - **Project Name**: Report Collect - **Description**: 小组成员记得每次汇报就将自己的PPT以及相关的资料上传 - **Primary Language**: Python - **License**: MulanPSL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2023-07-29 - **Last Updated**: 2025-08-16 ## Categories & Tags **Categories**: Uncategorized **Tags**: 机器学习, 深度学习, 学习记录 ## README # Report Collect [TOC] ## 一、前言 小组成员记得每次汇报就将自己的PPT以及相关的资料上传 **使用参考代码** 1. ```bash git clone https://gitee.com/zhang-juixia/report-collect.git ``` `如果是第一次clone,需要输入gitee账号密码` 2. 提交自己的PPT等资料,依次输入 ```bash git add . git commit -m "输入提交文件的文字描述" git pull git push ``` 3.建一个单属于自己的文件夹,每次汇报时在自己的文件夹里面上传资料。 4.可以根据自己习惯,在此处或者自己名字文件夹下记录每次交流汇报的笔记,也可以对此处笔记进行补充或者修正。 ## 二、机器学习视角下的PCA (一)线性自编码器的概念和结构,以及它与PCA的关系和区别 。 (二)PCA的两种优化代价函数:重构误差最小和方差最大,以及它们之间的等价性和联系 。 (三)PCA的典型应用Eigface人脸识别 。 (四)问题和讨论 1. PCA如何选择主成分的个数?有什么标准或方法? - 通常,我们可以使用方差解释率作为选择主成分个数的标准。方差解释率表示每个主成分所占总方差的比例。我们可以计算累积方差解释率,并选择使累积方差解释率达到所需阈值的主成分个数。 - 示例:假设我们有一组数据,经过PCA后,前两个主成分的方差解释率分别为0.8和0.15,累积方差解释率为0.95。这意味着前两个主成分能够解释95%的总方差,因此我们可以选择保留这两个主成分。 2. 从编码的角度认识PCA,维数压缩后的数据怎样被重构? - 从编码的角度看,PCA可以看作是将原始数据投影到主成分上,实现数据的编码。维数压缩后的数据可以通过将投影值反向变换回原始特征空间来进行重构。 - 示例:假设我们有一个2D数据集,经过PCA降维到1D,那么原始数据点在2D特征空间中的位置可以通过将其投影到主成分上得到。当需要重构时,可以将投影值映射回2D特征空间,得到重构的数据点。 3. 信号和图像处理中与PCA关系最近的编码方法有哪些? - 在信号处理中,Karhunen-Loève变换(KLT)与PCA密切相关,用于信号的降维和特征提取。 - 在图像处理中,小波变换和离散余弦变换(DCT)也与PCA类似,用于图像压缩和特征提取。 - 示例:在图像压缩中,JPEG压缩算法使用DCT来分解图像块,然后应用PCA-like的过程对频域系数进行量化和编码。 4. 在有监督学习场景下怎样利用PCA? - 在有监督学习中,PCA可以用于特征选择和降维。通过保留数据中最具信息量的主成分,可以减少维度和去除冗余信息,有助于提高模型的泛化能力。 - 示例:假设我们有一个分类问题,特征维度很高。我们可以使用PCA来减少特征维度,然后将降维后的数据用于训练分类模型,从而提高模型的性能。 5. PCA如何处理数据中的噪声和异常值?它们会对PCA的结果产生什么影响? - PCA对噪声和异常值敏感,数据中的噪声会影响主成分的计算。异常值可能会导致主成分的偏移。 - 示例:假设我们有一个数据集,其中包含一些异常值。当应用PCA时,这些异常值可能会影响主成分的计算,导致主成分不再代表数据的主要结构。 6. 为什么在具体实现PCA时经常调用SVD而不是直接进行特征值-特征矢量分解? - SVD(奇异值分解)可以更稳定地计算主成分,避免了矩阵计算中的数值不稳定性问题。直接计算特征值-特征矢量分解可能导致数值问题。 - 示例:在PCA的实现中,可以使用SVD分解来计算主成分,确保计算的稳定性和准确性。 7. PCA和LDA有什么区别和联系? - PCA和LDA都是降维方法,但目标不同。PCA旨在最大化数据的方差,LDA旨在最大化类别之间的差异性。 - PCA是无监督的,只考虑数据本身的结构;LDA是有监督的,考虑类别信息。 - 示例:在人脸识别中,PCA可以用于降维,LDA可以用于将数据映射到具有最大类别差异的子空间。 8. 思考和讨论PCA和线性子空间的关系 - PCA通过寻找数据的主成分,实际上是在寻找数据的一个线性子空间。数据点在主成分上的投影就是数据在该线性子空间中的表示。 9. PCA是否保留了数据中的线性关系和非线性关系?为什么? - PCA保留了数据中的线性关系,因为它寻找数据的主要线性结构。然而,PCA无法捕捉数据的非线性关系,因为它只关注方差最大的方向。 10. PCA有哪些变体或扩展方法?它们是针对PCA的什么问题加以改进或优化的? - Kernel PCA用于处理非线性数据,通过应用核技巧将数据映射到高维空间进行PCA。 - Incremental PCA适用于大数据集,通过逐步处理数据块来降低内存占用。 11. PCA的优缺点是什么?讨论PCA在数据处理中的优势和限制。 - 优势:简单且易于理解,能够捕获数据的主要结构,有助于降维和去除冗余特征。 - 限制:对噪声和异常值敏感,无法处理非线性关系,可能丢失某些重要信息。 12. PCA如何处理数据的方差解释?解释PCA中方差解释的概念和其在特征选择中的重要性。 - PCA通过保留方差最大的主成分来捕获数据的主要结构。方差解释率表示每个主成分所占总方差的比例。在特征选择中,方差解释率可用于选择保留的主成分数量,从而保留数据中的主要信息。 13. 什么是PCA的核方法(Kernel PCA)?它如何扩展标准PCA以处理非线性数据? - Kernel PCA通过应用核技巧将数据映射到高维空间,然后在高维空间中进行PCA。这使得PCA能够捕获非线性数据的结构。 14. PCA和其他降维技术之间的比较?将PCA与其他常用的降维技术(例如t-SNE和LLE)进行比较,讨论它们的异同和适用场景。 - PCA是线性降维方法,主要捕获数据的主要线性结构。t-SNE和LLE是非线性降维方法,适用于保留数据的非线性结构。t-SNE常用于可视化,LLE用于局部降维。 15. 你认为PCA和因子分析在降维效果和计算复杂度方面有什么优势和劣势?它们在什么样的数据和场景下更适用? - PCA注重数据的方差结构,适用于减少冗余特征。因子分析注重数据的协方差结构,适用于挖掘潜在因子。 - PCA计算复杂度低,适用于大数据集。因子分析计算复杂度较高,适用于相对较小的数据集。 16. 你认为PCA和ICA在降维效果和计算复杂度方面有什么优势和劣势?它们在什么样的数据和场景下更适用? - PCA和ICA都是降维方法,但目标和数学基础不同。ICA用于分离混合信号,适用于独立性假设较强的数据;PCA用于最大化方差,适用于数据的主要结构。 - PCA计算复杂度较低,适用于大数据集。ICA计算复杂度较高,适用于信号分离等场景。 ## 三、PCA的两个重要推广 (一)因素分析(FA)的基本原理和数学推导,包括因素模型、因素旋转、因素得分等 。 (二)FA与PCA的异同点,以及它们各自适用的场景和优缺点 。 (三)独立分量分析(ICA)的基本原理和数学推导,包括盲源分离、最大非高斯性、快速ICA算法等 。 (四)ICA与PCA的异同点,以及它们各自适用的场景和优缺点 。 (五)FA和ICA在信号处理、图像处理、文本分析等领域的实际应用和案例 。 (六)问题和讨论