“你看!”
程岳兴致勃勃,“这是两万多个数据,每一行代表一个样品,一共有384行,每一列代表一个参数,目前有53列,就相当于是一个五十三维的数据集。但是人脑无法处理五十三维的数据集,为了让我的实验结果清晰准确的展示,我要用一个计量学的方法,叫做主成分分析,简称PCA,来帮我实现数据降维。”
从上一世读博和刘启光教授合作的经验,他知道刘启光对于PCA完全不懂,是他的博士生导师用已经计算好的数据慢慢解释,才让刘启光明白这个概念和运算过程。
所以这次组会上他也没有跟刘启光细说,打算拿到结果再跟他慢慢讲,同组的师兄师姐们更是不会明白这些了。
可司徒捷报,作为计算机大佬,数学一定很强,所以程岳其实是第一次跟人讲自己的计算思路,十分兴奋。
“虽然看着这384X53的数据集很庞大,但其实也就是个矩阵而已,设这个矩阵为X,我要进行的第一步计算是把每一列进行零均值化,接着再求导协方差矩阵C=(XX)^T,得到这个协方差矩阵的特征值和对应的特征向量后,把特征向量按照对应特征值大小按照左大右小排列成新的矩阵,这时候,如果我们取前两行组成矩阵P的话,Y=PX就是把53维降到二维以后的数据了!当然,我是默认这些对应的荧光值和吸收值都和他们的浓度在一定范围内成线性关系,否则计算肯定要复杂得多。”
程岳一边讲一边在纸上写着方程,,“这样,本来难以表达的五十三维数据,现在就能变成人人都看得懂的二维数据了!虽然我们看似丢掉了二维之后的五十一维,可变换后的新矩阵,前二维基本上就能包括95%左右的能够使我的不同样品产生分离的足够信息了,所以……捷报?”
程岳讲着讲着一抬头,看到的却是司徒捷报僵住的脸。
“呃……捷报,你有什么问题吗?”
司徒捷报尴尬笑笑,他本以为以自己的进度,已经学得很快了。
当然事实也的确如此。
可他怎么也想不到,他连程岳的需求都听不懂。
司徒捷报抓抓头发,有些不好意思地问:“什么是……矩阵?”
“?”
程岳这才回神,意识到司徒捷报虽然计算机天赋过人,可毕竟也是个十八岁刚上大学的学生,没学过矩阵也是正常。
“别急,我慢慢教你……”
然后。
司徒捷报用了一上午的时间,让程岳明白了什么叫“一个人数学好但并不代表他会教数学”。
两人一个抓耳一个挠腮,颇有崔齐管兵这对哼哈二将写英语论文时的风范。
除了司徒捷报努力思考时候用手把头发往后捋,终于让程岳看清了他的长相之外,程岳感受到了重生之后就没感受到过的挫败感。
该说不说,司徒捷报的长相居然还不错,就是平时全都埋在乱蓬蓬的头发里了,让人很难注意到。
眼见马上要到和赵峥约定好的时间了,程岳无奈和司徒捷报道了别:“捷报这样,我下午还有事,就暂时不说了。而且我感觉我教学能力也有限,要不我们干脆找个数学系的学姐或者学长,让他们帮你讲讲我觉得效率跟高!”
司徒捷报这一上午,脑子也像是被架在烧烤炉上反复炙烤,现在是一个数字都不想看到了。