内容主题:
一、数据编辑:新建数据表,打开数据,数据导入格式设置,表格锁定,表格数据删除,表格数据保存;
二、数据预处理
三、样品分析:化学指标分布分析,相关和聚类分析,样品集划分;
四、谱图比较:样品选择,谱图放大、复原与颜色设置;
五、建立校正模型:多元线性回归,逐步回归,主成分和偏最小二乘回归;
七、报告编辑
八、谱图显示设置
NIRSA数据处理系统专门用于近红外光谱数据分析和建模,分为数据编辑,数据预处理,样品分析,谱图比较,模型校正,样品预测,报告编辑和谱图显示效果设置等几个功能模块。软件界面窗口分为顶端的主菜单栏、工具栏及工具栏下方的分页显示区。本软件系统的各功能模块大致分布于不同的页面,下面将分别予以介绍。
这部分主要位于工具栏下方“数据视图”页面,功能包括:实现建立新数据表;打开谱图形式和矩阵形式得光谱数据文件;浏览各样品谱图;删除样品集中某一样品或某一波长或波数处的光谱值;修改表格数据等。
该功能将建立一个空的数据表,可手工输入样品光谱数据,每个样品的光谱数据按列排列,其中第一列为各光谱采样点相应的波长或波数值,第一行为样品编号(波长或波数值所在列编号填充“波长(或数)\样品号”)。如果同时还需要输入每个样品的化学指标值(可能不只一个),则样品化学值紧跟相应列光谱数值之后。第一列最后一个波长或波数值之后可输入相应行化学指标名称。具体格式见打开“安装目录\DemoDat\SWData.txt”(矩阵型数据文件)显示结果。如何打开磁盘数据参见后面“打开数据”一节。
方法:点击主菜单“数据”—>“新建”,或工具栏的“新建”按钮,打开如下对话框(图1):

图1 “新建样品集数据表”对话框
在三个文本框中输入相应的整数,其中变量数表示采集样品光谱数,如果没有化学指标数,则输入“0”。假定输入的3个数分别为4、6和2,单击“确定”按钮则生成的数据表为7行7列,如下图2所示。表中白色区域为数据表可编辑部分,而灰色固定区域为数据表的行列标识编号。数据表可编辑区域中除表格第0列的[0行0列]和化学指标名称所在单元格(如[5行0列] 和[6行0列])外,其余必须输入数据值,且样品号应输入互不相同的整数。表格数据右上端“化学指标”页中两个文本框则显示化学指标在表格中的位置信息(指标数和所在行,如图3)。
编辑完数据后,点击数据表格右上端“表格编辑”页中“采用”按钮(如图4),确认采用输入的数据,如果输入的数据有误或格式不对,系统将报错。如果数据无误,“采用”后按钮
将变为可用状态,可以文本形式保存数据表内容,以及利用数据表中的数据进行其它分析和处理。此时表格数据蒋无法恢复。

图2 新建空数据表样式

图3 表格数据化学指标位置 图4 已编辑数据采用确认和保存
该功能将把保存在磁盘中的数据文件导入本数据处理系统。数据文件分两种,均为文本格式(随着系统升级将逐步增加其它文件格式),分别为谱图型和矩阵型。谱图型数据为两列,第一列为各光谱采样点的波长或波数值,第二列为相应的光谱值,表示一个样品的光谱数据采样结果,具体格式“安装目录\DemoDat\Data1~5.txt”文件;矩阵型数据则为多个样品的光谱数据采样结果,第一列为各光谱采样点的波长或波数值,其它列为各样品相应的光谱值,第一行为样品编号(波长或波数值所在列编号为“0”)。紧接光谱数值之后为各样品相应的化学指标值(如果存在的话)。为读取数据方便,矩阵型数据第一行前还设置3个参数:变量数,样品数,化学指标数,如果矩阵型数据中不包含化学指标,则化学指标数为0,具体格式见安装目录下的“\DemoDat\SWData.txt”。
方法:点击主菜单“数据”—>“打开”,或工具栏的“打开”按钮,打开如下对话框(图5),选择文件路径、名称及文件数据格式,按“确定”,即可把文件数据导入表格。如果打开的为谱图型数据,对话框下半部分显示谱图,图5中即为这中情况;如果打开的为矩阵型数据则在对话框下半部分显示部分矩阵数据以及数据格式说明。如果选择的文件数据格式和实际文件格式不对,系统将报错(以矩阵格式打开谱图型数据)或显示不规则谱图(以谱图格式打开矩阵型数据)。打开谱图型数据时如果
未被选中,则表示打开的数据置于已经打开的数据表格最后一列,否则将置于新数据表格的第一列。所有样品的谱图型数据载入完毕后,如果需要输入每个样品的化学指标值,则单击
(如图3),弹出如图6所示对话框。单击
确定每个样品需要输入的化学指标数目,然后在表格中每个样品对应的谱图型数据文件名后输入相应的化学指标值,再单击“确定”
即可。

图5 打开谱图文件对话框

图6 编辑化学指标值对话框
3.数据导入格式设置
如果是错误的文件结构,就会出现如图7的提示

图7,光谱文件错误提示
如图8所示,是文本文件的光谱矩阵(*.txt)在Excel中的设置情况。

图8,光谱矩阵的设置
图中的第一行分别表示光谱矩阵中的波长(或波数)的数目、一共有样品的数目、检测样品的化学指标数目;第二行是各个样品的标识,红色方框里的是样品光谱,每个样品对应一列光谱;第一列的括号部分是光谱对应的波长(或波数);最后一行(或几行)是化学指标行(可省略)。图1中的第一行、第二行、第一列的数值一般设置为整数,样品的光谱值、样品的化学指标值可根据要求的精确度来设置。完成了如上的设置后,把此文件另存为文本格式就可以了。
磁盘数据导入表格后,表格处于锁定状态,以避免表格中数据被更改,如果需要修改,则点击数据表格右上端“表格编辑”页中“表格锁定”,使之处于未选中状态(如图4),即可编辑表格数据,否则表格数据不可编辑。
选中第0行的任一样品编号,数据表格下端将显示对应样品的光谱图,在光谱图中移动鼠标,左下方的状态将显示谱图的纵横座标值。如果要从数据表中删除该样品的全部光谱数据,在数据表格中单击鼠标右键,跳出浮动菜单,点击“删除选定列”即可。如果要删除所有样品在某一波长采集点的光谱数据,则选中位于第0列的该波长值,在数据表格中单击鼠标右键,跳出浮动菜单,点击“删除选定行”即可。
如果需要保存表格数据,需要先取消“表格锁定”,点击表格编辑的(如图4)“采用”按钮,下方“保存”按钮以及工具栏的“保存”按钮都变为可用,随即可进行数据保存。需要注意的是,保存的数据都以矩阵形式存在。下面的“数据预处理”完毕后,如果需要保存数据也以此方式进行,且必须先点击“采用”按钮,以确认保存的是表格数据,此时,表格数据无法恢复“数据预处理”前的内容。否则单击下方的
按钮,可恢复数据表中原始数据(如图7)。
这部分功能位于工具栏下方“数据视图”页面右下方。
数据预处理分为光谱平滑、光谱微分和数据的归一化和正规化。要实现平滑或者微分,均需要预先设置滤波器窗口宽度,如果不作平滑或微分处理,即使设置窗口宽度也无效。“光谱平滑”页(图9左),“MAF”表示滑动平均滤波,“SGF”表示采用Savitzky-Golay滤波器系数的多项式平滑滤波。
是否选中将决定光谱数据预处理时是先微分还是先平滑,如果不作平滑或微分处理,则该项设置无效。光谱经一阶或二阶微分处理后数值较小,为便于显示和处理,在“光谱微分”页(图9中),“结果放大”下拉框中选择参数用来放大经微分处理后结果。在“归一/正规化”页,选择归一化或正规化则可对数据表中的内容按行进行相应处理。各预处理参数设置完毕后,单击
按钮,系统即可开始数据预处理计算。单击下方的
按钮,可恢复数据表中原始数据。

图9 光谱数据预处理
这部分主要位于工具栏下方“样品分析”页面,该模块可实现以下功能:
1) 样品集中各样品的化学指标分布;
2) 分析样品集某一化学指标与各波长(或波数)光谱值的相关系数及分布;
3) 提取样品集前两个主成分(PC)进行聚类分析和显示;
4) 提取样品集前两个偏最小二乘(PLS)成分进行聚类分析和显示;
5) 根据样品分析结果划分样品校正集和预测集。
各功能键分布如图10所示。进行样品分析时,除PC聚类分析外,其它分析都要用到化学指标值,可从“化学指标”下拉框(图10右)中选择需要的化学指标。下面将对各功能键分别予以介绍。

图10 样品分析各功能键分布区域
图10左为化学指标分布功能键区域。选择样品集类型(见图10右,未划分时全部样品均作为校正集,预测集为空)后,单击“化学指标分布”按钮,化学值将按样品编号先后次序分布(见“样品分析”页左上方,如图11所示)。选择框
决定图11左上方表征样品集(分别绿、红、蓝代表三类样品集)信息方框是否显示;
决定图11中表征各样品指标值的黄色方框是否显示;
决定是否对化学指标值进行极差化处理,以突出各样品化学指标间得差异。。

图11 样品化学指标分布图(经极差标准化处理)
单击
按钮,系统将以样品集光谱数据和选择得化学指标值为依据计算该化学指标与各波长(或波数)光谱值的相关系数,并在左上方谱图区域显示相关系数随波长(或波数)分布情况(图12)。谱图区域下方表格列出各波长(或波数)吸收点处相应相关系数及其绝对值。表格中相关系数可根据绝对值大小选择按降序、升序或按编号排列。

图12 样品化学指标与光谱值相关图
单击
按钮,系统将以样品集光谱数据和选择得化学指标值为依据提取样品在前两个偏最小二乘成分(PLS)PLS1和PLS2上的得分,并根据得分在左上方谱图区域显示各样品分布情况(图13);谱图区域下方表格列出各样品的两个得分值,以及前十个主成分对应的特征值和累积贡献率。

图13 样品PC得分分布图
单击
,系统将以样品集光谱数据为依据提取样品在前两个主成分(PC)PC1和PC2上的得分,并根据得分在左上方谱图区域显示各样品分布情况(与图11类似);谱图区域下方表格列出各样品的两个得分值。
是否选中决定在样品PC得分和PLS得分分布图中是否显示各样品编号。
3.计算的中止:单击工具栏“停止”按钮可以中止正在进行的PC或PLS成分提取计算。
4.
样品集划分:根据样品PC得分和PLS得分分布情况人工把全部样品划分为校正集和预测集。单击
(图10右),打开如下对话框(图14):

图14 样品集划分对话框
对话框中按钮
和
分别表示选择一个(或多个)样品和全部样品(以编号表示)移到右边列表框中;按钮
和
分别表示选择一个样品或全部样品移到左边列表框中。点击“确定”即可获得样品集划分。
这部分位于工具栏下方“谱图比较”页面,本功能模块可以实现最多8各样品光谱图的简单比较,谱图放大和复原。
1.
样品选择:点击右端
,打开类似图14的对话框,从左边选择一个或多个需要比较谱图的样品编号,单击
,所选择的样品编号将移到右边列表框中。选择完毕(待比较样品总数最多为8个),点击“确定”即可,比较谱图分别以不同的颜色曲线显示在左边谱图显示区域中(如图13),图中红色垂直线表示谱图比较位置,可通过鼠标单击谱图区域调整,各谱线在该位置的光谱值及大小次序显示在下方的表格中。

图15 样品谱图比较
2. 谱图放大与复原:按住鼠标左键不放,向右画方框围住待放大区域,松开鼠标即可;或设置待放大区域横纵坐标(页面右下方),单击“确定”按钮即可。如果要把放大图复原,则在在放大图上按住鼠标左键不放,向左画任意大小方框后松开鼠标即可,或单击页面右下方“取消”按钮。
3. 谱图比较颜色设置:单击
,可打开如下对话框(图16)。通过该对话框设置,可以改变各比较谱线颜色,垂直线以及谱图区域背景颜色。如果需要改变谱线、垂直线或背景(标注在表格固定行中)颜色,可选中并单击下方任一表格,表格右半部分将出现按钮
,单击该按钮,系统将弹出一调色板对话框,从中选定一颜色按“确定”即可。此时,谱图颜色调整对话框左下方谱图区域(见图16)将显示各对象颜色设置综合效果。单击
,图15所示的谱图比较显示将按设置的颜色方案调整。

图16 谱图颜色调整对话框
这部分位于工具栏下方“校正”页面,本模块功能包括:
1)
根据建立的校正样品数据集建立定量分析模型,模型类型包括:多元线性回归(MLR)、逐步回归(SWR)、主成分回归(PCR)、偏最小二乘回归(PLSR);
2)
对模型预测精度进行分析;
3) 保存建立的定量分析模型以备今后预测用。
各功能键分布于“校正页面”右端,除多元线性回归外,其它建模方法都需要设置相应的计算参数。下面将分别予以介绍:
从“校正方法”中选中“多元回归分析[MLR]”,再从下方化学指标下拉框中选择化学指标名称(如图17),单击
即可启动多元回归分析计算,程序窗口下端中部状态条将按百分比显示计算进程。校正计算完毕,系统将输出校正模型各参数(回归系数),实际测量值和回判值及其相关分析结果,分别在页面左半部分以谱图、文本和表格形式显示。

图17 选择模型校正方法和化学指标
如果需要保存建立的校正模型,可单击
或工具栏“输出”按钮,则弹出一文件保存对话框(图16),选择路径并输入文件名,模型文件扩展名为“*.mdl”,按“保存”即可。

图18 校正模型保存对话框
从“校正方法”中选中“逐步回归分析[SWR]”,窗口如图17页面区域下方将出现“逐步回归”参数设置栏(如图19左)。系统可采用“有进有出”(SWR)和“逐步向前”(SWF)两种逐步回归方法建立校正模型。当
被选中时,系统进行逐步向前回归计算,否则进行有进有出的逐步回归计算。对SWR方法,需要同时设置引入和剔除变量的F检验临界值(F1和F2);对SWF方法,则仅需要设置引入变量的F检验临界值F1,此时F2输入文本框将变为不可用。“引入变量数”用来控制模型中允许纳入的最多变量数,如果不希望该参数起作用,可设置为光谱采集波长的数目。设置好参数,选定需要建模的化学指标后,就可启动校正计算,余下和多元线性回归分析校正过程类似。

图19 逐步回归和主成分回归校正计算参数设置
从“校正方法”中选中“主成分回归分析[PCR]”,如图17页面区域下方将出现“主成分回归”参数设置栏(如图17右)。启动PCR方法,需要预先设置两个参数:提取的最大主成分数和用于建模的主成分累积贡献率的最小值。参数设置好后,余下和逐步回归分析校正过程类似。主成分提取计算时,只要满足预先设置两个参数中的一个,计算即结束,主成分参数设置栏右端文本框输出实际提取的主成分数和相应的累积贡献率。
4.
建立偏最小二乘回归校正模型
在“校正方法”中选中“偏最小二乘回归[PLS]”,会出现如图20所示参数选择,

图20,偏最小二乘回归参数设置
参数在默认的情况下,进行偏最小二乘回归交叉验证,最大PLS成分数是15,保留样品数目是1(默认的方法也称Leave-one-out cross
validation,该方法最常用,但当样品数目或光谱数据大的时候是很费时的)。用户可根据实际情况修改PLS成分数(小于15或大于15均可)或保留样品数目(当样品数目很大,如100个样品,可设置保留样品数大于1,如5,这样可以减少建模的时间)。在设置好参数后,点击
按钮,计算结束后,在图中的“计算结果”栏得到最佳PLS数(即建模的时候最好的PLS主成分数)和相应的PRESS值(预测均方根平方和),同时在左边产生交叉检验PRESS图。
当用户不进行交叉验证时可选中图中的“取消交叉验证”,然后在“PLS成分数”中设置建模要提取的主成分数,点击
即可。
5.
校正计算的中止:单击工具栏“停止”按钮可以中止正在进行的校正计算。
这部分位于工具栏下方“预测”页面,该模块可利用系统刚建立的模型或存贮在磁盘上的模型预测一个或多个样品的化学指标值,如果已知预测样品实际化学指标值,还可对预测偏差进行统计分析,如计算模型预测均方根误差、实际测量值和模型预测值的相关系数和相关图等。
1. 加载预测样品光谱数据:单击工具栏“打开”按钮,加载待预测的一个或多个样品光谱数据(预测样品数据集),数据显示在“数据视图”页面表格中。如果没有从磁盘加载数据则以表格中现存数据作为预测样品数据;如果表格中没有数据,则系统报错,无法进行预测计算。
2.
载入校正模型:单击
可加载刚刚建立的目前驻留在内存中的校正模型;单击
或工具栏“加载”按钮可加载保存在磁盘上的校正模型文件(*.mdl)。模型信息显示在页面左上部的表格和方框中。单击
将进行预测计算,预测结果分别以表格、谱图和文本显示。
3. 图文输出
在对样品进行聚类分析和校正、预测后,会产生相应的聚类、校正、预测图,可点击图文输出(如图21),选择相应的图进行粘贴或保存。

图21,图文输出