基于近紅外光譜結合化學計量學的轉基因大豆產地判別
大豆起源于中國,營養(yǎng)豐富,可作為一種理想的食物,在世界上很多國家和地區(qū)的飲食中受到青睞,是人們不可獲缺的食物。據(jù)中國海關總署統(tǒng)計2020年我國大豆進口總量超過1億t,已成為最大的大豆進口國[1]。進口大豆大多為轉基因大豆,其粗蛋白、脂肪和黃酮含量較高[2]。但是轉基因大豆的潛在風險和危害是無法預測的,如對生物多樣性的影響,對人類和動物健康的影響。因此我國對轉基因大豆管控嚴格。目前我國的進口大豆來源于美洲國家,主要進口源有美國、巴西,阿根廷和加拿大。近年來我國從美國進口轉基因大豆的數(shù)量急劇下降,調整為從美洲其他國家進口大豆。國外有部分商販從美國進口轉基因大豆,而后冒充本國大豆高價出口到我國,牟取不正當利益的同時給我國海關對轉基因大豆檢測和分類造成困難。國內有部分不法分子走私轉基因大豆而后銷售到國內市場,這對我國的生物安全帶來了嚴重的威脅,因此對轉基因大豆的產地朔源有利于從源頭打擊不法分子的犯罪行為,保護我國的生物安全。
轉基因大豆檢測和鑒別的主要方法是蛋白質檢測方法與核酸檢測方法[3]。蛋白質檢測法主要包括試紙條法和酶聯(lián)免疫吸附法[4-5];核酸檢測方法主要包括定性PCR和環(huán)介導等溫擴增技術[6-7]。以上檢測方法是破壞性檢測方法,需大量的實驗試劑、試驗過程繁瑣復雜、投入的成本較高、檢測專業(yè)性強、不易普及并且不能實現(xiàn)實時在線檢測。
近紅外光(near infrared,NIR)是介于可見光(visible,Vis)和中紅外(mid infrared,MIR)之間的電磁輻射波。采用NIR光譜技術分析待測樣品具有簡單、高效、無損、實時、綠色環(huán)保的優(yōu)點[8]。但是,NIR光譜受環(huán)境和樣品影響較大,容易形成未知組分和灰色體系且有多重共線性問題[9]?;瘜W計量學具有獨特的優(yōu)勢,通過對樣品測量數(shù)據(jù)的分析,可以最大限度的呈現(xiàn)出樣品的各種化學信息。NIR光譜結合化學計量學是一種快速、準確、高效,可實現(xiàn)實時在線檢測的方法[10]。
近年來,很多學者對NIR光譜結合化學計量學進行研究,NIR光譜結合化學計量學已廣泛應用到食品、農業(yè)、醫(yī)藥、化工等多個領域[11-13]。其在鑒別轉基因大豆和非轉基因大豆上也成功應用,但在轉基因大豆的產地判別上鮮有報道,針對我國進口轉基因大豆的現(xiàn)狀,對轉基因大豆的朔源具有重要意義。
1 材料與方法
1.1 實驗材料
試驗選取轉基因大豆分別為阿根廷轉基因大豆MON89788品系(“A1”)、巴西轉基因大豆MON89788品系(“B1”)、美國轉基因大豆MON89788品系(“M1”)、加拿大轉基因大豆MON89788品系(“J1”)以上4種大豆為同一品系不同產地的轉基因大豆?!癆1”,“M1”分別取50份樣品,“B1”,“J1”分別取80份樣品。如圖1所示,從左到右分別為“A1”、“B1”、“M1”和“J1”單粒大豆特征,單粒大豆在外觀上無明顯差異,所有進口轉基因大豆都由秦皇島海關提供。

a-“A1”;b-“B1”;c-“M1”;d-“J1”
圖1 四種轉基因大豆單粒特征
Fig.1 Single grain characteristics of four transgenic soybeans
1.2 儀器與設備
全波反射型NIR光譜儀,檢測器為Si和InGaAs,光譜掃描范圍400~2 600 nm,北京偉創(chuàng)英圖科技有限公司;ME204E電子天平,梅特勒-托利多有限公司;臺式真空干燥箱DZF-6050,上海捷呈實驗儀器有限公司。
1.3 實驗方法
1.3.1 NIR光譜采集與光譜預處理
NIR光譜儀開機預熱,白板校正后采集光譜。分別取4種轉基因大豆共計260份樣品,放置在干燥箱內,干燥溫度為40 ℃,時間為36 h,光譜采集在(23±2)℃的恒溫室內進行,試驗所取的光譜范圍為911~2 600 nm,每掃描10次計算1次平均光譜作為1條原始光譜。每間隔1 nm記錄1個點,每條原始光譜記錄了1 690個吸光度值。4種轉基因大豆共采集了260條NIR光譜。
試驗過程中由于實驗儀器、環(huán)境和樣品的影響,原始光譜中包含一部分的噪音。因此NIR光譜數(shù)據(jù)分析之前要對NIR原始光譜進行預處理,以此減少或者消除噪音對試驗的影響。平滑是一種提高光譜信噪比的方法,原始光譜經過平滑處理后可有效減少光譜噪音。標準正態(tài)變量變換(standard normal variate transformation,SNV)主要是用來消除固體顆粒大小、表面散射以及光程變化對光譜的影響。本試驗采取的光譜預處理方法為平滑+SNV[14]。
1.3.2 樣品的劃分和編號
Kennard-Stone(KS)算法,是在總樣本中選出訓練集樣品,首先選擇歐氏距離最遠的2個樣品進入訓練集,其后通過計算剩下的每1個樣品到訓練集內每1個已知樣品的歐式距離,找到擁有最大最小距離的待選樣品放入訓練集,以此類推,直到達到所要求的樣品數(shù)目[15]。本試驗共有轉基因大豆樣品260份,分別選取“A1”樣品45份、“B1”樣品75份、“M1”樣品45份、“J1”樣品75份共240份用來建立判別模型,剩余20份樣品作為模型驗證集。采用KS算法選擇模型的訓練集180份樣品和預測集60份樣品。分別對訓練集、預測集和驗證集樣品編號,訓練集中“A1”編號為X1~X34,“B1”編號為X35~X90,“M1”編號為X91~X124,“J1”編號為X125~X180。預測集中“A1”編號為Y1~Y11,“B1”編號為Y12~Y30,“M1”編號為Y31~Y41,“J1”編號為Y42~Y60。驗證集中“A1”編號為Z1~Z5,“B1”編號為Z6~Z10,“M1”編號為Z11~Z15,“J1”編號為Z16~Z20。
1.3.3 主成分分析(principal component analysis,PCA)
PCA方法作為化學計量學中分析NIR光譜數(shù)據(jù)的常用方法,其核心思想是利用方差最大原則,對光譜數(shù)據(jù)多個自變量進行線性擬合。這樣就可使高維的原始光譜數(shù)據(jù)最大限度的保留有效信息投影到低維空間,從而實現(xiàn)了光譜數(shù)據(jù)的降維,實現(xiàn)數(shù)據(jù)結構簡化。在實際應用中取前面幾個主成分,前面幾個主成分基本包含了樣品的絕大多數(shù)信息,可計算主成分的累計貢獻率,當貢獻率達到試驗的要求時即可,這樣可去除多余的數(shù)據(jù),用更少的數(shù)據(jù)表達樣品更多的信息,減少模型的計算量[16-17]。
1.3.4 偏最小二乘判別分析(partial least squares-discriminate analysis,PLS-DA)
PLS-DA本質上是一種基于特征變量的回歸方法,當構建分類模型區(qū)分基于同一訓練集的不同樣品時,訓練集中的每份樣品會被分配1個虛擬變量作為期望值,預測集的樣品分類取決于模型中的預測值Yi[18-19]。本試驗是對4種轉基因大豆的判別,人為的把模型響應變量期望值分別設定為:“A1”為“-1.5”;“B1”為“-0.5”;“M1”為“0.5”;“J1”為“1.5”。模型的判別閾值誤差設置為±0.5,當模型對4種轉基因大豆預測時,由預測值Yi大小按照Yi<-1為“A1”;-1≤Yi<0為“B1”;0≤Yi≤1為“M1”;Yi>1為“J1”的區(qū)間劃分進行歸類。
采用留一交互驗證法來確定模型的最佳主成分數(shù)[20-21]。以交互驗證均方根誤差(root mean square error of cross valdarion,RMSECV)作為評價標準。表達式如公式(1)所示:

(1)
式中:n表示交互驗證集樣本數(shù);ci表示第i個樣本的預測值;yi表示第i個樣本的期望值。
1.3.5 誤差反向傳播人工神經網絡(back-propagation artificial neural network,BP-ANN)
ANN是通過人工建立的具有自適應、自組織、自學習特點的以有向圖組成拓撲結構的動態(tài)系統(tǒng)。其通過正向和反向的學習和校正,實現(xiàn)輸出和輸入之間的高度的非線性映射。BP-ANN一般包含3個結構,輸入層、隱含層和輸出層。其包含2個過程:信號的正向傳播和誤差的反向傳播[22-24]。
本試驗為判別4種轉基因大豆,由表1可知,4種轉基因大豆NIR光譜數(shù)據(jù)經PCA后,前7個主成分包含了原始光譜的絕大多數(shù)信息,累計貢獻率達到99.1%,所以可由前面7個主成分作為BP-ANN的輸入。4種轉基因大豆期望值輸出可以設為:“A1”為“-3”,“B1”為“-1”,“M1”為“1”,“J1”為“3”,模型的判別閾值誤差設置為±1。經過對BP-ANN的多次訓練,建立了1個輸入層(輸入節(jié)點為7),2個隱含層(隱含層節(jié)點數(shù)分別為5和8)和1個輸出層(輸出節(jié)點為1)的ANN。當模型對4種轉基因大豆預測時,由預測值Yi大小按照Yi<-2為“A1”;-2≤Yi<0為“B1”;0≤Yi≤2為“M1”;Yi>2為“J1”的區(qū)間劃分進行歸類。
1.3.6 數(shù)據(jù)處理
數(shù)據(jù)采用MATLAB軟件自編的PCA、PLS-DA和BP-ANN建模程序處理,Origin 2018軟件繪制圖像。
2 結果與分析
2.1 轉基因大豆原始光譜圖
圖2是240份轉基因大豆樣品NIR原始光譜圖,由圖2可知光譜帶有部分噪音肉眼無法通過光譜圖來區(qū)分4種轉基因大豆,圖3是光譜經過平滑+SNV預處理之后的光譜,由圖3可知光譜的噪音明顯減少,但仍然無法通過肉眼區(qū)分。

圖2 轉基因大豆NIR原始光譜
Fig.2 NIR spectrum of transgenic soybean

圖3 平滑+SNV處理后的轉基因大豆NIR光譜
Fig.3 NIR spectra of transgenic soybean after smoothing +SNV treatment
2.2 PCA判別
轉基因大豆光譜經過預處理仍然有很龐大的數(shù)據(jù)。過多的冗余信息,不僅計算量大,而且還會降低模型的精度。利用PCA方法可對數(shù)據(jù)進行降維,得到各主成分的得分矩陣。
表1為NIR光譜數(shù)據(jù)中前7個主成分累計貢獻率,PC1的貢獻率為92.5%,PC2的貢獻率為3.6%。圖4為PC1和PC2的得分圖,由圖4可知,4種轉基因大豆有較好的聚類,尤其是“A1”、“B1”和“J1”。但是“A1”和“J1”分布區(qū)域比較靠近,部分樣品有覆蓋,不能區(qū)分這2種轉基因大豆。
表1 主成分累計貢獻率
Table 1 Cumulative contribution rate of principal components


圖4 主成分得分
Fig.4 Principal component score
2.3 PLS-DA
采用PLS-DA方法對4種轉基因大豆判別,訓練集包含180份樣品和預測集包含60份樣品。圖5為RMSECV與選擇的主成分數(shù)的關系,設置最大主成分數(shù)為20,當主成分數(shù)為4時,RMSECV最小,因此選擇4為模型的最佳主成分數(shù)。

圖5 RMSECV與主成分數(shù)的關系
Fig.5 Relationship between RMSECV and number of principal component
訓練集樣品和預測集樣品的預測結果如圖6和圖7所示,訓練集和預測集的預測結果大多數(shù)在相應的區(qū)間內。表2為4種轉基因大豆的判別結果,由表2可知,訓練集中“A1”的識別率為88.2%,“B1”的識別率為96.40%,“M1”的識別率為91.1%,“J1”的識別率為96.4%。預測集中“A1”的識別率為72.7%,“B1”的識別率為94.7%,“M1”的識別率為90.9%,“J1”的識別率為89.5%。4種轉基因進口大豆的總識別率為92.5%。使用PLS-DA方法可以較好的識別這“B1”、“M1”和“J1”這3種轉基因大豆,“A1”的識別率偏低,不能滿足現(xiàn)實要求,需要找到更適合的方法提高“A1”的識別率。

圖6 訓練集轉基因大豆PLS-DA方法的預測結果
Fig.6 Prediction results of PLS-DA method for transgenic soybean in training set

圖7 預測集轉基因大豆PLS-DA方法的預測結果
Fig.7 Prediction results of PLS-DA method for transgenic soybean in prediction set
表2 PLS-DA和BP-ANN方法判別結果
Table 2 Identification results for PLS-DA and BP-ANN

2.4 ANN方法判別
采用BP-ANN方法對4種轉基因大豆判別,訓練集包含180份樣品和預測集包含60份樣品,ANN經訓練集訓練優(yōu)化后確定權值和閾值,預測集的60份樣品進行驗證。訓練集和預測集的預測結果如圖8和圖9所示,訓練集和預測集中“A1”、“B1”、“M1”和“J1”的預測值與期望值高度一致。由表2可知,訓練集和預測集識別率均為100%。
2.5 PLS-DA模型與ANN方法判別模型的驗證
取未參與建模的驗證集20份樣品對PLS-DA方法模型與BP-ANN方法判別模型進行驗證。驗證結果如圖10、圖11所示,PLS-DA方法模型識別率為90.0%,BP-ANN方法判別模型的識別率為100%??梢?,PLS-DA方法模型與BP-ANN方法判別模型對轉基因大豆識別率較高。

圖8 訓練集轉基因大豆BP-ANN方法的預測結果
Fig.8 Prediction results of BP-ANN method for transgenic soybean in training set

圖9 預測集轉基因大豆BP-ANN方法的預測結果
Fig.9 Prediction results of BP-ANN method for transgenic soybean in prediction set

圖10 驗證集轉基因大豆PLS-DA方法的預測結果
Fig.10 Prediction results of PLS-DA method for transgenic soybean in validation set

圖11 驗證集轉基因大豆BP-ANN方法的預測結果
Fig.11 Prediction results of BP-ANN method for transgenic soybean in validation set
3 結論
采用NIR光譜結合化學計量學對4種轉基因大豆進行判別分析,利用平滑+SNV方法預處理原始光譜數(shù)據(jù),KS算法劃分訓練集樣品和預測集樣品,PCA、PLS-DA和BP-ANN方法分析預處理后的NIR光譜數(shù)據(jù)。試驗結果顯示平滑+SNV的預處理方法能有效減少NIR光譜的噪音;PCA方法能判別出4種轉基因大豆中的3種,阿根廷轉基因大豆和加拿大轉基因大豆不能同時判別;PLS-DA方法對預測集轉基因大豆的判別正確率為88.3%;BP-ANN方法能夠準確的判別4種轉基因大豆,判別正確率為100%;并用未參與建模的4種轉基因大豆對PLS-DA方法模型和BP-ANN方法模型進行驗證,驗證集中PLS-DA方法模型判別正確率為90.0%,BP-ANN方法模型判別正確率為100%。本試驗雖然只選取了4種轉基因大豆進行建模判別,但是試驗結果表明采用NIR光譜結合PLS-DA和BP-ANN方法對轉基因大豆產地朔源是可行的??蔀槲覈嚓P部門對轉基因大豆的產地朔源提供部分方法。
- 2025年中科院分區(qū)表已公布!Scientific Reports降至三區(qū)
- 官方認定!CSSCI南大核心首批191家“青年學者友好期刊名單”
- 2023JCR影響因子正式公布!
- 國內核心期刊分級情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學者
- 我用了一個很復雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- 重磅!CSSCI來源期刊(2023-2024版)最新期刊目錄看點分析!全網首發(fā)!
- CSSCI官方早就公布了最新南核目錄,有心的人已經拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應該熟知的10個知識點。
- 注意,最新期刊論文格式標準已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學術論文編寫規(guī)則
- 盤點那些評職稱超管用的資源,1,3和5已經“絕種”了