哈工大靳水林教授團隊提出單細胞測序數(shù)據(jù)整合新模型
哈工大全媒體(闞思邈 周陽/文 周陽/圖)近日,我校數(shù)學學院靳水林教授團隊在單細胞測序數(shù)據(jù)建模與分析領(lǐng)域取得重要進展,解決了多生物來源數(shù)據(jù)整合建模的關(guān)鍵問題。研究成果以《多生物來源單細胞數(shù)據(jù)整合》(Integrating single-cell data with biological variables)為題發(fā)表在《美國國家科學院院刊》(Proceedings of the National Academy of Sciences of the United States of America: PNAS)上。
單細胞數(shù)據(jù)整合旨在通過消除數(shù)據(jù)中的批次效應(yīng),以融合不同實驗批次的單細胞測序數(shù)據(jù),對胚胎發(fā)育、組織功能及疾病機制等研究具有重要意義。然而,對于包含多生物來源的單細胞測序數(shù)據(jù),其批次效應(yīng)與生物效應(yīng)極易混淆,給數(shù)據(jù)整合帶來了巨大挑戰(zhàn)。
針對上述問題,靳水林教授團隊提出了一種多源生物變異的數(shù)據(jù)整合新模型——組中心化主成分分析 (group-centered Principal Component Analysis,簡稱gcPCA)。這一模型首次定義了多生物來源數(shù)據(jù)的組技術(shù)變異,利用生物來源的總體變異和批次內(nèi)變異估計批次效應(yīng),構(gòu)建了組技術(shù)變異最小化的優(yōu)化模型,進而在保留多源生物變異條件下對數(shù)據(jù)進行了整合。組中心化主成分分析(gcPCA)模型在模擬和真實數(shù)據(jù)整合方面取得了優(yōu)良的效果。該研究為多生物來源單細胞測序數(shù)據(jù)的有效整合提供了高效、可靠的數(shù)學模型。
組中心化主成分分析(gcPCA)模型
哈工大為論文唯一完成單位。靳水林教授為論文唯一通訊作者,團隊博士研究生周陽為論文第一作者。該研究獲得了國家自然科學基金面上項目、國家自然科學基金青年學生基礎(chǔ)研究項目(博士研究生)、黑龍江省杰出青年基金等項目的支持。
論文鏈接:https://doi.org/10.1073/pnas.2416516122