随着各类生物组学技术的发展,以及现代高通量设备的广泛应用,大大加快 了生命科学领域数据的产生速度。 如何从这些生物大数据中精确筛选出与复杂疾病的诊断治疗和药物开发密切相关的生物标记物及其调控网络是生物医学大数据研究的热点问题。 生物数据集往往具有高维度 、高噪音、高异源性和小样本等特点,正则化特征选择方法能够有效剔除数据集中大量冗余,提取出精简且判别能力强的特征子集,避免数据分析和机器学习过程中的“过拟合”和“维数 灾难”问题。自步学习方法通过充分利用数据中的高置信度及多样性等信息,大幅提升机器学习的效率。 我们开展了自动生成小样本数据的多模态,加固数据集高置信度信息,有机结合正则化方法、自步学习理论和大数据 ADMM 算法等,进行面向复杂疾病的靶向型生物标记物筛选和机器学习模型构建的研究,在癌症、 风湿性关节炎等复杂疾病的大数据分析方面取得良好的效果。