一、项目简介
随着大数据时代的来临以及大数据在各领域的广泛应用,科学发现的模式将发生重大变化。继实验科学、理论科学、计算科学之后出现了被称为“数据密集型科学”的第四种科学发现新模式,采集、存储、管理、分析和可视化数据成为科学研究的新手段和新流程。这一科学发现新模式强调数据作为科学发现的基础,并以数据为中心和驱动、基于对海量数据的处理和分析去发现新知识为基本特征。如中科院生物所破解埃博拉病毒入侵机制;海量DNA数据认识生命,在1 万亿个事例中发现上帝粒子-希格斯粒子,全球碳监测网络,ARIGO 海洋浮标,科研众筹(FOLDIT、GALAXYZOO、POLYMATH)等。
在科学研究数据与日俱增的今天,我们把与科学相关的大数据称之为科学大数据,科学大数据一般来自于物理世界,内容为科学实验数据或传感数据,特点是有一定的科学规律可循,采集的代价比较高。科学大数据集复杂性、综合性、全球性和信息与通信技术高度集成性等诸多特点融于一身,其研究方法也正在从单一学科向多学科、跨学科方向转变,科学大数据正在使科学世界发生变化,科学研究已经进入一个新范式——数据密集型科学范式。以遥感大数据分析为例,在遥感监测领域,通过各种遥感技术获取得到的遥感数据集具有典型的大数据特征。以海量遥感数据集为主、综合其他多种来源的辅助数据,运用大数据思维与手段,聚焦于从多种来源、多种介质、多种频段、多种分辨率的海量遥感数据集中获取价值信息的理论、方法、技术与活动,统称为遥感大数据分析。
此实习项目专门为计划申请数据分析、信息科学、统计学与应用数学、自动化控制、空间物理、遥感、航空航天等专业等交叉专业学科的学生所设计。学生将跟随知名研究所导师一同工作,通过学习一门重要的数据分析语言和工具,熟悉利用大数据分析中的典型算法,以遥感大数据为例解决地球变化监测中的实际问题。实习结束后,导师会根据学生综合表现出具推荐信。
二、项目内容
本项目名称是基于遥感大数据的建模、预测和地球变化异常监测分析研究。介绍科学大数据分析领域较经典和实用的其中五个算法模型:多元回归分析、周期性SARIMA 预测、K 均值(K-means)聚类、支持向量机(SVM)分类、递归神经网络(RNN)深度学习。
本项目介绍并学会使用一门国际学界广泛使用的重要的科学数据分析语言和编程工具,为后续动手实践和出国科研做铺垫。
案例介绍,结合实际的国际合作科研项目,介绍两个基于大数据分析算法解决地球变化和异常监测相关问题的真实案例。
案例实战,掌握基于大数据分析算法解决地球变化和异常监测相关问题的案例分析和动手操作。
学生实现多元回归分析、SARIMA 预测、K-means 聚类、SVM 分类、RNN 深度学习的相关算法,并应用于具体的遥感大数据分析问题中,得到建模、预测和异常监测结果,实现对学生的综合考核。
三、招生对象及要求
大二以上本科生及部分高中生,计划数据分析、信息科学、统计学与应用数学、自动化控制、空间物理、遥感、航空航天等专业。为了让学生可以更好地参与并完成科研项目,项目组会以笔试和面试的形式对学生进行筛选。
项目难度:★★☆
报名建议:更适合具备一定编程能力的同学,建议掌握一种及以上高级编程语言(R 语言、Python、Matlab)。
预习资料:R 统计软件详细介绍、R 语言经典入门、R 语言时间序列教程、Data Mining with R Learn with Case Studies、Near Real-time Disturbance detection using satellite image time series。
四、行程安排
Step1:远程项目指导:项目开始前2 周—1 个月组成学习讨论群,项目导师及助教为同学们答疑解惑,介绍项目背景,发放预习资料(包括相关文献及需要掌握的软件技能等),有问题可以请教导师,行程安排请教贴身助教;
Step2:项目集中进行时:导师面对面授课指导,研讨国际当下热点问题及领域发展方向,引领同学们完成定值科研项目,发挥同学的科研精神和探索能力,爱上科研不是梦;
Step3:远程项目指导:项目结束后2 周—1 个月,延展性问题随时请教导师,完成项目总结,撰写详细的总结报告,梳理项目内容,思考后续发展方向。