打开网易新闻 查看更多图片

钉钉杯来源

钉钉杯是阿里巴巴旗下钉钉举办的全国性数据科学竞赛,也是国内数据科学家、机器学习开发者汇聚地,发起于2022年,今年是第三届,发展至今,备受广大师生们的热捧。

赛题类型有哪些?

赛题方向为数据分析和数据挖掘,题目来自国内大数据资深专家、企事业单位实际应用场景应用题目;近几年高教社杯国赛中C题连续出现大数据相关的方向,美赛中每年的C题明确为大数据的类型,像在建模中常用到的数据预处理、神经网络、机器学习和深度学习算法,决策树等等,都是和大数据相关知识紧密相连的。所以钉钉杯大数据挑战赛适合所有建模同学参加。也可以帮助同学们熟悉数据类的解题技巧打好数模基础,为接下来的国赛做准备

什么人适合参加打钉钉杯?

既对数学、计算机基础要求不高,但上限又没有天花板,为刚进入机器学习领域的爱好者准备,适合入门选手,同时准备参加数学建模竞赛的同学等,想要暑期综测加分、增加科研实战经历、毕业入职大厂offer的等同学

钉钉杯必备技能

1.学习至少一门数据科学语言,这里推荐python。如果完全没有编程基础,至少需要两周以上时间熟悉python语法和简单的数据结构如list、dictionary等。

2.尝试做一下真题,熟悉一下题目类型和题目难度,可以尝试一个人完成真题的task1和task2,由于task3较为开放性,有一定数学建模的意味,可以暂时不管。

3.学习第三方库numpy、pandas、matplotlib,总结套路。我们在集中刷题时发现题目在task1、task2很多题型都大同小异,可以用一些固定套路解决。对于这些固定套路最好就是要熟记其函数和方法,比如 pd.pivot_table() 方法等。

4.刷往年真题。值得一提,过程3可以在刷真题中一并学习。

钉钉杯参赛形式及流程

大赛分为初赛、复赛和决赛三个阶段,每支队伍自由选择A、B赛题的其中一个进行比赛,其中初赛和复赛均要求参赛者在规定时间内根据问题提交一份论文对项目进行说明;决赛要求参赛者进行线上答辩。

最终初赛成绩中前15%获奖选手将晋级复赛;复赛为统一命题,不更换题目背景,但可能会更换题目问题和数据,选手网络远程答题进行排名。

复赛中综合总排名前10的队伍进入答辩环节,答辩采用线上或者线下的方式进行。竞赛结束前必须在线提交结果数据、论文和代码,提交时系统验证提交数据格式是否正确;

比赛流程

常规线路一般是:数据清洗 -> 特征挖掘/特征工程 -> 搭建模型 -> 训练模型 -> 给出预测 -> 提交论文及结果

大赛官网:http://www.nmmcm.org.cn/match_detail/33

赛前准备攻略

对于数据类比赛,需要掌握处理数据的工具,和针对特定问题的机器学习和深度学习算法。当然这个处理工具没有特别的限定,也有使用R语言进行统计建模,或者有用matlab进行数据挖掘和算法的编写。对于编程语言的学习是,一个比较重要的环节,也是对同学们今后对数据挖掘研究的一个基础。

其次就是对机器学习库的掌握,对于一些常见的机器学习算法,对于初学者并不一定能全部自己实现,而且有的时候只需要将这些算法作为测试算法,所以对机器学习库Sklearn的掌握是比较关键的,通过其可以快速实现KNN,SVM,DT,RF等机器学习算法的快速调用,里面也封装了很多评价指标函数。进阶的就是,对一个或多个深度学习框架,要进行掌握。现在有很多的深度学习框架,例如:TensorFlow,Pytroch等。

基础知识

数学基础:微积分、线性代数、概率论与数理统计、优化理论

机器学习理论:周志华《机器学习》、李航《统计机器学习》、Ian Goodfellow和Youshua Bengo《Deep Learning》、Bishop的PRML

Python:《Python基础教程》《利用Python进行数据分析》《机器学习实战》

比赛经验技巧积累

当你积累了一两个项目的时候,继续做项目,帮助可能不是那么大。这个阶段可以通过别人的比赛分享去学习。

从别人比赛中比赛分享中,主要是学习他们比赛的一些特征,工程的一些方法,融合模型融合的一些技巧,或者说一些比较好的一些思想。

队友的选择

1.由于比赛任务量比较大,所以靠谱的队友一直是比赛成功的关键一点,对于队友的选择一般参照如下几点:

2.有一定编程能力的同学,还是需要寻找能够使用python,matlab、R等编程;

3.寻找一些有项目或比赛经验的同学;项目可以是关于数据驱动,CV或者NLP等等,比赛可以是ACM,CCPC,蓝桥杯,数学建模等。

4.可以找一个负责论文撰写的同学(但是不必要)。PS:因为这个比赛时长是一个月,可以有充分时间进行论文撰写,也可以对自身的科技论文写作进行锻炼。