《数据竞赛白皮书》:竞赛管理系统加速数据竞赛平台化
前不久,在大数据系统软件国家工程实验室的指导下,和鲸科技携旗下数据竞赛平台Kesci联合AWS发布了《数据竞赛白皮书》。白皮书通过1000余份问卷调研、1000余场竞赛数据、几十位行业专家及企业办赛负责人的访谈、超过1200小时的分析研究、近50000字的内容输出、80个可视化精美图表,以全新的视角为我们全景展现了数据竞赛行业。
白皮书分为《数据竞赛白皮书·上篇·1000场竞赛的深度分析》和《数据竞赛白皮书·下篇·办好一场竞赛的实操手册》两部分,以下是小编截取的部分内容,分享给大家~
数据竞赛平台化,加速资源的汇聚
数据竞赛发展的里程碑绕不开 Kaggle,除了国际性的市场影响力和知名度外,Kaggle 更是为数据竞赛的平台化发展奠定了模式的基础。
创立于 2010 年的 Kaggle 是目前全球最大的数据科学技术分享社区和第三方数据竞赛平台,面向全球用户累计举办竞赛近 400 场 (含练习赛和自营赛),社区活跃用户逾百万。各类赛事主办方基于不同的目标通过 Kaggle 发布与数据相关的难题,悬赏吸引全球的数据科学人才参与竞赛。
在发展初期,Kaggle 聚集了一大批数据科学人才,形成了讨论氛围浓厚的数据集、代码与技术分享社区,并在此基础上开始逐渐发展数据竞赛服务。围绕着数据科学,Kaggle 做出了诸多努力和尝试,平台功能也日益完善,目前包含竞赛、数据集、开发工具三个子平台,配套论坛和招聘服务两大模块,逐渐发展成为连接数据科学人才和数据科学应用场景双方共同致力于数据科学创新探索的工具性平台。
尽管中国市场起步较晚,但越来越多的企业、高校、科研机构和政务部门开始意识到数据竞赛是进行品牌宣传、人才选拔、算法创新的一种高效形式,因此投身数据竞赛的姿态愈发积极。在此背景下,中国市场也顺势崛起了一批数据竞赛平台,凭借在资源整合、场景挖掘、工具开发、成果封装等方面的专业服务能力和经验推动着中国数据竞赛的专业化发展,并开始探索区别于 Kaggle 的差异化发展道路。
竞赛工具支撑,让竞赛更安全
数据竞赛的组织具有较高的技术难度,从最初要求顺畅地跑通竞赛全流程,到能够进行云端协同开发,再到保障日益敏感的数据安全,越来越多的问题有赖于产品工具的功能保障。
(1)竞赛工具 1.0 时代——数据竞赛系统
数据竞赛系统是数据竞赛最基础的工具系统,为了实现对数据竞赛全生命周期的管理。作为连接参赛选手、赛事运营管理者和赛事主办方的线上桥梁,其功能覆盖竞赛页面信息配置、竞赛任务发布、评审系统设置和参赛成果统计等方面,目标是提高赛事运营管理者工作效率,便于赛事主办方了解赛事进程。
数据竞赛的公平性在很大程度上有赖于评审环节是否妥当,而评审又涉及复杂的算法和规则:既要保障不同复杂程度的客观评审规则的自动化执行,又要对主观评审的分工权重与规则做出合理呈现,也能对多次提交和赛程各阶段的结果实现高效处理和统计, 及时反馈报错信息或得分情况,可以说评审系统是整个竞赛系统开发的难点和重点。
(2)竞赛工具2.0时代——数据竞赛系统+数据科学协同平台+ 云计算
在企业上云和协同开发的趋势下,竞赛工具 2.0 时代迎来了数据科学协同平台的整合。通过实现在云端协作进行数据分析和算法建模等工作,让数据竞赛真正贴近业界实际的数据科学研发场景。
目前全球范围内接受度较高的工具包括国外的 Jupyter Notebook、Kaggle Kernels、Google Colab,以及国内的 K-Lab。在数据竞赛环境中需要至少满足三个方面的要求:提升效率,令参赛选手更加专注于开发本身;加强协同,为参赛团队打造交互式体验;弹性调度云计算资源,降低算力应用门槛与成本的同时,也让比赛更公平更有效。
(3)竞赛工具 3.0 时代——数据竞赛系统 + 数据科学协同平台 + 云计算 + 数据安全
在大数据产生巨大社会价值的同时,一次次的数据安全事故也引发了全社会的担忧。数据竞赛作为数据公开应用的大规模尝试, 数据安全的保障更是重中之重。除了采用数据脱敏等传统手段外,通过竞赛工具的技术功能来保障数据安全也日益受到重视。
数据竞赛各环节的工作内容,展示了数据科学研发的项目所需具备的基础能力。通过数据、云计算、人工智能技术、数据科学人才的连接,数据竞赛在帮助赛事主办方探索创新方向、树立技术驱动的品牌形象同时,也在为其在内部积累数据、治理数据、应用数据提供了全流程的借鉴。
相关文章:
相关推荐:
网友评论: