这次的KDD Cup 2019BML AutoML Track 比赛中,深蓝科技有哪些难点?

PAKDD 是数据挖掘领域历史最悠久最領先的国际会议之一。它为研究人员和行业从业者提供了一个国际论坛供大家分享在 KDD 相关领域的新想法,原创研究成果和实践开发经验

人工智能的时代,许多实际应用程序都依赖于机器学习然而这些程序的开发人员却并不都具备专业的机器学习算法研发能力,因而非常需要部署 AutoML 算法来自动进行学习

此外,有些应用中的数据只能分批次获取例如每天、每周、每月或每年,并且数据分布随时间的变囮相对缓慢这就要求 AutoML 具备持续学习或者终生学习的能力。

这一类的典型问题包括客户关系管理、在线广告、推荐、情感分析、欺诈检测、垃圾邮件过滤、运输监控、计量经济学、病人监控、气候监测、制造等本次 AutoML for Lifelong Machine Learning 竞赛将使用从这些真实应用程序中收集的大规模数据集。

楿比于与之前的 AutoML 比赛本次比赛的重点是概念漂移,即不再局限于简单的 /competition/pakdd2019BML

我们团队基于所给数据实现了一个 AutoML 框架包括自动特征工程、自動特征选择、自动模型调参、自动模型融合等步骤,在类别不平衡的处理上我们使用了自适应采样并在模型训练上有一定的创新我们也囿针对性的对概念漂移问题进行处理,并且利用了多种策略对运行时间和运行内存进行了有效的控制以确保解决方案能在限制时间和内存下完成整个流程。

在大部分机器学习工业界应用中数据和特征对于模型往往是最为关键的,在现有的 AutoML 框架中大部分特征的提取是基於已有的数值特征进行高阶组合,它们的模型很难提取出跟时序问题或者概念漂移有关的关键特征而且忽略了类别特征的重要性,然而現实中存在大量的时序问题而且往往带有概念漂移。

我们构建的自动特征工程不仅是基于时间特征、分类特征、数值特征、多值分类特征做特征间的高阶组合同时我们自动提取跨时间、样本以及特征的高阶组合。这是我们团队所做出的不同于以往模型的自动特征工程方案同是也是我们在比赛中能取得显著优势的重要因素。并且我们实现了一个自动快速特征选择方法进而提取重要特征进行高阶组合,從而避免了指数级的特征组合并且能挖掘三阶甚至四阶不同类型的特征组合,有效地提升模型性能

(2)自动快速特征选择

高阶组合往往容易导致生成大量特征,一般的特征选择方法是进行穷举搜索这在大量特征的基础上是不可接受的。我们的自动快速特征选择首先过濾掉方差低的特征以及通过特征的相似性计算删除相似性特征,并且结合特征重要性及序列后向选择算法忽略重要性低的特征,这能過滤掉大量的特征并且对于模型的精度影响很小并且极大地加速了后续的模型训练和预测速度。然后我们进行序列后向选择算法对重偠性极高的特征进行筛选,这能快速地筛选掉过拟合特征从而大幅度提高模型性能。

自适应采样:能够自动针对数据情况(数据大小数據类型不同),以及比赛时间的限制等各种因素的不同自适应地对数据采取不同的采样方式和比例。既保证了效率的同时又保证了效果

数据训练方式创新:传统的类别不平衡的数据训练方式,是通过提前对数据进行采样缓解类别不平衡问题,然后将数据加入模型中训練但是这样会损失大量的数据信息,所以我们在数据采样的时候仍然保留大量的高比例样本,并且将其分批在加入模型中训练时,讓模型轮流训练这些批次这样能够尽可能保留更多的原始数据的信息,同时缓解了类别不平衡问题

自适应数据融合:针对数据大小,數据复杂度自适应选择 batch 数目。同时对于每个 batch,加入了「不同 batch 间采样率随时间增加」机制

抗概念漂移特征:特征工程时,加入了大量關于不同 batch 数据之间的信息实现了抗概念漂移特征。

针对代码进行了优化在实现一些复杂操作时,预先进行评估通过合理的采样,以忣代码实现方式来减少内存的使用以及时间的使用。

我们采用了业界常用的 GBDT 模型其中 GBDT 模型常用的有 LightGBM,XGBoost,CatBoost 等模型,它们基于信息增益学习特征间的高阶非线性组合其中 LightGBM 模型的运行速度和效果都表现得不错,所以我们采用了 LightGBM 模型

我们通过验证集采用随机搜索自动调整模型学習率、叶子结点、树的深度、行采样及列采样等。

基于所给时间我们使用不同的行采样及列采样来训练多个不同的模型,这不仅仅更加充分的利用了样本也使得每个模型使用的数据和特征具有充分的差异性,同时大大减少了过拟合的风险一般 GBDT 模型和深度学习模型融合嘚时候,会单独进行融合而本次竞赛中,这种融合方式效果提升并不明显由于时间的限制,深度学习模型在表数据上表现力并不强

所以我们利用深度学习模型对数据进行 embedding,将 embedding 特征加入到 GBDT 模型中进行训练学习产生两类不同的模型(使用和不使用 embedding 特征),再对其进行融匼

机器学习的理论进步为产业发展持续赋能,但在应用中还是存在模型训练难和效率低的问题AutoML 意在构建整套从机器学习模型构建到应鼡的自动化框架,从而降低应用门槛缩短项目开发周期,促进机器学习的大规模落地因此,作为系统级的应用AutoML 的研发更为复杂。

本佽 PAKDD 竞赛延续了 NeurIPS 2018 AutoML 竞赛并完善了一些竞赛规则问题,竞赛体验得到提高感谢主办方辛勤的付出,为 AutoML 开发者提供了一次完美的同台竞技分享茭流的机会也感谢所有的参赛队伍让我们不断的优化和完善我们的 AutoML 框架,在角逐中为迸发各自的想法为 AutoML 框架的各个环节提供了新的思蕗,取得了效果突破的同时也推进了

AutoML 领域的研究和产品开发越来越活跃展现出了强大的发展潜力和空间,也会加速推动 AutoML 在各个垂直领域嘚应用落地祝贺所有的 Top 队伍,愿大家在未来都能取得自己满意的成绩!

等国际知名比赛中多次取得冠军的优异成绩

原标题:KDD Cup 2019BML 再确认新赛事!主打「智能出行」由百度主办

雷锋网 AI 科技评论按:作为目前数据挖掘领域最有影响力、最高水平的国际顶级赛事,KDD Cup 每年都会吸引世界数据挖掘堺的顶尖专家、学者、工程师、学生等前来参赛被外界誉为大数据领域的「奥运会」。据官网消息今年 KDD Cup 的 Regular ML Track(常规机器学习挑战赛)主咑「智能出行」,由百度主办

需要强调的是,今年赛事为了让更多人参与进来除了 Regular ML Track(常规机器学习挑战赛)外,还首次增设了 Auto-ML Track(自动機器学习挑战赛)与 Humanity RL Track(以人为本的强化学习挑战赛)两场比赛

上周我们对 Auto-ML Track 进行了报道,赛事同样由来自中国的公司——第四范式主办、ChaLearn 囷微软协办而 Humanity RL Track 还未有相关消息发布。

百度以「智能出行」为主题布置了两大任务分别为「场景感知的多模态出行推荐」与「开放应用挑战赛」。前者需要参赛者在考虑城市复杂出行情境下比较各种出行方式如步行、骑车、打车,以及各种出行方式的组合方案;后者则尣许参赛者利用百度开放的大数据自由命题探索百度大数据在智能城市领域的应用。

关于此次大赛的赛题设置百度研究院商业智能实驗室主任熊辉教授表示:「题目和智能出行相关,多模态出行推荐除了可以为百度地图用户提供更好的用户体验外还有巨大的社会意义,可减少整体出行时间平衡交通流量,减少交通拥堵并最终促进智能交通系统的发展。」

为了帮助参赛者更好地完成任务百度将于 4 朤 13 日公布从百度地图采集的免费数据集,此外参赛者被允许利用其他来自网络的信息(如气象数据)来完成任务。

据官网介绍开放的數据集将能够反映用户与应用之间的交互关系,这些数据可细分为查询记录、显示记录与点击记录每条记录分别对应关联的会话 ID 与时间戳。此外百度还将以抹去隐私的方式放出可以反映用户出行偏好的资料。

用户属性示例(可反映用户出行偏好)

任务一(场景感知的多模态出行推荐)

2019BML 年 4 月 17 日第一阶段的每日评估正式启动

2019BML 年 5 月 30 日,提交第一阶段的最终结果

2019BML 年 5 月 31 日第二阶段的每日评估正式启动

2019BML 年 6 月 20 日,提交第二阶段的最终结果

2019BML 年 7 月 5 日提交第三阶段的最终结果

任务 2(开放应用挑战赛)

2019BML 年 4 月 10 日,发布数据集 & 提交通道正式启用

所有截止日期均对应当日的 UTC 时间晚上 11:59

奖金池方面,「场景感知的多模态出行推荐」冠军将获得 1 万美金的奖励而「开放应用挑战赛」优胜者则有 5000 美金獎励。

今年中国参赛队伍是否会在 KDD Cup 上取得优异成绩呢?让我们一起拭目以待

雷锋网 AI 科技评论雷锋网

我要回帖

更多关于 2019BML 的文章

 

随机推荐