饿了么数据仓库与数据挖掘治理及数据使用

966,690 十二月 独立访问用户
语言 & 开发
架构 & 设计
文化 & 方法
您目前处于:
ArchSummit 在InfoQ上的内容
如何打造一场戈尔式的精彩演讲1
专业培训课程我们邀请到的培训师是世界500强企业培训经理,CIPMT国际职业培训师晓慧。晓慧拥有6年专职培训经验,曾为来自15个国家的1400多名学员培训,具有非常丰富的实战经验。培训课程晓慧给我们带来的是《如何打造一场戈尔式的精彩演讲?》,相信通过这次课程的学习后,ArchSummit的讲台上处处都是戈尔的身影,您是不是很期待呢?
演讲的结构
纵使有最专业的培训师,没有技术界大牛的实际经验之谈是不是感觉有些单调呢?不用担心,主办方总是用心打消大家的所有疑虑,本次培训我们邀请了技术界红人段念从自身经验为各位讲师讲解技术听众的需求。段念老师带来的培训演讲是《演讲的结构——技术人员眼里的演讲》。段念老师是技术界的红人,无须多做介绍,有段念老师加盟主办方也表示很放心呀。
如何打造一场戈尔式的精彩演讲 3
专业培训课程我们邀请到的培训师是世界500强企业培训经理,CIPMT国际职业培训师晓慧。晓慧拥有6年专职培训经验,曾为来自15个国家的1400多名学员培训,具有非常丰富的实战经验。培训课程晓慧给我们带来的是《如何打造一场戈尔式的精彩演讲?》,相信通过这次课程的学习后,ArchSummit的讲台上处处都是戈尔的身影,您是不是很期待呢?
如何打造一场戈尔式的精彩演讲 2
专业培训课程我们邀请到的培训师是世界500强企业培训经理,CIPMT国际职业培训师晓慧。晓慧拥有6年专职培训经验,曾为来自15个国家的1400多名学员培训,具有非常丰富的实战经验。培训课程晓慧给我们带来的是《如何打造一场戈尔式的精彩演讲?》,相信通过这次课程的学习后,ArchSummit的讲台上处处都是戈尔的身影,您是不是很期待呢?
航空电商大规模实时日志分析
如何通过对恶意用户的行为分析建模,实时对恶意行为进行封杀,解决困扰航空电商已久的用户恶意占座行为,是航空公司互联网销售非常关心的问题。本次演讲我们将详细介绍海南易建科技股份有限公司在大数据恶意行为防护方面的尝试。
开源数据库在企业中的应用
在云计算不断发展的今天,越来越多的企业将业务从原有的 IDC 机房搬到云上。不管是持续地发布自己的产品,还是稳定地维护云上的应用,都面临着挑战。那么,如何在云上高质量的持续交付?Docker 技术对开发效率又带来了怎样的革命?刘昕将分享,在云计算平台上,利用 Docker 技术将应用持续的交付和发布的过程。(幻灯片中的部分图片摘自网络)
QQ空间面向移动时代Hybrid架构设计
社交网络日新月异,需要更快,更灵活的技术架构才能满足用户日益丰富的媒体需求,Hybrid App架构具备了快速发布的能力,同时也有更接近Native的流畅体验以及性能;
本次分享主要介绍QQ空间Hybrid架构,包括如何提高H5页的加载速度以及稳定性,以及使用React Native如何提高体验,改善性能。
演讲就是讲个好故事
如何做一场技术分享,在有过多次技术大会分享经验的池建强看来,演讲的关键在于如何讲好一个故事,伟大的演讲与电影剧本常常很相似。此外,池建强还谈到了如何充满气势的演讲,并逐步形成自己的风格。此外,他还介绍了许多幻灯片的制作技巧。
容器时代的云计算
在容器技术飞速发展的今天,我们应怎样看待传统的私有云构建思路?在几家独大的公有云世界,是否会诞生新的挑战者?OpenStack已发展5年多了,存在哪些问题?基础设施层应如何更好地支持容器化的应用?云计算和容器技术将会如何融合?云计算先驱,Rancher Labs 和 CloudStack 创始人梁胜将分享云计算在容器时代的发展趋势。
高德亿级用户系统云化实战
高德是中国领先的数字地图内容、导航和位置服务解决方案提供商。在移动互联网领域,“高德地图”和“高德导航”两款移动客户端应用全面覆盖iOS、Android、Windows Phone三大主流操作系统。用户过亿的“高德地图”App占中国手机地图市场份额第一。
运营商云计算实践
在云计算、大数据等新兴技术带来的IT变革浪潮下,浙江移动做为运营商中较为领先云计算实践先行军,不断推进云计算落地,实践中有收获也有困惑,本次演讲想与业界同行分享浙江移动在云计算实践过程中的一些困惑、思考和经验,同时也希望在本次大会中学习业界领先者的经验,获得启示。
利用云服务搭建高可用的系统架构
本演讲会分享业务量从每天100w点击增长到1亿每天的过程中,我们是如何利用云服务,搭建系统架构,实现高性能,高可用性的要求。
& 加载更新的 演讲
加载更多 演讲 &
架构 & 设计
文化 & 方法
<及所有内容,版权所有 &#169;
C4Media Inc.
服务器由 提供, 我们最信赖的ISP伙伴。
北京创新网媒广告有限公司
京ICP备号-7
注意:如果要修改您的邮箱,我们将会发送确认邮件到您原来的邮箱。
使用现有的公司名称
修改公司名称为:
公司性质:
使用现有的公司性质
修改公司性质为:
使用现有的公司规模
修改公司规模为:
使用现在的国家
使用现在的省份
Subscribe to our newsletter?
Subscribe to our industry email notices?
我们发现您在使用ad blocker。
我们理解您使用ad blocker的初衷,但为了保证InfoQ能够继续以免费方式为您服务,我们需要您的支持。InfoQ绝不会在未经您许可的情况下将您的数据提供给第三方。我们仅将其用于向读者发送相关广告内容。请您将InfoQ添加至白名单,感谢您的理解与支持。大数据(2)
http://geek.csdn.net/news/detail/103266
【SDCC 现场报道】日-23日,由CSDN重磅打造的在杭州隆重举行。这两场峰会大牛讲师来自唯品会、小米、蘑菇街、饿了么、有赞、游族、echo、In、万达、百度、苏宁、蚂蚁金服、京东、网易云、 1药网、 腾讯、美团等知名互联网公司,共同探讨海量数据下的应用监控系统建设、异常检测的算法和实现、大数据基础架构实践、敏捷型数据平台的构建及应用、音频分析的机器学习算法应用等内容,以及高可用/高并发/高性能系统架构、电商架构、分布式架构等话题与技术。
在第一天的大数据核心技术与实战峰会上,由来自唯品会、小米、蘑菇街、饿了么、有赞、游族、echo、In、万达的资深专家分享了各自在大数据领域丰富的实战经验。
上午9:00,大数据核心技术与实战峰会正式开始。首先,由本次会议的独家合作伙伴UCloud的杭州分公司架构部负责人林超发表致辞,他介绍了大数据市场火热的发展前景,并预祝本次大会圆满成功。
UCloud杭州分公司架构部负责人 林超
随后,本场峰会主持人七牛云技术总监陈超对本次会议主题及内容专家做了介绍,在他的引导下,与会者一同简单回顾了SDCC往届大会及峰会的精彩历程,SDCC成都站之行的火爆让现场观众对本次大会的顺利展开更是充满期待。
七牛云技术总监 陈超(左)
唯品会平台架构部高级架构师 姚捷:大型互联网公司海量数据下的应用监控系统建设
唯品会平台架构部高级架构师姚捷在本次架构峰会上带来的是《大型互联网公司海量数据下的应用监控系统建设》主题分享,他结合唯品会面对支撑海量数据和新业务的挑战的实践,探索大型互联网公司海量数据下的应用监控系统建设之道。主要从大型互联网公司应用监控系统的几大组成部分、应用监控系统的架构实践、如何应对海量的数据、如何实现治理、如何实现自监控这五个角度展开,分享了唯品会在经历了Logview之痛后,转而寻求新方向,独立研发应用监控系统的过程中,积累的丰富经验以及当中踩过的一些坑。
首先,姚捷阐述了在选择自建平台的过程中所考虑的因素:
系统复杂海量数据自建服务化体系监控高度可治理快速接入/升级便捷灵活的告警策略/高效告警与公司体系无缝对接
唯品会平台架构部高级架构师 姚捷
此外,他还分析了完整的全链路监控系统
数据埋点/采集 指标计算指标存储/查询/展现调用链存储/查询/展现告警/问题定位自监控治理
小米商业产品部技术总监 宋强:小米广告大数据与算法实践
小米商业产品部技术总监宋强分享了《小米广告大数据与算法实践》的主题演讲,主要从小米大数据和小米广告平台、小米广告大数据应用实践,以及经验总结这三个方面进行分享,分别介绍大数据在小米广告平台的各种实践,包括收入提升、广告主优化、用户体验优化等。
小米商业产品部技术总监 宋强(右)
首先,他在第一个部分讲解了小米广告平台的架构:
在演讲最后,宋强结合前面的实践和踩坑分享,做了一些经验总结:
业务相关的用户行为特征一般来说最有效
用户在商店的安装列表 vs 用户的年龄性别
保持数据的“原汁原味”,二次加工反而容易丢失信息
用户浏览记录 vs 用户画像兴趣标签
组合特征才能发挥最大威力
线性模型&#43;组合特征效果很好
离线实验了FM等非线性模型,效果不明显
线性模型&#43;深度模型是未来的方向
正在线下实验,已经看到一些效果
蘑菇街实时计算平台经理 黄大鹏:蘑菇街实时数据平台实践
蘑菇街实时计算平台经理黄大鹏在本次演讲中呈现的分享主题是《蘑菇街实时数据平台实践》。着&#30524;于蘑菇街的实时数据平台,结合实时数仓的建设经验,分析其建设中涉及的关键技术选型思路与,主要分享内容涉及蘑菇街实时计算平台Mario,数据链路的治理和不同的应用场景的介绍。
蘑菇街实时计算平台经理 黄大鹏
鉴于Storm任务开发维护难度相对较大、统计逻辑可读性差、大量统计任务,以及基础统计方法非常相&#20284;等因素,Mario流式计算平台应运而生。黄大鹏在演讲过程中对其系统架构进行了分析:
在介绍最后一部分内容时,他阐述了实时数仓管理的要点:
ETL的管理数据接口层数据质量监控日志打点
其中,实时数据ETL包括:
大日志拆解成小日志,各取所需,合并同类项非结构化转为结构化日志质量监控生存周期管理
同时总结了日志打点的经验:
顶层设计,统一认知;合作共建,及时见效;接口人制度。
饿了么数据架构技术经理 倪增光:饿了么大数据基础架构实践
饿了么数据架构技术经理倪增光在本次演讲中带来《饿了么大数据基础架构实践》的主题分享,结合“饿了么”数据团队的发展历程,侧重分享其数据架构在离线、实时和工具方面的建设经验。
饿了么数据架构技术经理 倪增光
首先,他详细讲解了“饿了么”的离线架构和实时架构:
随后,他还围绕平台工具展开了一系列分享:
多引擎数据操作底层策略
任务底层工具support前端操作后端调度优化
实时平台RDP
集群容量任务管理任务日志常用组件封装
至此,本次峰会上半场在热烈的氛围中暂告一段落,接连超过三个小时的分享并未影响与会者的参与热情,相反,大牛们的精彩分享反而再一次点燃了大家的情绪,现场互动气氛一度高涨。
短暂的休息之后,我们迎来了本场大数据核心技术与实战峰会的下半场。下午13:30,大数据核心技术与实战峰会在七牛云技术总监陈超的主持下继续进行。来自有赞、游族、echo、In、万达等资深专家分享在大数据领域的众多实践经验。
午后的困顿也在讲师们的幽默调动下一扫而空,上半场的互动热情延得以延续,一问一答间,尽是技术灵感的碰撞,亮点纷呈,干货不断。
有赞大数据团队负责人 洪斌:有赞大数据实践: 敏捷型数据平台的构建及应用
有赞大数据团队负责人洪斌带来《敏捷型数据平台的构建及应用》的主题演讲,从数据仓库模型与工具、数据仓库与数据分析、数据平台的敏捷模式、数据平台与信息检索等方面入手,为观众呈现了一个接地气的,在数据运营和研发效率上都能发挥作用的大数据平台。
有赞大数据团队负责人 洪斌
首先,洪斌介绍了有赞数据平台的设计思路和方法,探讨了与此相关的一系列问题,包括我们为什么要设计数据仓库?数据仓库如何适应业务的变化?在数据的易用性方面有哪些措施?随后,他介绍了构建在数据仓库上的BI系统及其应用,以及大数据平台在搜索引擎方面的实践。
在讲解数仓模型设计总体架构的过程中,他还特别介绍了采用的数据分析工具,并提供了数据分析各种工具的对比列表,同时指出其中最常用的当属即席查询:
数据分析工具
即席查询工具多维分析工具搜索分析工具报表系统
使用者: 数据分析人员SQL模式特点
懂数据懂业务
游族网络运维开发经理 姚仁捷:Machine Learning in Anomaly Detection
游族网络运维开发经理 姚仁捷分享了《Machine Learning in Anomaly Detection》的主题分享。正式开始演讲之前,他以诙谐的口吻和在座观众分享了自己的日常,成功调动了大家的情绪,活跃了现场气氛。随后,由一组图片引入“异常”——“正常”的逻辑关系分析,引用《Practical Machine Learning》一书中的观点,指出定位异常的前提是定义何为正常,同时分享了两个等式:
Normals = PatternsNormals = Models
发现问题、解决问题是运维永恒不变的两个主题。而如何发现问题,是其中的难点和重点。运维收集的数据可能数以百万计,如何从其中快速、准确地发现问题(即异常检测)正是本次演讲的主要内容。
游族网络运维开发经理 姚仁捷
演讲有三个部分,首先从更加抽象、一般性的角度介绍异常本身以及异常检测的定义。
然后,从“静态阈&#20540;法”开始,介绍多种异常检测的算法和实现,希望能通过更数学的方式,让大家对目前流行的几种异常检测方法的优缺点有所了解。
在这一部分提供了重建的误差分析图,以及误差的正态分布表:
最后一部分会着重介绍使用机器学习的方法,介绍一些对异常检测有很大提升的算法,通过真实数据和例子,演示机器学习对于异常检测的帮助。由深入浅的分享过程,正对应了他在演讲中多次笑言的那一句“超简单”。
echo数据组算法工程师 陈健:echo探索个性化推荐和版权识曲之路
echo数据组算法工程师陈健带来《echo探索个性化推荐和版权识曲之路》主题分享,从echo个性化推荐和echo音乐分析两方面展开,分析如何处理隐式音乐App等隐式数据来进行矩阵分解、如何在Spark上并行logistic matrix factorization来处理超大的稀疏矩阵、音乐分析综述,以及如何通过频谱抽取音频本地特征并根据深度学习等算法学习全局音频的特征。
echo数据组算法工程师 陈健(右)
首先,他具体阐释了通过App用户的播放、喜欢、分享、下载、评论等行为隐式数据,使用logistic matrix factorization模型,获取用户的特征向量和音乐的特征向量的方法,并对隐式反馈数据做了介绍:
隐式反馈数据
无负反馈反馈数据存在多种维度数据存在噪音数据大小不能代表用户的喜好程度
观测&#20540;
此外,为了检测用户上传的歌曲是否属于未收录版权的歌曲,通过分析音乐的音频,进行频谱变换以及特征学习,生成对应的音频指纹。然后根据音频指纹判断用户上传歌曲是否侵权。音频指纹流程如下:
In架构师 张毅:支持亿级用户,In数据服务的架构演进
In架构师张毅本次峰会的演讲主题是《支持亿级用户,In数据服务的架构演进》,分享了in数据服务(即大数据)从初创到支持亿级用户, 从单点服务到高可用集群服务, 从简单CRUD到融合实时大数据挖掘推荐的演变过程, 以及这一过程中的经验和教训等实践细节。
以架构演进为蓝本,首先从in的业务组成出发,再到in的数据服务,最后到in的数据服务架构演进硬件网络拓扑结构,一步步讲解亿级用户下,In大数据的架构。
In架构师 张毅
演讲过程中,他从In第一代数据服务讲起,分析历代数据服务的有点和局限性,其中第三代为In现在所采用的数据服务:
数据量和访问量激增基于大数据的推荐
数据服务设计原则
业务满足优先大幅重构满足长远需求
数据服务组成:
存储: MySQL, BanyanDB, 数据仓库计算: Spark流转: Flume, ELK, RunDeck
数据服务架构:
支持中等规模大数据处理自动化水平大幅提升
大规模大数据处理能力不足访问接口复杂, 对业务方要求较高
同时他还指出,目前正处于第三代向第四代迁移的过程中,而In第四代数据服务的设计目标是:
支持大规模大数据处理建立统一数据访问层
演讲最后,张毅对本次分享内容做了一个总结:
按需设计, 保持模块间低耦合状态;服务逐步叠加, 减少杀鸡用牛刀的设计;业务变化速度总是超出预期的, 数据服务架构需要保持扩展能力并不断重构。
万达金融网络技术中心大数据技术专家 李呈祥:Apache Flink在万达金融的实践
万达金融网络技术中心大数据技术专家李呈祥带了主题为《Apache Flink在万达金融的实践》的技术分享,他主要从万达金融基于Apache Flink相关的项目、为什么选择Flink搭建流计算平台、在使用Flink的过程中遇到的问题和一些使用经验三个方面进行分析,结合Apache Flink在金融领域的应用实践,指出Apache Flink的功能特性及其与其他流计算框架的不同之处。
万达金融网络技术中心大数据技术专家 李呈祥
演讲开始之初,他首先介绍了万达金融基于流计算平台的项目:
数字权益交易平台
实时风控平台基本架构实时风控计算平台设计指标
同时,他阐释了选择流式计算平台的原因包括:
正确性,交易平台要求各阶段的输出结果绝对正确;功能完备性,各种复杂的行情统计功能,需要基于Event Time Window、Evictor等功能特性;低延迟,要求100ms级别的延迟,实时返回风控结果;易用性,基于CEP库等实现规则模型;高吞吐量,满足大批量的数据索引需求;易用性,ES Connector等可方便连接ES。
此外,李呈祥还从功能特性、延迟和吞吐量等性能指标出发,分析对比Flink、Spark和Storm,进一步揭示万达选择Flink搭建流式计算平台的原因:
在最后一组问答中,本场大数据峰会也接近尾声,与会者在此通过SDCC的平台进行交流切磋,在get丰富干货的同时,更是表达了对明天架构峰会的更高期望。
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:472710次
积分:7362
积分:7362
排名:第2338名
原创:92篇
转载:1205篇
评论:83条
1)OpenCV俱乐部
2) 视频/音频/图像/算法/ML
备注:加群需要回答问题,避免广告党。
如果你是博客看到后加的,请注明“博客”并回答问题,只注明”博客“不回答问题的恕不加入。答案为和群相关的任何技术名词,不能出现1)和2)中的任何字&#30524;
阅读:1770
文章:16篇
阅读:3372
阅读:1143
文章:32篇
阅读:13095
(16)(18)(42)(70)(118)(143)(56)(68)(107)(226)(78)(3)(9)(37)(46)(50)(19)(15)(13)(27)(12)(12)(103)(18)(18)数据仓库工程师
[5-10年经验]
公司名称:饿了么
工作地点:上海市普陀区
一、工作职责
1、负责海量数据整体架构设计与数据架构管控,根据具体业务和产品对数据模型进行统一分析和规划;
2、负责ETL流程优化、关键问题解决、团队技术分享与引导和前瞻性技术研究;
3、参与产品设计评审,指导数据仓库工程师,保障数据平台架构稳定性。
二、任职要求
1、本科以上学历,3年以上数据开发工作经历;
2、2年以上Hadoop相关开发经验;熟悉数据仓库各类建模理论,以及数据仓库数据层级关系,精通3NF和多维数据模型设计;
3、具备大型数据仓库架构设计、模型设计和处理性能调优等相关经验;
4、熟悉Teradata、Greenplum、Oracle等主流数据仓库模型设计之一,有分布式计算平台(Hadoop,Hive)经验者优先;
5、优秀的协调沟通与团队协作能力,愿意专注于数据平台/数据模型领域;
6、有互联网经验,熟悉电商、O2O等企业的数据中心搭建方法。
提示:以任何名义向应聘者收取费用的职位都属于诈骗(如打字员、兼职淘宝刷砖),请用户提高警惕!
上海市普陀区
提示:此为公司地址,请以工作地址为主
详细工作地址
关注我们&&

我要回帖

更多关于 数据仓库 培训 的文章

 

随机推荐