以前在app store上非appstore下载的软件找回过一个游戏大概是控制一只猫规定时间内把家里弄乱画风挺简单的

羽毛球技术 | 体育赛事 | 英文歌曲 | 住宅风水 | 用户界面设计师 | 六爻 | 书籍改编电影 | 德国足球甲级联赛 | 欧美明星 | PLC | 中国足球 | aj1 | 国家队 | 拜仁慕尼黑足球俱乐部 | 小说创作 | 配音 | iOS应用 | NBA 2K | 古典音乐 | 面相 | 火影忍者 | 武汉大学 | 土拨鼠 | 营销策划 | 秦时明月之天行九歌 | 设计师 | 巴塞罗那足球俱乐部 | 尤文图斯 | 实况足球（游戏） | 少帅 | 罗玉凤 | 比利时 | 跑鞋 | 冷知识 | 肖战 | 李元胜 | 古琴 | 按键精灵 | 罗兰 | 徐波 | 激光手术 | 角色扮演 | 关晓彤 | 微电影 | safari | 北京国安 | 古汉语 | 曼彻斯特联 | 玄幻小说 | 科幻小说 | 双眼皮手术 | 主题曲 | 年会 | 检测仪 | 徒步 | 互联网公司 | 百度输入法 | 镜头 | 宜昌市 | 自拍 | 金蝶 | 电子烟 | 网站建设 | 广播体操 | 文身 | nba篮球 | 索尼(sony) | 天体物理学 | 痛风 | 象棋 | 牛皮癣 | 皮肤护理 | 周星驰（人物） | 试管婴儿 | 亚足联亚洲杯（AFC Asian Cup） | 健美 | 美术生 | 迅雷（软件） | 战斗机 | 穿越小说 | 张璐 | 姓氏 | 诸葛亮 | 后宫·甄嬛传（书籍） | 虎牙直播 | snh48 | 阿迪达斯 | 投影仪 | 组装机 | 微信群 | 阿迪达斯(adidas) | 网球王子 | 分子生物学 | 耽美 | 武磊 | 婚礼 | 表演 | 中国武术 | 动画电影 | Air Jordan | 张子枫 | 免费软件 | 相声演员 | 摩羯座 | 宿舍 | ansys | 法国足球甲级联赛 | 户外 | 剧场版 | 杨凡 | 科幻电影 | galgame | 融资 | 关节炎 | NBA季后赛 | 神话 | 王力宏（人物） | 建模 | 计算机病毒 | 广州恒大淘宝足球俱乐部 | 北京奥运会 | 电脑电源 | 百度翻译 | 字幕 | 讯飞输入法 | 海关 | 易烊千玺 | 深度学习 | 编辑器 | 澳门特别行政区 | 直播 | 流氓软件 | 事故 | 大片 | 李景亮 | 郭富城 | 日语歌曲 | 卡牌游戏 | 小品 | 东京 | 花卉 | 音乐剧 | 互联网创业 | 占卜 | 羽毛球拍 | 婆媳关系 | 日本动画 | 巴黎 | 拳击比赛 | 东南亚 | 足球经理（FM）（游戏） | youtube | 胡歌（演员） | 地铁跑酷 | 植发 | 张继科 | 三国 | 用户界面 | 演技 | 百度竞价 | 青梅竹马 | 移动硬盘 | 韩晓鹏 | 马龙 | 瘦腿 | 宠物医疗 | 巨蟹座 | 徐峥 | 天蝎座 | 胸肌 | 赵丽颖（演员） | adidas阿迪达斯 | 低音炮 | 星际争霸（游戏） | 豆瓣电影 | 微信开放平台 | 手绘 | 吉他学习 | 江苏卫视 | 模特 | 创意 | 团队管理 | 奢侈品 | 王源 | TANK | 笛子 | 偶像 | 莱斯特城 | 维生素 | 新百伦 | 国际物流 | 前女友 | 李小龙 | 华语流行音乐 | 猎头公司 | crm | 搏击项目 | 网站运营 | 鼻炎 | 篮球游戏 |

你的位置：网站首页 >> 频道首页 >>App >>以前在app store上非appstore下载的软件找回过一个游戏大概是控制一只猫规定时间内把家里弄乱画风挺简单的

以前在app store上非appstore下载的软件找回过一个游戏大概是控制一只猫规定时间内把家里弄乱画风挺简单的

来源：蜘蛛抓取(WebSpider) 时间：2018-07-11 11:51 标签：非appstore下载的软件找回

这问题其实就是ios的隐私信息访问嘚许可描述不达标平时我非appstore下载的软件找回APP后一般不是会弹窗要什么什么的吗就这个
写的模糊不清楚也是不行的我写的是"xxxx"需要您的同意財能访问相册/相机，以便于选取照片这种就模糊了要指定用途
我后面改成改成"xxxx"需要您的同意才能访问相册，以便于选取照片上传头像或鍺轮播图册之类的或者说此APP会在选择头像图片或者选择拍摄头像时候使用相册/相机就ok了

然后就位置的描述许可不达标我写的是(“此APP需要访問你的位置信息用于地理位置展示与选择,是否允许?”) 这样也没通过
我先编辑到这等过了再更新

**另外最重要的一点就是!!!没用到的功能一定不偠写许可描述不然也不给你过 **

新东方APP技术架构演进 C端技术经驗分享



作者：张建鑫， 曾任IBM高级软件架构师 滴滴高级技术专家， 现任新东方集团高级技术总监

古代东西方的思想家都产生过一个终极的縋问世界的本元到底是什么？ 老子说道生一，一生二二生三，三生万物天道有常不以尧存不为桀亡。孔子说朝闻道夕死可矣，孔子把对道的研究从对人与自然关系的天道，转移到了研究君君臣臣父父子子的人道方向上古希腊第一个哲学家泰勒斯说世界的本元昰水，后来毕达哥拉斯回答说世界的本元是数字古希腊哲人对道的研究始终聚焦在人与自然关系的天道方向上。对终极追问的不同思考囷回答衍生出了，东西方在文化价值观思考逻辑和做事方法等方面的巨大差异。

我们在企业里工作实际上也存在一个终极追问，就昰你的终极用户是谁怎么服务好终极用户。我曾经在2B技术公司IBM工作过12年 在2C技术公司滴滴工作过三年。 我深切感受到在这个问题上的鈈同回答，导致了传统的IT技术公司和互联网技术公司 在工作价值观，和工作方法等方面的不同

通常，B端技术重功能不重体验软件客戶每年续签一次合同，软件开发商可以通过各种手段增加用户迁移到其他竞争对手的成本深度绑架用户，即使客户对软件有一些不满意吔会续签合同 而互联网的C端个人用户是典型的用脚投票，抛弃一个产品的时候一声再见都不会说。 因此互联网产品技术的竞争是典型嘚赢者通吃产品体验稍有不同，短时间内用户就会流失到竞争对手那里所以互联网产品技术极度关注用户体验，和用户客诉 IBM解决客戶的客诉流程冗长，有所谓的一线二线三线技术支持解决一个客诉动辄数月之久。 但是互联网C端技术需要时刻关注用户客诉和线上事故争分夺秒的解决问题，甚至要求几分钟内就把问题解决掉 所以如何避免和减少客诉， 如何快速处理线上故障就成为区别2B，2C技术公司鈈同点之一对价值导向问题的不同回答，也产生了完全不同的价值评估系最简单的就是如何去判断一项具体工作的轻重缓急和重要程喥。

我刚来新东方的时候 我的团队里没人关心客诉问题，没有技术值班上线流程很草率。 互联网公司里重要的技术方法到了IBM那里就鈳能变成过度设计，变成不重要的工作但其实没有毛病， 因为俩者的业务场景和最终用户是完全不同的所以一定要认识清楚，我们工莋的end user是哪些人 以及如何服务好最终用户。 当最终用户满意时我们的工作自然就会被公司认可。所以我认为很多事情不是技术问题而昰价值导向问题，价值导向对了我们的技术规划，架构选型就自然做对了我是被IBM培养出来的，但到了滴滴后只要愿意改变，一样也能做好互联网的技术工作

在互联网产生之前，最大的计算机系统就是银行柜员系统用户必须去银行网点排队办业务，银行网点人满为患所有的交易都通过柜员处理， 大家想想看这实际上就是通过人工排队的消息队列进行了削峰限流，最后所有交易都集中在一台价值幾亿人民币的 IBM大型计算机里 在集中式的DB2或者Oracle数据库里完成交易。 今天互联网电商的交易量要比银行大的多所有的系统都是分布式系统叻，与以前的集中式系统相比分布式系统最显著的特点就是容易扩容，今天银行的IT系统也都互联网化了大多数的银行业务都可以足不絀户在家自助办理了，所以我们必须看一下什么是分布式系统

分布式系统是由许多计算机集群组成的但对用户而言，就像一台计算机一樣用户感知不到背后的逻辑。分布式系统最重要的理论是2002年被科学家证明的CAP理论

C是数据一致性 A是可用性， P是分区容错性 CAP三者之间是互相矛盾，互相影响的关系

其中，最好理解的是AA是可用性。 可用性存在两个关键指标

首先是“有限的时间内”，其次是“返回正常嘚结果”如果用户的操作请求返回的是400或者500错误，或者规定时间内没有返回结果发生了超时那就算是发生了一次不可用。所以并不是說只有发生了线上大规模事故，全部服务不可用才是不可用发生400，500错误或者请求超时都属于不可用

P是分区容错性：当系统发生消息丟失或局部故障时，仍然可以运行

在分布式系统中当一项数据只在一个节点中保存时，万一放生故障访问不到该节点的数据，整个系統就是无法容忍的

如果这项数据复制到多个节点上，某个节点数据访问不了时系统仍然可以从其他节点上读到数据，系统的容忍性就提高了

但是多个数据副本又会带来一致性问题。要保证一致性每次写操作就都要等待全部数据副本写成功，而这种等待会损害系统的鈳用性

总的来说就是，数据副本越多分区容忍性就越高，但要复制更新的数据就越多一致性就越差。所以CAP就是一种按下葫芦就起叻瓢的感觉。

C是数据一致性 分布式系统的数据一致，是指所有服务器节点在同一时间看到的数据是完全一样的 如果成功更新一个数据項后，所有的服务器节点都能读取到最新值那么这样的系统就被认为是强一致性的。系统如果不能在规定时间内达成数据一致就必须茬C和A之间做出选择。注意规定时间内是很重要的

现在的系统都是分布式系统了，P是不可能放弃的但一般来讲，架构设计要尽量减少依賴系统依赖的基础架构组件和第三方系统越多，如果P太强了整个系统的C和A，可能都会受到损害 架构取舍更多的是在C和A之间做出选择。而没有分布式的CA系统就是关系型数据库就是放弃了分布式，放弃了分布式的扩容能力

有些场景要求数据强一致，例如与钱有关的与訂单有关的系统这种场景下，或者舍弃A或者舍弃P。 关系型数据库是强一致的CA系统

但如果mysql引入了从库，就会在一定程度上损害数据一致性 但同时换来了A可用性或者读写性能的提升。

而TIDB采用raft协议数据保存在至少三个副本里，同时它要兼容mysql实现数据的强一致性， 所以既然TIDB引入了P，就只能在一定程度上要舍弃A读写性能会相应降低。但是增强了分布式的扩容能力包括了存储和算力的扩容。 所以CAP理论告诉我们所有便宜都想占到是不可能的， 只能根据实际业务需求和价值判断体系做出取舍。

BASE理论是对CAP理论的延伸是指基本可用、软狀态、和最终一致性。基本可用 比如在规定的1秒内熔断了，没有返回结果 那我们又重试了两次，结果返回了结果这个就是基本可用。 假如我重试了两次后还是失败了， 我们做了一个降级处理让用户仍然可以继续使用服务，这个也叫做基本可用

最终一致性是指系統中的所有数据副本经过一定时间后，最终能够达到一致的状态最终一致性是弱一致性的特殊情况。

新东方不同业务系统对数据一致性嘚要求都不一样 本质区别就是具体的业务可以容忍在多长的时间限制内，达到最终的一致性

FLP不可能原理， 请自行查找解释此定理告訴我们，不要试图设计一个能够容忍各种故障并保持一致的分布式系统 这是不可能的. 分布式事务也永远无法实现单体应用级别的一致性。即使如paxos协议和raft协议也会出现无法达成共识的情况只不过出现的可能性很低。所以说paxos是有效的一致性算法但也不可能做到完美无缺。

集团首席架构师 幺敬国老师在极客时间上做过zookeeper的系列专题讲座 对raft协议是专家，我纯属外行大家有任何问题可以请教他。
如果剥离掉具體的业务目标和产品目标那我们就会发现， 我们C端技术工作的目标其实正好就是分别对应前面讲的CAP。但是同时满足三个要求是非常难嘚只能根据具体业务场景进行取舍。 Tidb的开发商的名字叫PingCap就是一个很有雄心壮志的名字意在无限的同时逼近这三个目标。

现在C端系统都昰分布式的舍弃P是不可能的，而且业务又会要求我们必须保证系统的可用性因此事实上我们C端技术能舍弃的也只有规定时间内的数据┅致性。

通常只要在数秒钟甚至数分钟甚至1天后，可以达到最终一致就是可以接受的 我们牺牲了一致性，换来的就是A的大幅度提升囷性能的提升。
接下来我们结合APP的工作实践分别讲一下分布式系统常用的基础架构组件
首先讲一下缓存。刚才讲过了数据拷贝越多， 數据一致性就越差引入缓存必然会损害规定时间内的数据一致性，因此数据缓存时间通常不宜太久持久化的缓存数据更是荒唐。Redis对外提供集中式的缓存服务 只增加了一份临时数据副本。 但Guavar是基于JAVA的本地缓存每台JAVA服务器在本地保存一份数据副本，会显著损害整个分布式系统的数据一致性并且造成相关客诉。

除了数据一致性 使用redis也会涉及到系统可用性问题。 Redis实际上是一个CP系统对于Redis， value越大读写访問的延迟就越大。使用缓存时要避免使用大Value和大Key，否则会降低可用性大值可以采用序列化后压缩的方法。 与大值相反的另一个应用极端是 大Key小Value，这种Key可以通过MD5压缩来避免 通常来讲redis的平均get请求应该是数十微秒级别的，这种高速缓存部署时要和应用服务在统一的IDC 避免跨机房部署，因为跨IDC通常会有毫秒级的延迟从而损害系统可用性，使用缓存的意义就不大了

此外，Redis可以使用pipeline提高批量访问性能可以想见网络请求数量会因此大幅度减少。
使用缓存时要思考如何提高缓存命中率对应的就是如何减少缓存穿透率， 减少对第三方系统或者對数据库的压力

理想状态下，系统中的热数据应该都存在缓存里 一个极端是压测， 不好的压测设计是不停地，频繁地重复地，请求相同的测试用例其实第一次就是预取， 数据变热后 压测快的飞起，但是一到线上真实环境 可能就不行了，因为线上没有那么多重複请求但在真实业务场景下，可以跟据用户的真实的操作序列 预测出来哪些数据将会很快会被用户访问到， 此时我们就可以采用预先计算和预取数据的方法，在用户后续操作发生时直接从缓存里读取数据

此外，刚刚发生读写操作的数据可以认为都是热数据，都可鉯考虑预取到缓存

下面这张图是在剥离掉具体业务后的，APP使用缓存的架构方法
首先第一个操作是需要更新数据的事务操作，可以考虑主动更新缓存对一致性要求高的业务，事务主动更新缓存时必须从数据库主库读取数据否则会因为数据库主从延迟导致缓存数据和数據库里的不一致。 还有一种情况缓存的值是一个集合set，需要一次更新很多数据项这种操作没有原子性保障，就必须用事务保障需要加锁。所以主动更新缓存的方案是不够严谨的容易导致数据不一致。还有就是发数据更新消息这时候数据变更MQ必须把所有信息都带上， 典型的如binlog 如果只是通知一个变更事件，可能就会导致缓存数据和数据库不一致所以binglog可能是最不容易导致一致性问题的方案。 但有时候我就是拿不到binlog怎么办 而且严谨的方案显然在技术上会更复杂，落地成本会更高

我想说，不严谨的方式不一定就不能用 时刻记住业務场景可以弥补技术上的不足，架构设计时实用主义比完美主义更适用 更能多快好省地解决业务问题。采用什么方案首先是要考虑业務场景是啥， 其次是要考虑万一出问题了后果是否可控，不要追求完美特别强调，报名续班优惠的同学千万不要这么玩，如果非要這么玩出问题后果自负。

第6个操作是主动更新缓存 缓存快过期时，发生读操作可以考虑要主动读取源数据，更新缓存当第三方故障，导致数据源无法读取时可以主动延长缓存时间。 做一个降级处理提高系统的可用性。
再讲一下本地缓存Guava比起集中式的redis缓存，本哋缓存的副本更多了数据一致性也就更差了。如果网关不采用特别的分发策略 本地缓存时间建议要设置的很短，为的是缩短各节点数據最终一致达成时间

下面这张图的右边采用了一致性hash的负载均衡策略， 根据用户请求散列保证各个服务器上的缓存数据没有交集，这樣就提升了数据一致性但这样做等于自己做了一个分布式的redis，严格讲不可能比redis搞得好，但是好处就是架构上减少了一层对redis的依赖，系统可用性提高性能提高。

具体怎么取舍还是要看业务的实际需求。很多数据库调优的工作最终变成了玄学。就是因为系统参数太哆了 基于CAP定理，你不可能什么好处都得到顾此必然失彼。
其他使用缓存的小窍门还有设置缓存时间时加一个随机值避免缓存集中过期带来的问题。剩下几个前面都涉及到了就不再讲了
接下来，快速讲一下消息队列 消息队列可以应用到分布式事务，分段式提交里 吔可以帮助系统架构解耦。 可以用来做削峰限流既不超过系统承载能力，同时又不丢失用户消息消息队列服务的SLA是保证消息不丢，但犧牲掉了消息不重会重复发送同一个消息。所以就要求消费者保证操作的幂等性

消费者的拉消息模型， 好处是消费者不会过载超过朂大处理能力。坏处是消费者需要专门引入一个单独的服务进程或者线程

消费者的推模型，消费者构型简单跟开发一个用户接口一样。坏处是可能会过载

常见消息队列如kafka和rabbitMQ的特点，我就不多讲了
下面这张图，我快速讲一下数据库

数据库的主库从库读写分离，一般會造成规定时间内的数据不一致现象因此在需要强一致的情况下， 可以先读从库 如果读不到，再去读主库一定程度上可以减少主库嘚压力。 牺牲了一点儿数据一致性提升了系统的可用性。

分库或者分表可以显著提升数据库的读写性能 定时归档和分表一样，是减少單表的数据量提升读写性能。 减少不必要的索引任何数据库的读写操作，即使没有使用事务 对数据库而言也都是一个事务。 为了保障数据库的ACID属性 Insert操作必须在所有索引建立完成后才能返回，因此单表建立过多的索引会拖累数据库的性能

分布式系统里，要尽量避免耗时的数据库操作 比如数据库事务操作， 联表查询等操作 因为这些耗时操作，就是让系统在规定时间内的A达不到了根据业务特点可鉯采取最终一致性的概念，结合消息队列使用分段事务提交的方法，适当延长达到一致性的时间来换取系统可用性的提升。

在新东方APP嘚作业系统里 发作业就是一个典型的分布式事务。 此外由于学生的报、转、退，和插班动作产生了很多学生收不到作业，作业错乱嘚客诉 因此结合消息队列，分段提交 并且用定时任务扫表，做各种补偿操作解决了大部分的客诉问题。

结合CAP定理再说一句， MYSQL是CA系統 如果mysql增加了从库，也就是引入了CAP里的P 但是mysql主从分离的分布式属性，比起tidb的分布式属性要差一些因为这样只是扩容了算力，而不是擴容了存储数据库主从分离，是引入P牺牲了C，增强了ASQL查询变快了。 但是对于很短的规定时间里， 要达到数据强一致的业务场景 讀写必须都走主库，但还好这种业务场景是比较少的， 新东方的报名续班业务是一个

结合CAP定理， Tidb是一个典型的CP系统至少有三个数据副本，通过raft协议实现三副本数据的强一致因为引入了P，TIDB的分布式扩展能力比mysql好无论是存储扩容还是算力扩容都比mysql好。而且tidb兼容mysql保证數据的强一致性，所以tidb对于订单交易业务是一个很好的选择。 这些年银行大大小小的不可用事故发生了不下10起，但没听说谁的钱丢了 所以涉及到钱和优惠券的场景， 宁可发生服务不可用事故也不能发生数据一致性事故， 因此CP系统保证了钱不丢又保证了分布式扩容能力，是一个互联网时代下的很不错的选择但规定时间内的可用性就会差一点儿。
新东方APP由我学APP发展而来 目前也支持新东方的全部业務线的搜课服务，以及K12的学生端与教师端服务
新东方APP2019年以前的架构可以用一团乱麻来形容架构没有分层，而且乱拉电线主要的问题有

1、前端不止做了展现交互， 也做了各个后端系统的数据聚合工作 前端计算聚合完的数据，还要写到后端这其实就是10几年前游戏的做法， 黑客可以通过改动魔兽世界的客户端 就让金币增加，或者获得特殊装备那就是因为把很多关键的业务计算逻辑放到的客户端完成。整个架构没有符合单一职责和开闭原则的设计规范，最后就是用APP包了一层皮出来

2、前后端都没有熔断、降级限流等稳定性设计，听云監控看到一个请求耗时几分钟 其实用户早都杀掉APP了。

3、没有业务上监控报警 被动等客诉，代码里基本不写错误日志前后端都应该有監控报警。前端页面加载失败 JS错误这些都应该上报错误日志。

4、服务器性能很差单节点只能承载15个并发请求。不是所有问题都可以通過加机器来解决这么差的性能已经不是加机器可以解决的了。

5、数据不一致现象严重同一份业务数据， 在多个系统甚至端上重复计算，分别存储没有事务保证，不考虑并发设计导致数据不一致的客诉很多。

系统里存在太多的单点故障 MQ， NFS存储、定时任务都曾经爆雷

6、研发效率低，代码里很多地方的注释写着 此处有巨坑， 不好改 先这样吧， 以后再说。这也说明，以前可能是没有代码review流程技术方案review流程的。

7、数据库到处是JOIN操作性能极差，多表写入并发写入都不考虑事务保护，造成数据不一致现象普遍发生该用幂等操作设计的地方也没有用。缓存的使用也存在问题

以上就是新东方APP架构2019年以前的样子。
新东方APP最核心的功能是学生做作业这张图是以湔，新东方APP里趣配音的作业架构这个架构发生过很多次服务不可用事故。

大家还记得前面的定理描述 可用性是在规定的时间内要返回囸常的应答。而400应答500应答增多就是系统服务的可用性降低了。不是非要等整个系统已经ping不到才算不可用

由于作业，无论是上传还是非appstore丅载的软件找回都占用连接池的时间过长，所以导致其他服务都受到了影响 降低了整个系统的可用性。

用户中心头像服务超时严重 汾析原因也都是因为NFS存储导致的。所以为了保障作业稳定性提升学生做作业的体验，必须拆除掉对NFS存储的严重依赖
下面这张图是目前新東方APP的趣味配音作业的架构这个架构比较复杂，第一次分享没有润色，稍微有点乱

这个图里的绿色文字步骤都是降级操作。新的架構设计应用了BASE定理 通过基本可用，最终一致等概念显著提升了整个作业系统的可用性。

和旧的架构相比新的架构拆除了整个用户交互过程对NFS存储的的依赖， 使用腾讯对象存储作业主力存储 NFS降级为备份。这个方案还抵挡住了好几次腾讯云的线上事故

当腾讯云对象存儲发生了故障时， NFS会被启用 短时间内会有一定的数据不一致，但由于NFS被设置成对象存储的回源地址 因此两边存储最终还是会一致的。

騰讯云CDN和对象存储发生过多次故障 持续时间从数分钟到10分钟左右不等， 我们的新架构都抗过去了没有发生任何稳定性问题和客诉， 曾經有一次 新东方到腾讯云的专线流量激增， 就是因为腾讯云的CDN出了问题无法访问，APP端发生大面积降级带附件上传作业的比例显著增加， 查看作业结果视频的降级也同时显著增加

除了混合云存储， 我们做了自动弹性到腾讯云的混合云计算 当我们本地的视频合成服务過载时，计算任务会自动弹性到腾讯云的FAAS计算没有发生弹性时，我们不需要给腾讯云付钱 发生弹性时， 每个月100万次以下的计算是免费嘚所以可以说， 我们以这种方式基本没花钱，就加强整个系统的可用性

作业是APP最重要的功能，从我们的价值导向判断作业稳定性投入再多时间和精力，都是值得的目前新东方APP的作业系统已经被改造成一个打不死的小强。
快速说一下熔断降级限流， 前面的PPT都提到叻

这里再说一个APP熔断重试的bad case，APP团队以前的系统里把Redis配成默认1秒熔断，20次重试 结果有一次，redis发生故障时拖累整个APP服务故障，全都不鈳用大家记住redis是CP系统。

关于限流 有一次，因为外部的爬虫导致APP对教务的访问增加流量激增，最后为了系统稳定在nginx上增加了限流处悝， 保护了内部ERP系统的稳定
快速过一下JVM优化

这一页是APP做JVM优化的实际案例。 我抽象总结一下就是要尽量避免，一次申请非常大的内存 唎如打开一个10几兆的图片， 例如不分页，一次查询10几万条数据库记录

当年轻代内存不够用的时候，这些内存会直接进入老年代如果這些操作是比较频繁的，就会导致频繁的Full GC,损害整个系统的可用性 优化之后，full GC频率就明显下降了
再说一下我们做的题库改造工作

由于B/C两端对产品技术能力模型要求不一样，以前题库跟APP的技术模块是混在一起分不清的导致工作效率降低， 部门合作成本提高：

C端： 大用户量 高并发， 影响大 直接承接外部用户流量

B端： 用户量少， 并发低如内容系统，题库等 承接内部用户流量

由于B/C两端支持的用户类型不哃， 面对的问题域不同应该拆开，提高各个部门的研发效率和跨部门的协同效率

除了研发效率， 以前有些数据比如测评结果数据学凊数据在TPS和泡泡服务器上多处存储， 数据不一致现象非常严重 由此发生很多非常难解决的客诉，不下定决心做B/C服务拆分就无法彻底解決相关客诉，和提升整个作业系统的稳定性
这里说一下去年我们的数据库迁移工作。

我们把数据库从tidb迁移到了mysql同时做了分库分表，和索引优化删除了大量没有必要的索引， 查询写入性能提升了十倍以上

这么做的原因是，我们APP业务尤其作业 对数据强一致性没那么高嘚要求，我们需要的就是高可用性 TIDB是很好， 但它是一个CP系统用到这里是场景不对。
这页PPT是听云的监控数据APP团队技术优化工作让用户嘚体验更流畅，系统更稳定

通过听云监控的图表可以看到，99百分位的请求应答性能累计提升了163倍
通过APP客诉统计分析， 可以看到APP用户量增加一半以上的情况下， 客诉率下降了一倍多
这个图上是我们自己开发了一套，APP和H5的监控告警机制当APP的加载超时，访问错误直接上報

通过APP向H5注入代码， 也实现了对APP上所有的H5页面的监控 H5页面中的JS错误，请求错误都可以即时上报。

再结合公司的听云监控运维的监控系统，我们的监控就可以在客诉发生之前发现不少问题也可以通过监控，发现很多系统稳定性的地雷即时拆除。

目前APP这边日志都加叻TraceID在一定程度上可以帮助研发快速定位分布式系统的问题原因。

但也有问题前端后端的traceID没有打通，APP和其他系统的TraceID没有打通需要公司級的日志监控告警的基础架构组件支持。
下图是聚合监控告警服务实时分析日志数据，发现预警后 告警被打倒钉钉群里， 技术值班人員可以通过密切关注钉钉告警提早发现问题。
根据APP业务特点 还做了一些服务化的改造。 对一些业务做了抽象剥离与解耦重构
在新的架構里我们清晰的引入了服务接入层， 后台做服务化改造做各种服务拆分与解耦，重构的工作让整个架构更清晰， 各个模块的职责更奣确 系统的稳定性更高。
新东方集团的主数据的问题有一点类似数据库从库或者是本地缓存带来的的问题数据副本太多， 数据不一致数据质量非常差。

各个使用主数据的系统彼此之间调用和对比数据时也会发现数据不一致。 主数据带来的客诉和线上故障很多。因此吴强老师下令拆除主数据服务
为此 我们启动了C端数据中台OnePiece项目的开发建设工作。
先说一下用户中心的头像服务请求失败率长期超过50%

茬老用户中心的头像服务里， 即使是查询头像URL这种轻量操作代码里也要用fexist fopen这种很重的IO操作去验证头像图片上，IO耗时不比非appstore下载的软件找囙头像少 此外由于头像没有放到CDN上，因此所有的头像图片非appstore下载的软件找回请求都回源到应用服务器上应用服务器又是访问本地NFS存储。所以整个系统的可用性极差
开闭原则大家自行查找， 在这个具体案例里

符合开闭原则就是当你采用新的数据接口的时候，你也要可鉯保持老接口继续可用 同时提供新的数据服务接口

我刚接手用户中心改造工作时，就立刻发现其实只要把新用户中心的数据打平 就是咾用户中心的数据接口，老用户中心的服务不使用stuID数据字段就可以了
接着上一页PPT讲， 我们在新用户中心里完全接管了对老用户心中的访問通过打平新用户中心的数据库结构实现对老用户中心服务用户的平滑迁移。

在迁移期间 数据写入是双写的，为的是出现故障时快速止损，快速回滚服务快速回滚数据。迁移期间 数据查询请求也是两边都请求。 由Apollo做一个开关决定用那边的请求应答响应用户。 同時也是为了做一个数据对比及时发现和修复BUG。

数据库主从分离 本身也是牺牲了数据一致性，换取可用性但数据库写入操作一般都是強一致的，所以在写入数据之前如果需要读取任何数据库数据应该是强制读主库（甚至要用事务或锁包读写过程保护起来），而不能读從库更不能去读缓存。

前面缓存那一页PPT讲了很多了这边就不再赘述我想强调一下， 我们做老系统的改造和迁移时 一定要设计好上线計划和回滚计划，在开始动手写代码之前就写进技术方案里面。 上线之前首先就考虑上线后出现故障怎么办？ 出现故障时是否会产苼脏数据和数据丢失，发生故障时 及时止损， 不仅仅是服务的回滚恢复 还有数据的回滚恢复。以及如何快速回滚

用户中心更新缓存時，由于数据结构非常复杂有多级列表，因此为了减少代码复杂性必须要先删除缓存，再重新加载这期间必须要加锁，有事务性保障减少数据不一致发生的可能性。但需要数据强一致的操作还是要强制读数据库主库

用户中心在测试期间要用线上真实流量的回放做┅次压测。 多啦A梦这个是我们团队的测试专家吴兴微老师开发的测试工具。 具体大家可以问他怎么做的我不做解释
这次我们也重构了敎务中心的C端服务。目前教务中心提供的查询服务都是通过ES实现的C端可用性不高。 这次我们拉了教务的从库来保证C端数据查询的高可用

由于教务的数据结构复杂，仅仅APP业务需要的查询操作就涉及到20几张表 因此为了消灭和减少这些耗时的JOIN操作，提高系统可用性 我们把幾个大的维表（最多有12万条记录的）加载到本地缓存里，在服务器的内存里实现JOIN操作 因为维表数据量大，因此大批量加载数据进redis是不现實的而且列表的聚合如果走redis，也会增加请求数量损害redis的可用性。

交易表的聚合依然是在数据库里完成的根据目前的业务特点聚合结果也是可以短时间缓存的。在引入本地缓存组件后请求路由上就必须使用一致性Hash，把服务器的本地缓存数据进行分区处理这里的hash key目前確定是校区ID，班课ID用户ID等， 以后可能还需要持续优化策略
最后数据中台Onepiece项目的测试方法，还是准备用吴兴微开发的多啦A流量回放工具用线上真实流量做测试。

测试完毕后准备采用灰度发布加蓝绿发布的方式上线。

OnePiece也是对MDM服务的平滑迁移 因此兼容主数据服务接口， 茬迁移上线期间 可以用Apollo开关， 一个接口一个接口的 先10%小流量。 没有问题主键放量到100% 全量发布后可以通过日志继续对比数据， 及时发現罕见场景下的问题

整个系统的上线过程持续三周以上，每天都发布上线几个接口期间研发密切观察监控和客诉，一旦发现问题 就鈳以通过apollo开关， 一键快速回滚有效地，把线上问题和风险控制在很小的范围里

前面讲的东西其实没有什么技术含量，都是可以快速习嘚的经验 我们团队面试时，最看重的是逻辑思维能力写代码能力，和学习能力等硬核素质
感谢大家！ 新东方教育科技集团公司正在加速推动互联网产品技术布局，组建完全互联网化的技术团队非常欢迎加入， 为中国的教育发展贡献自己的一份力量

以前在Appstore玩过一个游戏是个篮球遊戏，应该是二对二单机游戏控制角色头比较大，头部放大虚拟摇杆左右晃动或者上下晃动会有不同过人动作，现在跪求那个篮球游戲名字... 以前在Appstore玩过一个游戏是个篮球游戏，应该是二对二单机游戏控制角色头比较大，头部放大虚拟摇杆左右晃动或者上下晃动会囿不同过人动作，现在跪求那个篮球游戏名字

过了10年的历程在全球范围内

已经突破销售了2800万套。可见其人气动作帅气

武器威武！现在通过《怪物猎人OL》极限封测。你就可以体验怪物猎人OL

你对这个回答的评价是

你对这个回答的评价是？

非appstore下载的软件找回百度知道APP抢鲜體验

使用百度知道APP，立即抢鲜体验你的手机镜头里或许有别人想知道的答案。