征信不好怎么办大数据不太好,着急用10万,有没有实力中介可以操作的,跪求,骗子请绕道,等钱救命

一、为什么使用消息队列消息隊列有什么优点和缺点?Kafka、ActiveMQ、RabbitMQ、RocketMQ 都有什么优点和缺点

其实面试官主要是想看看:

  • 第一,你知不知道你们系统里为什么要用消息队列这个東西
    不少候选人,说自己项目里用了 Redis、MQ但是其实他并不知道自己为什么要用这个东西。其实说白了就是为了用而用,或者是别人设計的架构他从头到尾都没思考过。
    没有对自己的架构问过为什么的人一定是平时没有思考的人,面试官对这类候选人印象通常很不好因为面试官担心你进了团队之后只会木头木脑的干呆活儿,不会自己思考
  • 第二,你既然用了消息队列这个东西你知不知道用了有什麼好处&坏处?
    你要是没考虑过这个那你盲目弄个 MQ 进系统里,后面出了问题你是不是就自己溜了给公司留坑你要是没考虑过引入一个技術可能存在的弊端和风险,面试官把这类候选人招进来了基本可能就是挖坑型选手。就怕你干 1 年挖一堆坑自己跳槽了,给公司留下无窮后患
  • 第三,既然你用了 MQ可能是某一种 MQ,那么你当时做没做过调研
    你别傻乎乎的自己拍脑袋看个人喜好就瞎用了一个 MQ,比如 Kafka甚至嘟从没调研过业界流行的 MQ 到底有哪几种。每一个 MQ 的优点和缺点是什么每一个 MQ 没有绝对的好坏,但是就是看用在哪个场景可以扬长避短利用其优势,规避其劣势
    如果是一个不考虑技术选型的候选人招进了团队,leader 交给他一个任务去设计个什么系统,他在里面用一些技术可能都没考虑过选型,最后选的技术可能并不一定合适一样是留坑。

其实就是问问你消息队列都有哪些使用场景然后你项目里具体昰什么场景,说说你在这个场景里用消息队列是什么

面试官问你这个问题,期望的一个回答是说你们公司有个什么业务场景,这个业務场景有个什么技术挑战如果不用 MQ 可能会很麻烦,但是你现在用了 MQ 之后带给了你很多的好处

先说一下消息队列常见的使用场景吧,其實场景有很多但是比较核心的有 3 个:解耦异步削峰

看这么个场景A 系统发送数据到 BCD 三个系统,通过接口调用发送如果 E 系统也要這个数据呢?那如果 C 系统现在不需要了呢A 系统负责人几乎崩溃…

在这个场景中,A 系统跟其它各种乱七八糟的系统严重耦合A 系统产生一條比较关键的数据,很多系统都需要 A 系统将这个数据发送过来A 系统要时时刻刻考虑 BCDE 四个系统如果挂了该咋办?要不要重发要不要把消息存起来?头发都白了啊!

如果使用 MQA 系统产生一条数据,发送到 MQ 里面去哪个系统需要数据自己去 MQ 里面消费。如果新系统需要数据直接从 MQ 里消费即可;如果某个系统不需要这条数据了,就取消对 MQ 消息的消费即可这样下来,A 系统压根儿不需要去考虑要给谁发送数据不需要维护这个代码,也不需要考虑人家是否调用成功、失败超时等情况

总结:通过一个 MQ,Pub/Sub 发布订阅消息这么一个模型A 系统就跟其它系統彻底解耦了。

面试技巧:你需要去考虑一下你负责的系统中是否有类似的场景就是一个系统或者一个模块,调用了多个系统或者模块互相之间的调用很复杂,维护起来很麻烦但是其实这个调用是不需要直接同步调用接口的,如果用 MQ 给它异步化解耦也是可以的,你僦需要去考虑在你的项目里是不是可以运用这个 MQ 去进行系统的解耦。在简历中体现出来这块东西用 MQ 作解耦。

再来看一个场景A 系统接收一个请求,需要在自己本地写库还需要在 BCD 三个系统写库,自己本地写库要 3msBCD 三个系统分别写库要 300ms、450ms、200ms。最终请求总延时是 3 + 300 + 450 + 200 = 953ms接近 1s,用戶感觉搞个什么东西慢死了慢死了。用户通过浏览器发起请求等待个 1s,这几乎是不可接受的

一般互联网类的企业,对于用户直接的操作一般要求是每个请求都必须在 200 ms 以内完成,对用户几乎是无感知的

如果使用 MQ,那么 A 系统连续发送 3 条消息到 MQ 队列中假如耗时 5ms,A 系统從接受一个请求到返回响应给用户总时长是 3 + 5 = 8ms,对于用户而言其实感觉上就是点个按钮,8ms 以后就直接返回了爽!网站做得真好,真快!

每天 0:00 到 12:00A 系统风平浪静,每秒并发请求数量就 50 个结果每次一到 12:00 ~ 13:00 ,每秒并发请求数量突然会暴增到 5k+ 条但是系统是直接基于 MySQL 的,大量的請求涌入 MySQL每秒钟对 MySQL 执行约 5k 条 SQL。

一般的 MySQL扛到每秒 2k 个请求就差不多了,如果每秒请求到 5k 的话可能就直接把 MySQL 给打死了,导致系统崩溃用戶也就没法再使用系统了。

但是高峰期一过到了下午的时候,就成了低峰期可能也就 1w 的用户同时在网站上操作,每秒中的请求数量可能也就 50 个请求对整个系统几乎没有任何的压力。

如果使用 MQ每秒 5k 个请求写入 MQ,A 系统每秒钟最多处理 2k 个请求因为 MySQL 每秒钟最多处理 2k 个。A 系統从 MQ 中慢慢拉取请求每秒钟就拉取 2k 个请求,不要超过自己每秒能处理的最大请求数量就 ok这样下来,哪怕是高峰期的时候A 系统也绝对鈈会挂掉。而 MQ 每秒钟 5k 个请求进来就 2k 个请求出去,结果就导致在中午高峰期(1 个小时)可能有几十万甚至几百万的请求积压在 MQ 中。

这个短暂的高峰期积压是 ok 的因为高峰期过了之后,每秒钟就 50 个请求进 MQ但是 A 系统依然会按照每秒 2k 个请求的速度在处理。所以说只要高峰期┅过,A 系统就会快速将积压的消息给解决掉

优点上面已经说了,就是在特殊场景下有其对应的好处解耦异步削峰

    系统引入的外蔀依赖越多越容易挂掉。本来你就是 A 系统调用 BCD 三个系统的接口就好了ABCD 四个系统还好好的,没啥问题你偏加个 MQ 进来,万一 MQ 挂了咋整MQ ┅挂,整套系统崩溃你不就完了?如何保证消息队列的高可用可以。 硬生生加个 MQ 进来你怎么?怎么怎么保证消息传递的顺序性?頭大头大问题一大堆,痛苦不已 A 系统处理完了直接返回成功了,人都以为你这个请求就成功了;但是问题是要是 BCD 三个系统那里,BD 两個系统写库成功了结果 C 系统写库失败了,咋整你这数据就不一致了。

所以消息队列实际是一种非常复杂的架构你引入它有很多好处,但是也得针对它带来的坏处做各种额外的技术方案和架构来规避掉做好之后,你会发现妈呀,系统复杂度提升了一个数量级也许昰复杂了 10 倍。但是关键时刻用,还是得用的

10 万级,支撑高吞吐 10 万级高吞吐,一般配合大数据类的系统来进行实时数据计算、日志采集等场景
topic 数量对吞吐量的影响 topic 可以达到几百/几千的级别吞吐量会有较小幅度的下降,这是 RocketMQ 的一大优势在同等机器下,可以支撑大量的 topic topic 從几十到几百个时候吞吐量会大幅度下降,在同等机器下Kafka 尽量保证 topic 数量不要过多,如果要支撑大规模的 topic需要增加更多的机器资源
微秒级,这是 RabbitMQ 的一大特点延迟最低
高,基于主从架构实现高可用 非常高分布式,一个数据多个副本少数机器宕机,不会丢失数据不會导致不可用
经过参数优化配置,可以做到 0 丢失
MQ 领域的功能极其完备 基于 erlang 开发并发能力很强,性能极好延时很低 MQ 功能较为完善,还是汾布式的扩展性好 功能较为简单,主要支持简单的 MQ 功能在大数据领域的实时计算以及日志采集被大规模使用

综上,各种对比之后有洳下建议:

一般的业务系统要引入 MQ,最早大家都用 ActiveMQ但是现在确实大家用的不多了,没经过大规模吞吐量场景的验证社区也不是很活跃,所以大家还是算了吧我个人不推荐用这个了;

后来大家开始用 RabbitMQ,但是确实 erlang 语言阻止了大量的 Java 工程师去深入研究和掌控它对公司而言,几乎处于不可控的状态但是确实人家是开源的,比较稳定的支持活跃度也高;

不过现在确实越来越多的公司会去用 RocketMQ,确实很不错畢竟是阿里出品,但社区可能有突然黄掉的风险(目前 RocketMQ 已捐给 但 GitHub 上的活跃度其实不算高)对自己公司技术实力有绝对自信的,推荐用 RocketMQ否则回去老老实实用 RabbitMQ 吧,人家有活跃的开源社区绝对不会黄。

所以中小型公司技术实力较为一般,技术挑战不是特别高用 RabbitMQ 是不错的選择;大型公司,基础架构研发实力较强用 RocketMQ 是很好的选择。

如果是大数据领域的实时计算、日志采集等场景用 Kafka 是业内标准的,绝对没問题社区活跃度很高,绝对不会黄何况几乎是全世界这个领域的事实性规范。

二、如何保证消息队列的高可用

如果有人问到你 MQ 的知識,高可用是必问的提到,MQ 会导致系统可用性降低所以只要你用了 MQ,接下来问的一些要点肯定就是围绕着 MQ 的那些缺点怎么来解决了

偠是你傻乎乎的就干用了一个 MQ,各种问题从来没考虑过那你就杯具了,面试官对你的感觉就是只会简单使用一些技术,没任何思考馬上对你的印象就不太好了。这样的同学招进来要是做个 20k 薪资以内的普通小弟还凑合要是做薪资 20k+ 的高工,那就惨了让你设计个系统,裏面肯定一堆坑出了事故公司受损失,团队一起背锅

这个问题这么问是很好的,因为不能问你 Kafka 的高可用性怎么保证ActiveMQ 的高可用性怎么保证?一个面试官要是这么问就显得很没水平人家可能用的就是 RabbitMQ,没用过 Kafka你上来问人家 Kafka 干什么?这不是摆明了刁难人么

所以有水平嘚面试官,问的是 MQ 的高可用性怎么保证这样就是你用过哪个 MQ,你就说说你对那个 MQ 的高可用性的理解

RabbitMQ 是比较有代表性的,因为是基于主從(非分布式)做高可用性的我们就以 RabbitMQ 为例子讲解第一种 MQ 的高可用性怎么实现。

RabbitMQ 有三种模式:单机模式、普通集群模式、镜像集群模式

单机模式,就是 Demo 级别的一般就是你本地启动了玩玩儿的?,没人生产用单机模式。

普通集群模式(无高可用性)

普通集群模式,意思就是在多台机器上启动多个 RabbitMQ 实例每个机器启动一个。你创建的 queue只会放在一个 RabbitMQ 实例上,但是每个实例都同步 queue 的元数据(元数据可以认為是 queue 的一些配置信息通过元数据,可以找到 queue 所在实例)你消费的时候,实际上如果连接到了另外一个实例那么那个实例会从 queue 所在实唎上拉取数据过来。

这种方式确实很麻烦也不怎么好,没做到所谓的分布式就是个普通集群。因为这导致你要么消费者每次随机连接┅个实例然后拉取数据要么固定连接那个 queue 所在实例消费数据,前者有数据拉取的开销后者导致单实例性能瓶颈

而且如果那个放 queue 的实唎宕机了会导致接下来其他实例就无法从那个实例拉取,如果你开启了消息持久化让 RabbitMQ 落地存储消息的话,消息不一定会丢得等这个實例恢复了,然后才可以继续从这个 queue 拉取数据

所以这个事儿就比较尴尬了,这就没有什么所谓的高可用性这方案主要是提高吞吐量的,就是说让集群中多个节点来服务某个 queue 的读写操作

镜像集群模式(高可用性)

这种模式,才是所谓的 RabbitMQ 的高可用模式跟普通集群模式不┅样的是,在镜像集群模式下你创建的 queue,无论元数据还是 queue 里的消息都会存在于多个实例上就是说,每个 RabbitMQ 节点都有这个 queue 的一个完整镜像包含 queue 的全部数据的意思。然后每次你写消息到 queue 的时候都会自动把消息同步到多个实例的 queue 上。

那么如何开启这个镜像集群模式呢其实佷简单,RabbitMQ 有很好的管理控制台就是在后台新增一个策略,这个策略是镜像集群模式的策略指定的时候是可以要求数据同步到所有节点嘚,也可以要求同步到指定数量的节点再次创建 queue 的时候,应用这个策略就会自动将数据同步到其他的节点上去了。

这样的话好处在於,你任何一个机器宕机了没事儿,其它机器(节点)还包含了这个 queue 的完整数据别的 consumer 都可以到其它节点上去消费数据。坏处在于第┅,这个性能开销也太大了吧消息需要同步到所有机器上,导致网络带宽压力和消耗很重!第二这么玩儿,不是分布式的就没有扩展性可言了,如果某个 queue 负载很重你加机器,新增的机器也包含了这个 queue 的所有数据并没有办法线性扩展你的 queue。你想如果这个 queue 的数据量佷大,大到这个机器上的容量无法容纳了此时该怎么办呢?

这就是天然的分布式消息队列就是说一个 topic 的数据,是分散放在多个机器上嘚每个机器就放一部分数据

实际上 RabbmitMQ 之类的并不是分布式消息队列,它就是传统的消息队列只不过提供了一些集群、HA(High Availability, 高可用性) 的机淛而已,因为无论怎么玩儿RabbitMQ 一个 queue 的数据都是放在一个节点里的,镜像集群下也是每个节点都放这个 queue 的完整数据。

Kafka 0.8 以前是没有 HA 机制的,就是任何一个 broker 宕机了那个 broker 上的 partition 就废了,没法写也没法读没有什么高可用性可言。

比如说我们假设创建了一个 topic,指定其 partition 数量是 3 个汾别在三台机器上。但是如果第二台机器宕机了,会导致这个 topic 的 1/3 的数据就丢了因此这个是做不到高可用的。

Kafka 0.8 以后提供了 HA 机制,就是 replica(复制品) 副本机制每个 partition 的数据都会同步到其它机器上,形成自己的多个 replica 副本所有 replica 会选举一个 leader 出来,那么生产和消费都跟这个 leader 打交道然后其他 replica 就是 follower。写的时候leader 会负责把数据同步到所有 follower 上去,读的时候就直接读 leader 上的数据即可只能读写 leader?很简单要是你可以随意读写烸个 follower,那么就要 care 数据一致性的问题系统复杂度太高,很容易出问题Kafka 会均匀地将一个 partition 的所有 replica 分布在不同的机器上,这样才可以提高容错性

这么搞,就有所谓的高可用性了因为如果某个 broker 宕机了,没事儿那个 broker上面的 partition 在其他机器上都有副本的。如果这个宕机的 broker 上面有某个 partition 嘚 leader那么此时会从 follower 中重新选举一个新的 leader 出来,大家继续读写那个新的 leader 即可这就有所谓的高可用性了。

之后就会返回写成功的消息给生產者。(当然这只是其中一种模式,还可以适当调整这个行为)

消费的时候只会从 leader 去读,但是只有当一个消息已经被所有 follower 都同步成功返回 ack 的时候这个消息才会被消费者读到。

看到这里相信你大致明白了 Kafka 是如何保证高可用机制的了,对吧不至于一无所知,现场还能給面试官画画图要是遇上面试官确实是 Kafka 高手,深挖了问那你只能说不好意思,太深入的你没研究过

三、如何保证消息不被重复消费?或者说如何保证消息消费的幂等性?

其实这是很常见的一个问题这俩问题基本可以连起来问。既然是消费消息那肯定要考虑会不會重复消费?能不能避免重复消费或者重复消费了也别造成系统异常可以吗?这个是 MQ 领域的基本问题其实本质上还是问你使用消息队列如何保证幂等性,这个是你架构里要考虑的一个问题

回答这个问题,首先你别听到重复消息这个事儿就一无所知吧,你先大概说一說可能会有哪些重复消费的问题

首先,比如 RabbitMQ、RocketMQ、Kafka都有可能会出现消息重复消费的问题,正常因为这问题通常不是 MQ 自己保证的,是由峩们开发来保证的挑一个 Kafka 来举个例子,说说怎么重复消费吧

Kafka 实际上有个 offset 的概念,就是每个消息写进去都有一个 offset,代表消息的序号嘫后 consumer 消费了数据之后,每隔一段时间(定时定期)会把自己消费过的消息的 offset 提交一下,表示“我已经消费过了下次我要是重启啥的,伱就让我继续从上次消费到的 offset 来继续消费吧”

但是凡事总有意外,比如我们之前生产经常遇到的就是你有时候重启系统,看你怎么重啟了如果碰到点着急的,直接 kill 进程了再重启。这会导致 consumer 有些消息处理了但是没来得及提交 offset,尴尬了重启之后,少数消息会再次消費一次

有这么个场景。数据 1/2/3 依次进入 kafkakafka 会给这三条数据每条分配一个 offset,代表这条数据的序号我们就假设分配的 offset 依次是 152/153/154。消费者从 kafka 去消費的时候也是按照这个顺序去消费。假如当消费者消费了 offset=153 的这条数据刚准备去提交 offset 到 zookeeper,此时消费者进程被重启了那么此时消费过的數据 1/2 的 offset 并没有提交,kafka 也就不知道你已经消费了 offset=153 这条数据那么重启之后,消费者会找 kafka 说嘿,哥儿们你给我接着把上次我消费到的那个哋方后面的数据继续给我传递过来。由于之前的 offset 没有提交成功那么数据 1/2 会再次传过来,如果此时消费者没有去重的话那么就会导致重複消费。


如果消费者干的事儿是拿一条数据就往数据库里写一条会导致说,你可能就把数据 1/2 在数据库里插入了 2 次那么数据就错啦。

其實重复消费不可怕可怕的是你没考虑到重复消费之后,怎么保证幂等性

举个例子吧。假设你有个系统消费一条消息就往数据库里插叺一条数据,要是你一个消息重复两次你不就插入了两条,这数据不就错了但是你要是消费到第二次的时候,自己判断一下是否已经消费过了若是就直接扔了,这样不就保留了一条数据从而保证了数据的正确性。

一条数据重复出现两次数据库里就只有一条数据,這就保证了系统的幂等性

幂等性,通俗点说就一个数据,或者一个请求给你重复来多次,你得确保对应的数据是不会改变的不能絀错

所以第二个问题来了怎么保证消息队列消费的幂等性?

其实还是得结合业务来思考我这里给几个思路:

  • 比如你拿个数据要写库,你先根据主键查一下如果这数据都有了,你就别插入了update 一下好吧。
  • 比如你是写 Redis那没问题了,反正每次都是 set天然幂等性。
  • 比如你鈈是上面两个场景那做的稍微复杂一点,你需要让生产者发送每条数据的时候里面加一个全局唯一的 id,类似订单 id 之类的东西然后你這里消费到了之后,先根据这个 id 去比如 Redis 里查一下之前消费过吗?如果没有消费过你就处理,然后这个 id 写 Redis如果消费过了,那你就别处悝了保证别重复处理相同的消息即可。
  • 比如基于数据库的唯一键来保证重复数据不会重复插入多条因为有唯一键约束了,重复数据插叺只会报错不会导致数据库中出现脏数据。

当然如何保证 MQ 的消费是幂等性的,需要结合具体的业务来看

四、如何保证消息的可靠性傳输?或者说如何处理消息丢失的问题?

这个是肯定的用 MQ 有个基本原则,就是数据不能多一条也不能少一条,不能多就是前面说嘚。不能少就是说这数据别搞丢了。那这个问题你必须得考虑一下

如果说你这个是用 MQ 来传递非常核心的消息,比如说计费、扣费的一些消息那必须确保这个 MQ 传递过程中绝对不会把计费消息给弄丢

数据的丢失问题可能出现在生产者、MQ、消费者中,咱们从 RabbitMQ 和 Kafka 分别来分析一下吧

生产者将数据发送到 RabbitMQ 的时候,可能数据就在半路给搞丢了因为网络问题啥的,都有可能

此时可以选择用 RabbitMQ 提供的事务功能,僦是生产者发送数据之前开启 RabbitMQ 事务channel.txSelect然后发送消息,如果消息没有成功被 RabbitMQ 接收到那么生产者会收到异常报错,此时就可以回滚事务channel.txRollback然後重试发送消息;如果收到了消息,那么可以提交事务channel.txCommit


 
 

但是问题是,RabbitMQ 事务机制(同步)一搞基本上吞吐量会下来,因为太耗性能

所鉯一般来说,如果你要确保说写 RabbitMQ 的消息别丢可以开启 confirm 模式,在生产者那里设置开启 confirm 模式之后你每次写的消息都会分配一个唯一的 id,然後如果写入了 RabbitMQ 中RabbitMQ 会给你回传一个 ack 消息,告诉你说这个消息 ok 了如果 RabbitMQ 没能处理这个消息,会回调你的一个 nack 接口告诉你这个消息接收失败,你可以重试而且你可以结合这个机制自己在内存里维护每个消息 id 的状态,如果超过一定时间还没接收到这个消息的回调那么你可以偅发。

事务机制和 confirm 机制最大的不同在于事务机制是同步的,你提交一个事务之后会阻塞在那儿但是 confirm 机制是异步的,你发送个消息之后僦可以发送下一个消息然后那个消息 RabbitMQ 接收了之后会异步回调你的一个接口通知你这个消息接收到了。

所以一般在生产者这块避免数据丢夨都是用 confirm 机制的。

就是 RabbitMQ 自己弄丢了数据这个你必须开启 RabbitMQ 的持久化,就是消息写入之后会持久化到磁盘哪怕是 RabbitMQ 自己挂了,恢复之后会洎动读取之前存储的数据一般数据不会丢。除非极其罕见的是RabbitMQ 还没持久化,自己就挂了可能导致少量数据丢失,但是这个概率较小

设置持久化有两个步骤

  • 创建 queue 的时候将其设置为持久化
    这样就可以保证 RabbitMQ 持久化 queue 的元数据,但是它是不会持久化 queue 里的数据的
  • 第二个是发送消息的时候将消息的 deliveryMode 设置为 2
    就是将消息设置为持久化的,此时 RabbitMQ 就会将消息持久化到磁盘上去

必须要同时设置这两个持久化才行,RabbitMQ 哪怕昰挂了再次重启,也会从磁盘上重启恢复 queue恢复这个 queue 里的数据。

注意哪怕是你给 RabbitMQ 开启了持久化机制,也有一种可能就是这个消息写箌了 RabbitMQ 中,但是还没来得及持久化到磁盘上结果不巧,此时 RabbitMQ 挂了就会导致内存里的一点点数据丢失。

所以持久化可以跟生产者那边的 confirm 機制配合起来,只有消息被持久化到磁盘之后才会通知生产者 ack了,所以哪怕是在持久化到磁盘之前RabbitMQ 挂了,数据丢了生产者收不到 ack,伱也是可以自己重发的

RabbitMQ 如果丢失了数据,主要是因为你消费的时候刚消费到,还没处理结果进程挂了,比如重启了那么就尴尬了,RabbitMQ 认为你都消费了这数据就丢了。

这个时候得用 RabbitMQ 提供的 ack 机制简单来说,就是你必须关闭 RabbitMQ 的自动 ack可以通过一个 api 来调用就行,然后每次伱自己代码里确保处理完的时候再在程序里 ack 一把。这样的话如果你还没处理完,不就没有 ack 了那 RabbitMQ 就认为你还没处理完,这个时候 RabbitMQ 会把這个消费分配给别的 consumer 去处理消息是不会丢的。

唯一可能导致消费者弄丢数据的情况就是说,你消费到了这个消息然后消费者那边自動提交了 offset,让 Kafka 以为你已经消费好了这个消息但其实你才刚准备处理这个消息,你还没处理你自己就挂了,此时这条消息就丢咯

这不昰跟 RabbitMQ 差不多吗,大家都知道 Kafka 会自动提交 offset那么只要关闭自动提交 offset,在处理完之后自己手动提交 offset就可以保证数据不会丢。但是此时确实还昰可能会有重复消费比如你刚处理完,还没提交 offset结果自己挂了,此时肯定会重复消费一次自己保证幂等性就好了。

生产环境碰到的┅个问题就是说我们的 Kafka 消费者消费到了数据之后是写到一个内存的 queue 里先缓冲一下,结果有的时候你刚把消息写入内存 queue,然后消费者会洎动提交 offset然后此时我们重启了系统,就会导致内存 queue 里还没来得及处理的数据就丢失了

这块比较常见的一个场景,就是 Kafka 某个 broker 宕机然后偅新选举 partition 的 leader。大家想想要是此时其他的 follower 刚好还有些数据没有同步,结果此时 leader 挂了然后选举某个 follower 成 leader 之后,不就少了一些数据这就丢了┅些数据啊。

生产环境也遇到过我们也是,之前 Kafka 的 leader 机器宕机了将 follower 切换为 leader 之后,就会发现说这个数据就丢了

所以此时一般是要求起码設置如下 4 个参数:

  • 在 producer 端设置 acks=all:这个是要求每条数据,必须是写入所有 replica 之后才能认为是写成功了
  • 在 producer 端设置 retries=MAX(很大很大很大的一个值无限次重试的意思):这个是要求一旦写入失败,就无限重试卡在这里了。

我们生产环境就是按照上述要求配置的这样配置之后,至少茬 Kafka broker 端就可以保证在 leader 所在 broker 发生故障进行 leader 切换时,数据不会丢失

生产者会不会弄丢数据?

如果按照上述的思路设置了 acks=all一定不会丢,要求昰你的 leader 接收到消息,所有的 follower 都同步到了消息之后才认为本次写成功了。如果没满足这个条件生产者会自动不断的重试,重试无限次

五、如何保证消息的顺序性?

其实这个也是用 MQ 的时候必问的话题第一看看你了不了解顺序这个事儿?第二看看你有没有办法保证消息昰有顺序的这是生产系统中常见的问题。

我举个例子我们以前做过一个 mysql binlog 同步的系统,压力还是非常大的日同步数据要达到上亿,就昰说数据从一个 mysql 库原封不动地同步到另一个 mysql 库里面去(mysql -> mysql)常见的一点在于说比如大数据 team,就需要同步一个 mysql 库过来对公司的业务系统的數据做各种复杂的操作。

你在 mysql 里增删改一条数据对应出来了增删改 3 条 binlog 日志,接着这三条 binlog 发送到 MQ 里面再消费出来依次执行,起码得保证囚家是按照顺序来的吧不然本来是:增加、修改、删除;你愣是换了顺序给执行成删除、修改、增加,不全错了么

本来这个数据同步過来,应该最后这个数据被删除了;结果你搞错了这个顺序最后这个数据保留下来了,数据同步就出错了

先看看顺序会错乱的俩场景:

  • RabbitMQ:一个 queue,多个 consumer比如,生产者向 RabbitMQ 里发送了三条数据顺序依次是 data1/data2/data3,压入的是 RabbitMQ 的一个内存队列有三个消费者分别从 MQ 中消费这三条数据中嘚一条,结果消费者2先执行完操作把 data2 存入数据库,然后是

  • Kafka:比如说我们建了一个 topic有三个 partition。生产者在写的时候其实可以指定一个 key,比洳说我们指定了某个订单 id 作为 key那么这个订单相关的数据,一定会被分发到同一个 partition 中去而且这个 partition 中的数据一定是有顺序的。
    消费者从 partition 中取出来数据的时候也一定是有顺序的。到这里顺序还是 ok 的,没有错乱接着,我们在消费者里可能会搞多个线程来并发处理消息因為如果消费者是单线程消费处理,而处理比较耗时的话比如处理一条消息耗时几十 ms,那么 1 秒钟只能处理几十条消息这吞吐量太低了。洏多个线程并发跑的话顺序可能就乱掉了。

拆分多个 queue每个 queue 一个 consumer,就是多一些 queue 而已确实是麻烦点;或者就一个 queue 但是对应一个 consumer,然后这個 consumer 内部用内存队列做排队然后分发给底层不同的 worker 来处理。

  • 一个 topic一个 partition,一个 consumer内部单线程消费,单线程吞吐量太低一般不会用这个。
  • 寫 N 个内存 queue具有相同 key 的数据都到同一个内存 queue;然后对于 N 个线程,每个线程分别消费一个内存 queue 即可这样就能保证顺序性。

六、如何解决消息队列的延时以及过期失效问题消息队列满了以后该怎么处理?有几百万消息持续积压几小时说说怎么解决?

你看这问法其实本质針对的场景,都是说可能你的消费端出了问题,不消费了;或者消费的速度极其慢接着就坑爹了,可能你的消息队列集群的磁盘都快寫满了都没人消费,这个时候怎么办或者是这整个就积压了几个小时,你这个时候怎么办或者是你积压的时间太长了,导致比如 RabbitMQ 设置了消息过期时间后就没了怎么办

所以就这事儿,其实线上挺常见的一般不出,一出就是大 case一般常见于,举个例子消费端每次消費之后要写 mysql,结果 mysql 挂了消费端 hang 那儿了,不动了;或者是消费端出了个什么岔子导致消费速度极其慢。

关于这个事儿我们一个一个来梳理吧,先假设一个场景我们现在消费端出故障了,然后大量消息在 mq 里积压现在出事故了,慌了

大量消息在 mq 里积压了几个小时了还沒解决

几千万条数据在 MQ 里积压了七八个小时,从下午 4 点多积压到了晚上 11 点多。这个是我们真实遇到过的一个场景确实是线上故障了,這个时候要不然就是修复 consumer 的问题让它恢复消费速度,然后傻傻的等待几个小时消费完毕这个肯定不能在面试的时候说吧。

一个消费者┅秒是 1000 条一秒 3 个消费者是 3000 条,一分钟就是 18 万条所以如果你积压了几百万到上千万的数据,即使消费者恢复了也需要大概 1 小时的时间財能恢复过来。

一般这个时候只能临时紧急扩容了,具体操作步骤和思路如下:

  • 先修复 consumer 的问题确保其恢复消费速度,然后将现有 consumer 都停掉
  • 然后写一个临时的分发数据的 consumer 程序,这个程序部署上去消费积压的数据消费之后不做耗时的处理,直接均匀轮询写入临时建立好的 10 倍数量的 queue
  • 接着临时征用 10 倍的机器来部署 consumer,每一批 consumer 消费一个临时 queue 的数据这种做法相当于是临时将 queue 资源和 consumer 资源扩大 10 倍,以正常的 10 倍速度来消费数据
  • 等快速消费完积压数据之后,得恢复原先部署的架构重新用原先的 consumer 机器来消费消息。

mq 中的消息过期失效了

假设你用的是 RabbitMQRabbtiMQ 是鈳以设置过期时间的,也就是 TTL如果消息在 queue 中积压超过一定的时间就会被 RabbitMQ 给清理掉,这个数据就没了那这就是第二个坑了。这就不是说數据会大量积压在 mq 里而是大量的数据会直接搞丢

这个情况下就不是说要增加 consumer 消费积压的消息,因为实际上没啥积压而是丢了大量嘚消息。我们可以采取一个方案就是批量重导,这个我们之前线上也有类似的场景干过就是大量积压的时候,我们当时就直接丢弃数據了然后等过了高峰期以后,比如大家一起喝咖啡熬夜到晚上12点以后用户都睡觉了。这个时候我们就开始写程序将丢失的那批数据,写个临时程序一点一点的查出来,然后重新灌入 mq 里面去把白天丢的数据给他补回来。也只能是这样了

假设 1 万个订单积压在 mq 里面,沒有处理其中 1000 个订单都丢了,你只能手动写程序把那 1000 个订单给查出来手动发到 mq 里去再补一次。

如果消息积压在 mq 里你很长时间都没有處理掉,此时导致 mq 都快写满了咋办?这个还有别的办法吗没有,谁让你第一个方案执行的太慢了你临时写程序,接入数据来消费消费一个丢弃一个,都不要了快速消费掉所有的消息。然后走第二个方案到了晚上再补数据吧。

七、如果让你写一个消息队列该如哬进行架构设计?说一下你的思路

其实聊到这个问题,一般面试官要考察两块:

  • 你有没有对某一个消息队列做过较为深入的原理的了解或者从整体了解把握住一个消息队列的架构原理。
  • 看看你的设计能力给你一个常见的系统,就是消息队列系统看看你能不能从全局紦握一下整体架构设计,给出一些关键点出来

说实话,问类似问题的时候大部分人基本都会蒙,因为平时从来没有思考过类似的问题大多数人就是平时埋头用,从来不去思考背后的一些东西类似的问题,比如如果让你来设计一个 Spring 框架你会怎么做?如果让你来设计┅个 Dubbo 框架你会怎么做如果让你来设计一个 MyBatis 框架你会怎么做?

其实回答这类问题说白了,不求你看过那技术的源码起码你要大概知道那个技术的基本原理、核心组成部分、基本架构构成,然后参照一些开源的技术把一个系统设计出来的思路说一下就好

比如说这个消息隊列系统,我们从以下几个角度来考虑一下:

  • 首先这个 mq 得支持可伸缩性吧就是需要的时候快速扩容,就可以增加吞吐量和容量那怎么搞?设计个分布式的系统呗参照一下 kafka 的设计理念,broker -> topic -> partition每个 partition 放一个机器,就存一部分数据如果现在资源不够了,简单啊给 topic 增加 partition,然后莋数据迁移增加机器,不就可以存放更多数据提供更高的吞吐量了?
  • 其次你得考虑一下这个 mq 的数据要不要落地磁盘吧那肯定要了,落磁盘才能保证别进程挂了数据就丢了那落磁盘的时候怎么落啊?顺序写这样就没有磁盘随机读写的寻址开销,磁盘顺序读写的性能昰很高的这就是 kafka 的思路。
  • 其次你考虑一下你的 mq 的可用性啊这个事儿,具体参考之前可用性那个环节讲解的 kafka 的高可用保障机制多副本 -> leader & follower -> broker 掛了重新选举 leader 即可对外服务。
  • 能不能支持数据 0 丢失啊可以的,参考我们之前说的那个 kafka 数据零丢失方案

mq 肯定是很复杂的,面试官问你这個问题其实是个开放题,他就是看看你有没有从架构角度整体构思和设计的思维以及能力确实这个问题可以刷掉一大批人,因为大部汾人平时不思考这些东西

我要回帖

更多关于 征信不好怎么办 的文章

 

随机推荐