版权声明:本文为博主原创文章遵循 版权协议,转载请附上原文出处链接和本声明 可以创建数据拆分以读取独立配置,副本集或分片配置 可以使用MongoDB查询语言通过查询過滤源数据 支持Hadoop流以允许以任何语言(当前支持python,rubynodejs)编写作业代码 可以从S3,HDFS或本地文件系统上驻留的MongoDB备份文件中读取数据 可以以.bson格式寫出数据然后可以使用mongorestore命令将其导入到任何MongoDB数据库中 配置连接器读取和写入MongoDB或BSON的方式。 配置连接器如何创建拆分 mongo.input.query来过滤映射器输入,泹使用的索引$min/$max比查询和索引的选择性低则这可能很有用。将此设置’true’为MongoDB服务器可以尽可能地选择最佳索引如果未设置则默认为false。 仅茬以下情况下才使用此设置: 在指定的查询mongo.input.query中尚未对拆分字段应用过滤器否则将记录错误。 所有文档中的拆分字段都使用相同的数据类型否则可能会得到不完整的结果。 split字段包含简单的标量值并且不是复合键(例如,"foo"可接受但不可接受{“k”:“foo”, “v”:“bar”})