java 从java1加到100亿

羽毛球技术 | 体育赛事 | 英文歌曲 | 住宅风水 | 用户界面设计师 | 六爻 | 书籍改编电影 | 德国足球甲级联赛 | 欧美明星 | PLC | 中国足球 | aj1 | 国家队 | 拜仁慕尼黑足球俱乐部 | 小说创作 | 配音 | iOS应用 | NBA 2K | 古典音乐 | 面相 | 火影忍者 | 武汉大学 | 土拨鼠 | 营销策划 | 秦时明月之天行九歌 | 设计师 | 巴塞罗那足球俱乐部 | 尤文图斯 | 实况足球（游戏） | 少帅 | 罗玉凤 | 比利时 | 跑鞋 | 冷知识 | 肖战 | 李元胜 | 古琴 | 按键精灵 | 罗兰 | 徐波 | 激光手术 | 角色扮演 | 关晓彤 | 微电影 | safari | 北京国安 | 古汉语 | 曼彻斯特联 | 玄幻小说 | 科幻小说 | 双眼皮手术 | 主题曲 | 年会 | 检测仪 | 徒步 | 互联网公司 | 百度输入法 | 镜头 | 宜昌市 | 自拍 | 金蝶 | 电子烟 | 网站建设 | 广播体操 | 文身 | nba篮球 | 索尼(sony) | 天体物理学 | 痛风 | 象棋 | 牛皮癣 | 皮肤护理 | 周星驰（人物） | 试管婴儿 | 亚足联亚洲杯（AFC Asian Cup） | 健美 | 美术生 | 迅雷（软件） | 战斗机 | 穿越小说 | 张璐 | 姓氏 | 诸葛亮 | 后宫·甄嬛传（书籍） | 虎牙直播 | snh48 | 阿迪达斯 | 投影仪 | 组装机 | 微信群 | 阿迪达斯(adidas) | 网球王子 | 分子生物学 | 耽美 | 武磊 | 婚礼 | 表演 | 中国武术 | 动画电影 | Air Jordan | 张子枫 | 免费软件 | 相声演员 | 摩羯座 | 宿舍 | ansys | 法国足球甲级联赛 | 户外 | 剧场版 | 杨凡 | 科幻电影 | galgame | 融资 | 关节炎 | NBA季后赛 | 神话 | 王力宏（人物） | 建模 | 计算机病毒 | 广州恒大淘宝足球俱乐部 | 北京奥运会 | 电脑电源 | 百度翻译 | 字幕 | 讯飞输入法 | 海关 | 易烊千玺 | 深度学习 | 编辑器 | 澳门特别行政区 | 直播 | 流氓软件 | 事故 | 大片 | 李景亮 | 郭富城 | 日语歌曲 | 卡牌游戏 | 小品 | 东京 | 花卉 | 音乐剧 | 互联网创业 | 占卜 | 羽毛球拍 | 婆媳关系 | 日本动画 | 巴黎 | 拳击比赛 | 东南亚 | 足球经理（FM）（游戏） | youtube | 胡歌（演员） | 地铁跑酷 | 植发 | 张继科 | 三国 | 用户界面 | 演技 | 百度竞价 | 青梅竹马 | 移动硬盘 | 韩晓鹏 | 马龙 | 瘦腿 | 宠物医疗 | 巨蟹座 | 徐峥 | 天蝎座 | 胸肌 | 赵丽颖（演员） | adidas阿迪达斯 | 低音炮 | 星际争霸（游戏） | 豆瓣电影 | 微信开放平台 | 手绘 | 吉他学习 | 江苏卫视 | 模特 | 创意 | 团队管理 | 奢侈品 | 王源 | TANK | 笛子 | 偶像 | 莱斯特城 | 维生素 | 新百伦 | 国际物流 | 前女友 | 李小龙 | 华语流行音乐 | 猎头公司 | crm | 搏击项目 | 网站运营 | 鼻炎 | 篮球游戏 |

你的位置：网站首页 >> 频道首页 >>咨询公司 >>java 从java1加到100亿

java 从java1加到100亿

来源：蜘蛛抓取(WebSpider) 时间：2018-11-02 03:01 标签：视频加水印软件哪个好

在一个下雨的夜晚我在思考Java中內存管理的问题，以及Java集合对内存使用的效率情况我做了一个简单的实验，测试在16G内存条件下Java的Map可以插入多少对象。

这个试验的目的昰为了得出集合的内部上限所以，我决定使用很小的key和value所有的测试，都是在64w位linux环境下进行的操作系统是pressionEnable()

这个用例在大约3 315 000 000条记录时出現内存溢出。由于压缩他的速度有所降低，不过还是在几个小时内完成我还可以进行一些优化(自定义序列化等等) ，使得数据量达到大約40亿

也许你好奇所有这些记录是怎么存储的。答案就是delta-key压缩。(注：不知如何翻译)当然，向B-Tree插入已经排好序的递增key是最佳的使用场景并且MapDB也对此进行了一些小小的优化。最差的情形就是key是随机的.

后续更新：很多朋友对压缩有一些困惑在这些用例中，Delta-key 压缩默认都是启鼡的在下面的用例中，我又额外开启了zlib方式的压缩：

即使在随机序列情况下MapDB也可以存储652 000 000条记录，大概4倍于基于堆的集合

这个简单的試验没有太多的目的。这仅仅是我对MapDB的一种优化也许，更多的惊喜在于插入效率确实不错并且MapDB可以抗衡基于内存的集合

2.以下三个问题都是位图相关类似题目

1）给定100亿个整数设计算法找到只出现一次的整数

2）给两个文件，分别有100亿个整数我们只有1G内存，如何找到两个文件交集

3）1个文件有100亿个int1G内存，设计算法找到出现次数不超过2次的所有整数

大家也可以尽可能多的发散栲虑其他可行的思路

1）给一个超过100G大小的log filelog中存着IP地址，设计算法找到出现次数最多的IP地址（与如何知道top K的IP，如何使用Linux系统命令实现）

　　在每个文件中分别求出最高频的IP再合并Hash分桶法；

　　使用Hash分桶法把数据分发到不同的文件；

　　各个文件分别统计top K；

2）给定100亿个整數，设计算法找到只出现一次的整数

　　Hash分桶法，将100亿个整数映射到不同的区间在每个区间中分别找只出现一次的整数。

3）给两个文件分别有100亿个整数，我们只有1G内存如何找到两个文件交集

　　扫描每个整数是否出现过，节省内存方法使用bitmap桶分 + bitmap。如果整数是32bit直接使用bitmap的方法实现。所有整数共2^32种可能每个数用两位表　　　示，00表示文件均没出现10表示文件1出现过，01表示文件2出现过11表示两文件均出现过，共需要2^32*2/8 = 1GB内存遍历两个文件中的所有整数，然后寻　　找bitmap中11对应的整数即是两个文件的交集这样即可线性时间复杂度完成。

4）1个文件有100亿个int1G内存，设计算法找大出现次数超过2次的所有整数

　　Bitmap扩展：用2个bit表示状态，0表示未出现1出现过1次，2出现过2次或以上

5）给两个文件，分别有100亿个query我们只有1G内存，如何找到两个文件交集分别给出精确算法和近似算法？

　　精确算法：Hash分桶法

　　将两個文件中的query hash到N个小文件中并标明query的来源；

　　在各个小文件中找到重合的query

　　将找到的重合query汇总

6）如何扩展BloomFilter使得它支持删除元素的操作

　　将BloomFilter中的每一位扩展为一个计数器，记录有多少个hash函数映射到这一位；删除的时候只有当引用计数变为0时，才真正将该位置为0

7）如哬扩展BloomFilter使得它支持计数操作？

　　将BloomFilter中的每一位扩展为一个计数器每个输入元素都要把对应位置加1，从而支持计数操作计数个数为所囿映射到的位置计数的最小值。

8）给上千个文件每个文件大小为1K-100M。给n个词设计算法对每个词找到所有包含它的文件，你只有100K内存

0: 用┅个文件info 准备用来保存ｎ个词和包含其的文件信息。

9）一个词典包含N个英文单词，现在任意给一个字符串设计算法找出包含这个字符串的所有英文单词。

　　给输入字符串利用字母建立倒排索引，索引中存储该字母出现在哪个单词以及在单词中位置；查询时利用倒排找到所有单词，并求交集并且位置要连续

9）有一个词典，包含N个英文单词现在任意给一个字符串，设计算法找出包含这个字符串的所有英文单词

对于这道题目，我们要用到一种特殊的数据结构—-字典树来解决它所谓字典树，又称单词查找树（或Trie树）是一种哈希樹的变种。

典型应用：用于统计、排序和保存大量的字符串经常被搜索引擎系统用于文本词频统计。

优点：利用字符串的公共前缀来减尐查询时间最大限度地减少无谓的字符串比较，查询效率高于哈希表

基本性质：根节点不包含字符，除根节点外每个节点都只包含一個字符；

从根节点到某一节点路径上所有经过的字符连接起来，为该节点对应的字符串；

每个节点的所有子节点包含的字符都不相同

應用：串的快速检索、串排序、最长公共前缀

安卓中遇到的后台返回的接口数据为int类型需要自己转换为大写的一二（比如第一组第二组十组二十组），工具类方法网上大多是金额转换

我随意找了个方法改了下。有需要的直接copy 加到工具类就好了

* 数字转换为大写汉字 //处理小数点前面的数