对于海量数据存储,用什么数据结构存储用户搜索的高频关键词比较合适

优秀研究生学位论文题录展示海量数据库数据存储及快速检索技术研究专 业: 光学工程关键词: 海量数据库 分离存储 特大图像 快速预览 快速显示 检索分类号: TP311 
G354形 态: 共 121 页 约 79,255 个字 约 3.791 M内容阅 读: 内容摘要海量数据库VLDB,是数据量非常大的数据库,它既不是一种独立的数据库体系,目前国际上也并未对它作进一步分类。为了研究的方便,本文主要把它分为记录海量型数据库和海量记录型数据库两类。海量数据库系统在远程教育、远程会议、远程医疗、电子商务、文献情报、预定系统、交通管理等多媒体信息系统中有着广阔的应用前景。但只有数据,即便是海量数据,其用处并不大;只有当数据找到关联性时,才变得有用。对VLDB的支持,不仅指的是数据库系统的数据量达到几百GB或TB,VLDB的性能更多地体现在对数据库系统的管理能力,包括日常管理、数据加载、索引建立、运行性能等,同时还需要支持大量的用户连接和大的工作负荷。只有在此基础上保持良好运行性能的系统才能构成海量数据库应用系统。该研究以数字航测相机所拍摄的特大图像为研究背景,致力于特大图像更广泛更深层次的应用。数字航测相机是国家863信息获取主题“十五”期间支持项目“863-13大面阵彩色CCD数字航测相机系统研制”的研究成果,它在国土资源调查、森林防火、防灾减灾、城市规划、特大工程设计如三峡工程、南水北调、西气东送等方面的应用很广泛。它拍摄的图像是约8500万像素,单幅图像的数据量达162MB,若一次飞行拍摄2000多幅图像,三次飞行后的数据量将达TB。要使海量的图像数据成为有用的数字产品并有着更广泛更深入的应用前景,急待要解决下面四个问题:1对单幅图像快速浏览,挑出有用的图像,减少冗余数据,方便存储管理;2对海量图像数据进行安全、快速的存储管理;3对海量图像快速检索,包括基于文本的检索和基于内容的检索;4构建具有强大管理能力和良好运行性能的海量图像数据库管理系统。本论文对海量数据库数据存储及快速检索技术进行了研究,特别是对上述四个问题进行了深入分析并分别编程进行了实践。探讨了不同存储对象的海量数据库构建方式。对于记录海量型数据库,利用关系型数据库结构就能实现对数据的高效管理和检索,并保持良好的运行性能。文中用SQLServer2000关系型数据库作了实践。文中对主要存储对象为文本和图像的这两种海量数据库作了深入研究。对于特大图像,把基于结构化属性的SQL检索、基于内容的文本检索和基于内容的图像检索三者相结合,采用金字塔数据结构和分离存储技术,实现了对海量数据库安全、方便和快速的存储管理与快速检索。基于结构化属性的方法,文中用数据库SQLServer2000设计了一个图像管理系统,它不仅具有基于文本的图像检索功能,还具有文件与数据库的双向传输与管理能力。把数据库管理与文件管理有机结合起来,实现了对数据的双重维护。为了实现特大图像的快速预览和显示,文中综合应用多种算法构建并实现了一个自适应、全自动、任意比例、通用格式、平滑和连续进行的图像批处理系统。用内存映射文件方法实现虚拟存储管理,进而实现了基于内容的文本检索。它不仅使文本型海量数据库很容易实现基于内容的快速检索,同时为用文本检索方法实现基于内容的图像检索这一新构想奠定了基础。设计了一个基于内容的文本检索系统,它能对成批的文件进行基于内容的快速检索,并在检索出的文件中以任意关键词匹配再次检索。构建了一个综合实例系统―图像处理及基于内容的图像检索系统IPCBIR,它不但具有软件ACDSee和PHOTOSHOP的大部分功能,而且实现了基于内容的图像检索。对实现方法进行了深入研究,以该实例的主要功能模块为主线,介绍了各自的实现算法,如缩略图的自动提取、图像局部的快速查看、图像的快速浏览及基于内容的图像检索等。对图像进行规范化处理,如这里用抽点法把任意大小的图像缩小为256x256,用分块法将图像的颜色信息与空间位置信息有机的结合起来,再用亮度化将RGB三颜色转化为亮度,这就从计算数据的源头上至少减少了三分之二的计算量。这些方法的综合应用,加快了图像的检索进程。多线程和递归搜索技术的运用是基于内容的图像检索系统的关键技术之一。多种算法组合使该检索系统具有一定的自适应能力,即使图像很大、数量很多,也能在该系统中得到快速检索与同步显示。实验表明,该软件系统具有较大的实用价值。实现了文本与图像的相互转换,使图像的分割、加密、再曝光、基于内容的图像检索等处理更容易通过文本方式实现。把数字图像处理转化为文本处理,可以利用现有文本处理的许多工具,使图像处理更加灵活方便。提出了用文本检索方法实现基于内容的图像检索这一新的构想,阐明了实现的可能性、必要性和重要性,也指出了尚存在的问题。最后对全文的工作进行了总结并对该领域的技术进行了展望,概括了主要技术成果和进一步工作的方向..……全文目录文摘英文文摘第一章 引言1.1数据库技术概述1.1.1数据库系统结构的发展1.1.2并行数据库技术1.1.3分布式数据库与联邦数据库技术1.1.4面向对象数据库与多媒体数据库技术1.1.5模糊数据库与演绎数据库技术1.1.6数据仓库、数据挖掘与数据库的联机分析处理技术1.1.7海量数据库技术1.2信息检索技术概述1.3国内外研究和应用状态1.4文献检索报告1.5论文选题及主要工作简介1.6本文的内容安排第二章 基于SQL的数据存储与检索研究及实现2.1海量记录文本数据库2.1.1海量记录文本数据库的特点2.1.2海量记录文本数据库的分类和技术现状2.1.3多字段海量记录文本数据库管理系统设计实例2.2海量记录图像数据库2.2.1海量记录图像数据库的特点2.2.2基于SQL的海量记录图像数据库的检索实例2.2.3图像管理系统的特点2.3本章小节第三章 海量数据的快速存储研究及实现3.1数据存储技术概述3.2虚拟存储技术3.2.1虚拟存储的概述与分类3.2.2虚拟存储技术的实现方式及其特点3.2.3虚拟存储的优点及其具体应用3.2.4单机系统应用虚拟存储的方法3.3特大图像的存储方案构建3.3.1特大图像的特点3.3.2特大图像的快速显示设计及实现3.4特大图像的分离存储与快速预览设计及实现3.4.1金字塔数据结构及分离存储技术方案构建3.4.2实现原理3.4.3算法流程3.4.4提取缩略图的算法与快速显示技术3.5特大图像批处理的设计实例3.6本章小节第四章 基于内容的文本检索技术研究及实现4.1基于内容的文本检索技术综述4.2文本搜索引擎的设计与实现4.2.1文本搜索引擎的设计4.2.2文本搜索引擎的实现4.3虚拟存储技术的应用4.3.1内存映射文件的设计4.3.2内存映射文件的实现4.4实例4.5本章小节第五章 图像检索技术研究及实现5.1图像检索技术综述5.2图像索引和检索的主要方法5.3基于文本的图像检索技术5.4基于内容的图像检索技术5.4.1基于内容的图像检索技术简介5.4.2基于内容的图像检索系统的概念模型和体系机构5.4.3图像特征的分类5.5图像相似度的度量方法5.6图像检索系统效果评价5.7典型系统简介5.8图像处理及基于内容的图像检索系统IPCBIR设计5.8.1功能概述5.8.2系统介绍5.8.3主要功能模块的实现方法5.8.4开发工具的综合应用5.8.5多线程技术应用5.8.6递归算法的应用5.8.7检索性能评估5.8本章小节第六章 用文本检索方法实现基于内容的图像检索6.1概述6.2实现原理6.3算法流程6.4检索实现6.4.1基于内容的文本检索6.4.2图像映射成文本6.4.3文本还原为图像6.5本章小结第七章 结论及展望7.2展望参考文献附录1基于内容的图像检索系统部分代码注释相似论文,72页,TP311.52
TH83,91页,TP311.52
E257-37,59页,TP311
TN305.8,62页,TP311.52,78页,TP311.52 V241.62,70页,TP311.138,59页,TP311.52,83页,TP311.52,62页,TP311.131 TP333.35,60页,TP319,71页,TP315,75页,TP317.4 TN223,65页,TP319 TN248.13,68页,TP319 TG665,69页,TP316.2 TN931.3 O439,54页,TP319 TN957.53,144页,TP316.2,60页,TP311,67页,TP31,75页,TP31中图分类:
> TP311 > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程其他分类:
> <font color=@4 > 文化、科学、教育、体育 > 科学、科学研究 > 情报学、情报工作 > 情报检索
& 2012 book.十道腾讯软件开发工程师面试题,数据库面试题 - 猪猪资讯网
猪猪资讯网
&&&&&& & 正文 &
十道腾讯软件开发工程师面试题
点击:1469次
程序员客栈
三月初的时候无意中收到深圳腾讯云的电话(对方表明身份后,说看到我的简历,想和我聊聊。当时没有电面经验再加上也没有进来也没有投简历,爽快的答应聊就聊呗。上来就是技术问题,当时蒙了,我简历也不知道啥时候怎么他就知道啦,当时电面后想着估计黄啦),后面就没音讯啦,从那次以后开始踏上2016找实习的…
三月初的时候无意中收到深圳腾讯云的电话(对方表明身份后,说看到我的简历,想和我聊聊。当时没有电面经验再加上也没有进来也没有投简历,爽快的答应聊就聊呗。上来就是技术问题,当时蒙了,我简历也不知道啥时候怎么他就知道啦,当时电面后想着估计黄啦),后面就没音讯啦,从那次以后开始踏上2016找实习的征途。之后再内推腾讯互动娱乐,没收收到电面。所以按照正常的实习生流程走下来。经过笔试,一个礼拜后于4月9号夜收到腾讯一面通知(4月10号),今天特意分享一下《十道腾讯软件开发工程师面试题》希望大家能够受用。1、介绍一下你自己。(严格来说这个不能算一个问题,每家公司基本都要问)一、OSI模型有几层?二、说说C++的多态?为什么使用虚函数比非虚函数耗费的时间更多?三、有一个全局变量int a=0,现在两个线程各自循环执行100次a++操作,问最后a的值是多少?四、对于海量数据,用什么数据结构存储用户搜索的高频关键词比较合适?比如,当用户输入“黄”字,输入框要自动显 示“黄晓明”,“黄蓉”,“黄山”,“黄鹤楼”等提示,但是能存储的量很有限,所以需要选择恰当的数据结构。(我先后说 了数组和堆,似乎都被否决了)五、智力题:一片草地的草每天匀速地长,m只羊花p天能吃完,n只羊花q天能吃完,问现在k只羊花多少天能吃完?( 记不清m,p,n,q,k的具体数值了,总之是根据已有的两个条件列出二元一次方程组来求解)六、手写快速排序程序。快排的复杂度是多少?给定1组数1,4,5,5,8,9,7,在快排过程中这两个5是否会被交换?七、简述怎样用两个栈实现一个队列的功能?只需实现入队、出队。八、你想打开电视看世界杯,结果发现电视黑屏完全没反应,应该怎么检测故障?二面的两个问题我是这么解答的:九、写一个函数判断一个字符串里的小括号、大括号是否匹配。例如,输入为"(){}"时输出为true,输入为“{(aa)}”时输出为true,输入为“({)}”时输出为false。(我用一个栈来存储,对字符串从左往右扫描,遇到左括号就压进栈里,遇到右括号就判断是否跟栈顶元素匹配,如果不匹配就让整个函数直接返回false,如果匹配就取出栈顶元素。注意右括号始终不会进栈。扫描完后如果栈不为空就说明还有多余的左括号,返回false;否则返回true。)十、如果AB*C=DE,DE+FG=HI,其中从A到I这9个字母代表9个不同的数字,求这9个数字分别是多少。(我写了5重循环,A,B,C分别从0到9循环,用一个布尔数组记录每个数字是否使用过,筛掉有重复数字的情况,然后可以直接根据AB*C=DE求出D,E,再筛掉有重复数字的情况,然后这个内层循环里再让F,G分别从0到9循环,可直接得出H,I,检查是否符合。最后面试官跟我说第2题他本来想让我用数学方法求解的,没想到我直接就写了代码了,他嫌麻烦了。)最后问了一下个人的学习和生活情况。这位面试官搞并行处理,我到房间的时候他正在给另一个同学面试,他就拿来两张纸让我站在门口写代码,相当于把每人半小时的面试时间压缩了一半……最后给大家再支个招:可以去里面搜索腾讯在职或者曾经在职的师兄,只需要简单的预约他们一个小时电话,然后就开始唠嗑吧,这样你入职的概率会大很多哦。十道腾讯软件开发工程师面试题&&
本来在一家公司工作,三月初的时候无意中收到深圳腾讯云的电话(对方表明身份后,说看到我的简历,想和我聊聊。当时没有电面经验再加上也没有进来也没有投简历,爽快的答应聊就聊呗。上来就是技术问题,当时蒙了,我简历也不知道啥时候怎么他就知道啦,当时电面后想着估计黄啦),后面就没音讯啦,从那次以后开始踏上2016找实习的征途。之后再内推腾讯互动娱乐,没收收到电面。所以按照正常的实习生流程走下来。经过笔试,一个礼拜后于4月9号夜收到腾讯一面通知(4月10号),今天特意分享一下《十道腾讯软件开发工程师面试题》希望大家能够受用。
1、介绍一下你自己。(严格来说这个不能算一个问题,每家公司基本都要问)
一、OSI模型有几层?
二、说说C++的多态?为什么使用虚函数比非虚函数耗费的时间更多?
三、有一个全局变量int a=0,现在两个线程各自循环执行100次a++操作,问最后a的值是多少?
四、对于海量数据,用什么数据结构存储用户搜索的高频关键词比较合适?比如,当用户输入“黄”字,输入框要自动显 示“黄晓明”,“黄蓉”,“黄山”,“黄鹤楼”等提示,但是能存储的量很有限,所以需要选择恰当的数据结构。(我先后说 了数组和堆,似乎都被否决了)
五、智力题:一片草地的草每天匀速地长,m只羊花p天能吃完,n只羊花q天能吃完,问现在k只羊花多少天能吃完?( 记不清m,p,n,q,k的具体数值了,总之是根据已有的两个条件列出二元一次方程组来求解)
六、手写快速排序程序。快排的复杂度是多少?给定1组数1,4,5,5,8,9,7,在快排过程中这两个5是否会被交换?
七、简述怎样用两个栈实现一个队列的功能?只需实现入队、出队。
八、你想打开电视看世界杯,结果发现电视黑屏完全没反应,应该怎么检测故障?
二面的两个问题我是这么解答的:
九、写一个函数判断一个字符串里的小括号、大括号是否匹配。例如,输入为&(){}&时输出为true,输入为“{(aa)}”时输出为true,输入为“({)}”时输出为false。
(我用一个栈来存储,对字符串从左往右扫描,遇到左括号就压进栈里,遇到右括号就判断是否跟栈顶元素匹配,如果不匹配就让整个函数直接返回false,如果匹配就取出栈顶元素。注意右括号始终不会进栈。扫描完后如果栈不为空就说明还有多余的左括号,返回false;否则返回true。)
十、如果AB*C=DE,DE+FG=HI,其中从A到I这9个字母代表9个不同的数字,求这9个数字分别是多少。
(我写了5重循环,A,B,C分别从0到9循环,用一个布尔数组记录每个数字是否使用过,筛掉有重复数字的情况,然后可以直接根据AB*C=DE求出D,E,再筛掉有重复数字的情况,然后这个内层循环里再让F,G分别从0到9循环,可直接得出H,I,检查是否符合。最后面试官跟我说第2题他本来想让我用数学方法求解的,没想到我直接就写了代码了,他嫌麻烦了。)
最后问了一下个人的学习和生活情况。这位面试官搞并行处理,我到房间的时候他正在给另一个同学面试,他就拿来两张纸让我站在门口写代码,相当于把每人半小时的面试时间压缩了一半……
最后给大家再支个招:
可以去里面搜索腾讯在职或者曾经在职的师兄,只需要简单的预约他们一个小时电话,然后就开始唠嗑吧,这样你入职的概率会大很多哦。
被转藏 : 1次
被转藏 : 1次

我要回帖

更多关于 海量数据存储 的文章

 

随机推荐