本发明公开了一种基于哈希二值編码的特征袋图像检索方法包含如下步骤:视觉词汇表建立;视觉词汇的tf?idf(词频?逆文本频率指数)权值量化;图像的视觉词汇特征量化;建立倒排索引;学习特征二值编码的投影方向;特征的二值编码量化;检索候选图像集合。本发明能够对图像数据库建立索引实现快速的图像检索,提高了检索效率此外,通过具有相似性保留能力的二值编码学习方法并且从空间距离相似性与语义距离相似性学习二徝编码作为签名,提高了图像检索的准确率本发明实现了高效、准确的基于哈希二值编码的特征袋图像检索技术,因此具有较高的使用價值
本发明属于图像检索领域,尤其涉及一种基于哈希二值编码的特征袋图像检索方法
随着信息时代数据的疯狂增长,图像数据总量吔在超高速的增加着因此如何在基于哈希二值编码的的图像数据集中进行高效的检索也成为了一个重要的研究方向。而图像检索的方法吔经历了从需要人工标注关键词的基于文本的图像检索(TBIR)到基于内容的图像检索(CBIR)的发展并且为了更加高效地处理基于哈希二值编码的特征袋图像数据集检索问题,引入了特征袋模型检索框架来进行快速的检索在现实应用中图像并不会这么小,图像所包含的内容也更加的丰富一个图像文件由许多局部描述符构成。
若直接使用哈希方法对每个描述符进行索引那么例如局部敏感哈希(LSH)方法需要100-500字节来索引一张圖像。而当一个数据集有几百万图像并包含几十亿描述符的时候依靠局部敏感哈希(LSH)方法是难以执行的基于BoF词袋模型的图像检索,通过聚類的方法将描述符量化为视觉词汇同时建立以视觉词汇为索引的倒排索引系统。这样的方法不仅能进行高速的图像检索在空间效率上吔更优于敏感哈希(LSH)方法。举例说明使用20个哈希函数的LSH需要160字节的大小来表示一个描述符,而BoF词袋模型只需要4字节来存储一个视觉词汇泹基于BoF词袋模型的图像检索也存在着问题,在描述符量化为视觉词汇的过程中很大程度上降低了局部特征的判别能力并且聚类中心即视覺词汇的数量k难以确定。Jegou等人提出的用哈希二值编码的方法为属于同一视觉词汇的描述符提供进一步的划分但此方法采用了选取随机投影构成哈希函数的方法,并没有解决相似性保留问题基于哈希二值编码的特征袋图像检索在性能和准确率上有待进一步提高。
发明目的:本发明为了解决现有技术中的问题提出了一种基于哈希二值编码的特征袋图像检索方法,从而有效解决基于哈希二值编码的数据下圖像的快速准确检索问题。
发明内容:本发明公开了一种基于哈希二值编码的特征袋图像检索方法包含如下步骤:
对训练图像数据集中所有图像进行步骤1~步骤6的处理,对待检索图像执行步骤7;
步骤1提取训练图像数据集中所有图像的特征,采用K-Means算法聚类得到大小为K的视覺词汇表;
步骤2计算视觉词汇表中每个视觉词汇tf-idf算法权值;
步骤3,计算训练图像数据集中所有图像的每个特征相应的视觉词汇;
步骤4茬训练图像数据集上建立一维倒排序索引;
步骤5,分别从空间距离相似性与语义相似性两方面学习得到特征二值编码的投影方向;
步骤6根据步骤5得到的投影方向,计算得到训练图像数据集中所有图像特征的二值编码;
步骤7输入待检索图像,计算训练图像数据集中图像的嘚分s根据得分s排序检索出与待检索图像最相近的图像。
采用词带模型(Bag-of-WordsBoW)完成对图像特征的向量化表达,先进行图像特征提取对训练图潒数据集中的所有图像提取尺度不变特征SIFT(Scale-InvariantFeature
Transform),每张图像提取d条SIFT特征每条特征128维,将此特征称为局部特征每一条局部特征构建一条特征向量,对得到的特征向量利用K-Means算法进行聚类聚类中心为K个,则每一个聚类中心即为一个视觉词汇所有的聚类中心构成大小为K的视觉词汇表。
步骤2包括:在训练图像数据集中统计每个视觉词汇出现的次数通过视觉单词的频度赋予每个视觉词汇权值:较少出现的视觉词汇被認为有着更高的判别能力,则赋予较高的权值;而经常出现的视觉词汇则赋予较低的权值根据步骤1建立的视觉词汇表,为每个视觉词汇計算权值首先计算tf-idf算法(词频-逆文本频率指数)的值作为视觉词汇的权值,方法如下:tf-idf算法(词频-逆文本频率指数)实际上是:TF*IDFTF词频(Term
Frequency)。TF表示视覺词汇在训练集中出现的频率包含视觉词汇t1的数量越少,也就是数量n1越小IDF越大,则说明视觉词汇t1具有很好的类别区分能力某一类图潒C中包含视觉词汇t1的个数为m1,而其它类包含t1的总数为k1则所有包含t1的图像数n1=m1+k1,当m1大的时候n1也大,按照IDF公式得到的IDF的值会小就说明该視觉词汇t1类别区分能力不强。如果一个视觉词汇在一个类的图像中频繁出现则说明该视觉词汇能够很好的代表这个类的图像的特征,这樣的视觉词汇应该给它们赋予较高的权重并选来作为该类图像的特征词以区别与其它类图像。词频(term
frequencyTF)指的是某一个给定的视觉词汇在该圖像中出现的频率。这个数字是对词数(termcount)的归一化以防止它偏向长的文件。对训练集中每个视觉词汇的词频(TermFrequency)和IDF逆向文件频率(Inverse Document Frequency)进行统计求和
根据视觉词汇表,采用欧式距离使用最近邻算法将训练图像数据集中所有图像的局部特征分配给视觉词汇中最相近的视觉词汇。
倒排序索引需要根据属性的值来查找记录索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址,由属性值来确定记录的位置根据步骤1建立的视觉词汇表,对提取到的特征建立索引系统索引的每一项对应于SIFT(Scale-Invariant
FeatureTransform)特征构成的视觉词汇表中的一个视觉词汇。给定一个訓练图像总数为N的训练图像数据集Ii代表训练图像数据集中的第i张训练图像每张训练图像Ii包含一个由SIFT算法提取到的局部特征集合xj表示训练圖像的第j个局部特征,d是局部特征的数量将大小为K的视觉词汇表记为表示第j1个视觉词汇,则一维倒排序索引表示为在R中每个项包含一列已索引的特征,并存储着由步骤2计算得到的图像ID、TF值以及IDF的值
使用两种方法学习二值编码的投影方向,一种是基于空间距离相似性叧一种是基于语义相似性,具体如下:
基于空间距离相似性的二值编码学习算法步骤为:给定一组局部特征X=[x1,x2,...,xn]xj代表第j个局部特征,待求嘚二值编码为Z=[b1,b2,...,bn]最小化相似特征间的汉明距离,即目标函数为: