word 里面向量word排版技巧问题

文档分类:
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,
下载前请先预览,预览内容跟原文是一样的,在线预览图片经过高度压缩,下载原文更清晰。
您的浏览器不支持进度条
淘豆网网友近日为您收集整理了关于Word排版素材_长文档草稿的文档,希望对您的工作和学习有所帮助。以下是文档介绍:1 绪论1.1 课题的背景和意义1.1.1 研究的背景本课题源于国家 863 高技术研究发展计划:“面向教育的海量知识资源组织、管理与服务系统”,该项目旨在研究一套区别于搜索引擎和现有数字文献管理系统的,支持用户多层次、多粒度知识获取,能够体现知识资源内在关联的导航与互动学习,并支持用户个性化查询和结果呈现的知识资源管理与服务系统。系统的体系结构包括:1、知识资源的组织与管理;2、知识资源的处理;3、个性化多模式三个层次。相似性度量算法的关键技术是词汇、句子间语义相似度计算算法。语义相似度计算的准确性直接影响到主题图最后融合的效果,因此语义相似性度量的研究在主题图融合过程有着很重要的作用。1.1.2 研究的目的和意义扩展主题图的数据格式用于描述信息资源组织、管理的结构,具有独立性和通用性,展示形式为“主题--知识元—资源”。相对于传统的基于元数据的资源组织方式,扩展主题图在物理资源实体上架构了一层语义网,实现了资源实体和抽象概念之间的语义组织和衔接,能提供知识的多层次,多粒度的语义搜索与导航。现有的语义相似性度量的方法主要有基于词典和基于语料库两种。词典有着丰富的语义信息,但存在着未登录词的严重问题。目前发布的实用的词典:英文的(词网)、中文的(知网)[2],均是封闭的系统,在计算未登录词时效果很差。1.2 国内外研究现状863 课题组针对传统主题图无法提供多粒度知识组织管理的问题,提出了扩展主题图标准。当前关于扩展主题图的研究较少,本文在此只介绍传统主题图的相关研究。1)主题图和主题图融合研究现状主题图(Topic Maps)的概念最初是由 W3C(World Wide Web Consortium 全球万维网联盟的简称)提出的,并由国际标准组织 SGML(Standard Generalized Markup Language)委员会第三工作小组的研究人员开发,用来实现索引和辞典构建过程的形式化。这些早期努力演变的结果就是 ISO/IEC [3],这项国际标准定义出了 Topic Maps 的完整数据模型。2001年,基于可扩展标记语言(Extensible Markuo Language,XML)的 XML 主题图—XML TopicMaps(XTM)[4]成为 ISO/IEC 13250 的一部分。同年,ISO 委员会又提出主题图查询语言TMQL(ISO/IEC18048)和主题图约束语言 TMCL (ISO/IEC1975)。主题图融合方面,在国外,2004 年 Lutz Maicher 等人提出了 SIM 算法[5]和 2007 年由 Jung-MnKim[6]提出了 TM-MAP 算法。SIM 算法的本质是字符统计法,TM-MAP 算法较之有很大的改进,一定程度上涉及到主题图本身所蕴含的语义信息,但核心思想还是基于字符统计。在国内,2006 年,由南京航空航天大学的吴笑凡等人提出了基于主题和资源合并的 TOM 算法[7],TOM 算法与 SIM 算法类似,基于字符统计,涉及到主题图三要素中的两个。2)词汇相似性度量研究现状国内比较突出的是中国科学院计算技术研究所的刘群[8]等人提出的基于《知网》的词汇语义相似度计算。刘群等的语义相似度计算方法以《知网》为计算依托,充分利用了《知网》中的义原(描述一个“概念”—词语的最小意义单位)通过上下位关系组成的一个树状义原层次体系。为了计算用知识描述语言表达的两个概念的语义表达式之间的相似度,该算法采用了“整体的相似度等于部分相似度加权平均”的做法。该算法在同义、近义词语间的相似度计算结果上测试效果良好,但仅仅利用《知网》中义原间的上下位关系,所以对对义、反义的词语测试应用不佳,测试结果不利于进行词语的极性识别分析。国外较为突出的是美国的蒙大拿州立大学的Shen Wan 和Rafal A.(词网)的上下文向量的语义相似度计算算法[9],该算法将一个概念的认知感觉定义为直接语义关联与与其相关的间接语义关联的综合体,的层次关系建立上下文的空间,及向量,最后通过计算两个概念对应向量的余弦值得到相似度的值。该算法理解简单,实用,可操作性强,在测试结果上有一定的准确度。但由于其仅仅利用了词网中概念间的上下文关系,计算公式也没考虑到概念的权重问题,因此在一些基准词间的测试效果不理想。美国卡耐基梅隆大学的Satanjeev Banerjee[10]等提出了扩展注释重叠语义相似度计算算法,每一对概念都被赋予和每个词注释相关的重叠词序列的一个关联值,在计算比较过程中不仅仅比较两个词语义注释词序列的串重合程度,而且通过关系间的属性及相似性来综合分析语义间的上位、下位、部分和整体的关联关系,该算法利用了概念间的多种关联关系,属性间的联系进行多次字符串间的匹配,在进行加权整合计算,测试效果很好,在一定程度上接近了认知效用,但空间、时间复杂度很高。3)句子相似性度量研究现状目前,国内外存在着很多句子相似性度量的方法。在国外,Niladri[11]提出了一种基于线性模型的相似度度量模式,其相关系数由多重回归技术确定,句子的相似性(或者说是非相似性)由一系列决定句子不相似成分共同作用的结果组成。Nirenburg[12]等提出了两种串匹配的方法,即:“切块+匹配+重组”方法和整句级匹配的方法。这两种方法所采用的相似性度量原理都是词组合法。Lambros 等提出同时依据句子的表层结构和 content 计算相似度的方法[13],方法使用了两级动态规划技术,应用动态规划算法允许在两个长度不同的句子之间计算语句相似度。国内研究汉语句子句子相似度的学者也较多。李素建[14]基于知网和同义词词林,提出了语句相关度的定量计算模型;陈利人[15]等提出了句子相似度包括结构相似度和语义相似度两个概念,认为句子相似度计算包括两个步骤:首先,使用词结构相似度计算,得到句子的结构相似度;然后,在句子结构相似度的基础上,再进行句子语义相似度计算。吕学强[16]等考虑词形与词序相似度两个因素,提出了句子相似模型与最相似句子的查找算法;秦兵[17]等使用向量空间模型的 TF~IDF 法和基于语义本体的方法,面向常见问题集计算问句间的语义相似度;杨思春[18]等使用具有部分格语义的语法功能句型计算模式来实现句子相似度计算等等。上面的方法大部分是简单的的使用语义词典,没有考虑到句子的内部信息和词语间的相互作用和联系,没有考虑到句子蕴含的一些特征,因此准确率并不高。1.3 本文的研究 content1.3.1 研究 content本文在对扩展主题图融合中的语义冲突进行研究分析基础上,详细研究解决冲突的关键技术—语义相似性度量技术。首先分析扩展主题图融合中主题间的语义冲突问题,提出一种基于本体和语料库的综合词汇相似度计算方法。然后针对扩展主题图融合中知识元间的语义冲突问题,结合课题中知识元的特点(知识元的资源来源是单个句子),提出基于全信息理论的句子相似度计算方法。最后,对所提的两种相似性度量算法进行综合测试分析,并融合到扩展主题图融合模块,整合到整1播放器加载中,请稍候...
该用户其他文档
下载所得到的文件列表Word排版素材_长文档草稿.doc
文档介绍:
1 绪论1.1 课题的背景和意义1.1.1 研究的背景本课题源于国家 863 高技术研究发展计划:“面向教育的海量知识资源组织、管理与服务系统”,该项目旨在研究一套区别于搜索引擎和现有数字文献管理系统的,支持用户多层次、多粒度知识获取,能够体现知识资源内在关联的导航与互动学习,并支持用户个性化查询和结果呈现的知识资源管理与服务系统。系统的体系结构包括:1、知识资源的组织与管理;2、知识资源的处理;3、个性化多模式三个层次。相似性度量算法的关键技术是词汇、句子间语义相似度计算算法。语义相似度计算的准确性直接影响到主题图最后融合的效果,因此语义相似性度量的研究在主题图融合过程有着很重要的作用。1.1.2 研究的目的和意义扩展主题图的数据格式用于描述信息资源组织、管理的结构,具有独立性和通用性,展示形式为“主题--知识元—资源”。相对于传统的基于元数据的资源组织方式,扩展主题图在物理资源实体上架构了一层语义网,实现了资源实体和抽象概念之间的语义组织和衔接,能提供知识的多层次,多粒度的语义搜索与导航。现有的语义相似性度量的方法主要有基于词典和基于语料库两种。词典有着丰富的语义信息,但存在着未登录词的严重问题。目前发布的实用的词典:英文的(...
内容来自淘豆网转载请标明出处.
浏览:14次 上传我的文档
 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
正在努力加载中...
〔大学论文〕机电毕业论文 基于单片机的PWM调光灯设计(含word文档)
下载积分:300
内容提示:〔大学论文〕机电毕业论文 基于单片机的PWM调光灯设计(含word文档)
文档格式:PDF|
浏览次数:117|
上传日期: 17:26:30|
文档星级:
该用户还上传了这些文档
〔大学论文〕机电毕业论文 基于单片机的PWM调光灯设计
官方公共微信本文是讲述如何使用的基础教程,文章比较基础,希望对你有所帮助!官网下载地址:官网下载地址:1.简单介绍参考:《Word2vec的核心架构及其应用 & 熊富林,邓怡豪,唐晓晟 & 北邮2015年》《Word2vec的工作原理及应用探究 & 周练 & 西安电子科技大学2014年》《Word2vec对中文词进行聚类的研究 & 郑文超,徐鹏 & 北京邮电大学2013年》PS:第一部分主要是给大家引入基础内容作铺垫,这类文章很多,希望大家自己去学习更多更好的基础内容,这篇博客主要是介绍Word2Vec对中文文本的用法。(1) 统计语言模型统计语言模型的一般形式是给定已知的一组词,求解下一个词的条件概率。形式如下:统计语言模型的一般形式直观、准确,n元模型中假设在不改变词语在上下文中的顺序前提下,距离相近的词语关系越近,距离较远的关联度越远,当距离足够远时,词语之间则没有关联度。但该模型没有完全利用语料的信息:1) 没有考虑距离更远的词语与当前词的关系,即超出范围n的词被忽略了,而这两者很可能有关系的。例如,“华盛顿是的首都”是当前语句,隔了大于n个词的地方又出现了“北京是中国的首都”,在n元模型中“华盛顿”和“北京”是没有关系的,然而这两个句子却隐含了语法及语义关系,即”华盛顿“和“北京”都是名词,并且分别是和中国的首都。2) 忽略了词语之间的相似性,即上述模型无法考虑词语的语法关系。例如,语料中的“鱼在水中游”应该能够帮助我们产生“马在草原上跑”这样的句子,因为两个句子中“鱼”和“马”、“水”和“草原”、“游”和“跑”、“中”和“上”具有相同的语法特性。而在神经网络概率语言模型中,这两种信息将充分利用到。(2) 神经网络概率语言模型神经网络概率语言模型是一种新兴的算法,该模型通过学习训练语料获取和概率密度函数,词向量是多维实数向量,向量中包含了自然语言中的语义和语法关系,词向量之间余弦距离的大小代表了词语之间关系的远近,词向量的加减运算则是计算机在&遣词造句&。神经网络概率语言模型经历了很长的发展阶段,由Bengio等人2003年提出的神经网络语言模型NNLM(Neural network language model)最为知名,以后的发展工作都参照此模型进行。历经十余年的研究,神经网络概率语言模型有了很大发展。如今在架构方面有比NNLM更简单的、Skip-gram模型;其次在训练方面,出现了Hierarchical Softmax算法、负采样算法(Negative Sampling),以及为了减小频繁词对结果准确性和训练速度的影响而引入的欠采样(Subsumpling)技术。上图是基于三层神经网络的自然语言估计模型NNLM(Neural Network Language Model)。NNLM可以计算某一个上下文的下一个词为wi的概率,即(wi=i|context),词向量是其训练的副产物。NNLM根据语料库C生成对应的词汇表V。神将网络知识可以参考我的前文博客:神经网络和机器学习基础入门分享NNLM推荐Rachel-Zhang大神文章:word2vec——高效word特征求取近年来,神经网络概率语言模型发展迅速,Word2vec是最新技术理论的合集。Word2vec是公司在2013年开放的一款用于训练词向量的软件工具。所以,在讲述word2vec之前,先给大家介绍词向量的概念。(3) 词向量参考:licstar大神的NLP文章 Deep Learning in NLP (一)词向量和语言模型正如作者所说:Deep Learning 算法已经在图像和音频领域取得了惊人的成果,但是在 NLP 领域中尚未见到如此激动人心的结果。有一种说法是,语言(词、句子、篇章等)属于人类认知过程中产生的高层认知抽象实体,而语音和图像属于较为底层的原始输入信号,所以后两者更适合做deep learning来学习特征。但是将词用“词向量”的方式表示可谓是将 Deep Learning 算法引入 NLP 领域的一个核心技术。自然语言理解问题转化为机器学习问题的第一步都是通过一种方法把这些符号数学化。词向量具有良好的语义特性,是表示词语特征的常用方式。词向量的每一维的值代表一个具有一定的语义和语法上解释的特征。故可以将词向量的每一维称为一个词语特征。词向量用 Representation表示,一种低维实数向量。例如,NLP中最直观、最常用的词表示方法是One-hot Representation。每个词用一个很长的向量表示,向量的维度表示词表大小,绝大多数是0,只有一个维度是1,代表当前词。“话筒”表示为 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 …] 即从0开始话筒记为3。但这种One-hot Representation采用稀疏矩阵的方式表示词,在解决某些任务时会造成维数灾难,而使用低维的词向量就很好的解决了该问题。同时从实践上看,高维的特征如果要套用Deep Learning,其复杂度几乎是难以接受的,因此低维的词向量在这里也饱受追捧。Distributed Representation低维实数向量,如:[0.792, -0.177, -0.107, 0.109, -0.542, …]。它让相似或相关的词在距离上更加接近。总之, Representation是一个稠密、低维的实数限量,它的每一维表示词语的一个潜在特征,该特征捕获了有用的句法和语义特征。其特点是将词语的不同句法和语义特征分布到它的每一个维度上去表示。推荐我前面的基础文章:Python简单实现基于VSM的余弦相似度计算(4) Word2vec参考:Word2vec的核心架构及其应用 & 熊富林,邓怡豪,唐晓晟 & 北邮2015年Word2vec是公司在2013年开放的一款用于训练词向量的软件工具。它根据给定的语料库,通过优化后的训练模型快速有效的将一个词语表达成向量形式,其核心架构包括CBOW和Skip-gram。在开始之前,引入模型复杂度,定义如下:O = E * T * Q其中,E表示训练的次数,T表示训练语料中词的个数,Q因模型而异。E值不是我们关心的内容,T与训练语料有关,其值越大模型就越准确,Q在下面讲述具体模型是讨论。NNLM模型是神经网络概率语言模型的基础模型。在NNLM模型中,从隐含层到输出层的计算时主要影响训练效率的地方,CBOW和Skip-gram模型考虑去掉隐含层。实践证明新训练的词向量的精确度可能不如NNLM模型(具有隐含层),但可以通过增加训练语料的方法来完善。Word2vec包含两种训练模型,分别是CBOW和Skip_gram(输入层、发射层、输出层),如下图所示:CBOW模型:理解为上下文决定当前词出现的概率。在中,上下文所有的词对当前词出现概率的影响的权重是一样的,因此叫CBOW(continuous bag-of-words model)模型。如在袋子中取词,取出数量足够的词就可以了,至于取出的先后顺序是无关紧要的。Skip-gram模型:Skip-gram模型是一个简单实用的模型。为什么会提出该问题呢?在NLP中,语料的选取是一个相当重要的问题。首先,语料必须充分。一方面的词量要足够大,另一方面尽可能地包含反映词语之间关系的句子,如“鱼在水中游”这种句式在语料中尽可能地多,模型才能学习到该句中的语义和语法关系,这和人类学习自然语言是一个道理,重复次数多了,也就会模型了。其次,语料必须准确。所选取的语料能够正确反映该语言的语义和语法关系。如中文的《》比较准确。但更多时候不是语料选取引发准确性问题,而是处理的方法。由于窗口大小的限制,这会导致超出窗口的词语与当前词之间的关系不能正确地反映到模型中,如果单纯扩大窗口大小会增加训练的复杂度。Skip-gram模型的提出很好解决了这些问题。Skip-gram表示“跳过某些符号”。例如句子“中国踢得真是太烂了”有4个3元词组,分别是“中国足球踢得”、“足球踢得真是”、“踢得真是太烂”、“真是太烂了”,句子的本意都是“中国足球太烂”,可是上面4个3元组并不能反映出这个信息。此时,使用Skip-gram模型允许某些词被跳过,因此可组成“中国太烂”这个3元词组。如果允许跳过2个词,即2-Skip-gram,那么上句话组成的3元词组为:由上表可知:一方面Skip-gram反映了句子的真实意思,在新组成的这18个3元词组中,有8个词组能够正确反映例句中的真实意思;另一方面,扩大了语料,3元词组由原来的4个扩展到了18个。语料的扩展能够提高训练的准确度,获得的词向量更能反映真实的文本含义。2.下载源码下载地址:使用 Checkout,如下图所示。3.中文语料PS:最后附有word2vec源码、三大百科语料、新闻语料和分词python代码。中文语料可以参考我的文章,通过Python下载百度百科、、维基百科的内容。[python] lantern访问中文维基百科及selenium爬取维基百科语料[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒下载结果如下图所示,共300个国家,百度百科、、维基百科各自100个,对应的编号都是0001.txt~0100.txt,每个txt中包含一个实体(国家)的信息。然后再使用Jieba分词工具对齐进行中文分词和文档合并。#encoding=utf-8 import sys import re import codecs import
import shutil import jieba import jieba.analyse #导入自定义 jieba.load_userdict(&dict_all.txt&) #Read file and cut def read_file_cut: #create
pathBaidu = &BaiduSpiderCountry\\&
= &Result_Country.txt& if os.path.exists(resName): os.remove(resName) result = codecs.open(, 'w', 'utf-8')
= 1 while num&=100: #5A 200 其它100 name = &%04d& % num fileName = Baidu + str(name) + &.txt& source = open(fileName, 'r')
= source.readline while line!=&&: line = line.rstrip('\n') #line = unicode(line, &utf-8&) seglist = jieba.cut(line,cut_all=False) #精确模式 output = ' '.join(list(seglist)) #空格拼接 #print output result.write(output + ' ') #空格取代换行'\r\n' line = source.read else: print 'End file: ' + str(num) result.write('\r\n') source.close num =
+ 1 else: print 'End Baidu' result.close #Run function if __name__ == '__main__': read_file_cut上面只显示了对百度百科100个国家进行分词的代码,但核心代码一样。同时,如果需要对停用词过滤或标点符号过滤可以自定义实现。分词详见: [] 使用Jieba工具中文分词及文本聚类概念分词合并后的结果为Result_Country.txt,相当于600行,每行对应一个分词后的国家。4.运行源码强烈推荐三篇大神介绍word2vec处理中文语料的文章,其中Felven好像是师兄。下使用Word2vec继续 - 一只鸟的天空利用word2vec对关键词进行聚类 - Felven/中英文维基百科语料上的word2vec实验因为word2vec需要linux环境,所有首先在windows下安装linux环境模拟器,推荐cygwin。然后把语料Result_Country.txt放入word2vec目录下,修改demo-word.sh文件,该文件默认情况下使用自带的text8数据进行训练,如果训练数据不存在,则会进行下载,因为需要使用自己的数据进行训练,故注释掉下载代码。demo-word.sh文件修改如下:make #if [ ! -e text8 ]; then # wget http://mattmahoney.net/dc/text8.zip -O text8.gz # gzip -d text8.gz -f #fi time ./word2vec -train Result_Country.txt -output vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15 ./distance vectors.bin下图参数源自文章:下使用Word2vec继续 - 一只鸟的天空运行命令sh demo-word.sh,等待训练完成。模型训练完成之后,得到了vectors.bin这个词向量文件,可以直接运用。5.结果展示通过训练得到的我们可以进行相应的工作,比如求相似词、关键词聚类等。其中word2vec中提供了distance求词的cine相似度,并排序。也可以在训练时,设置-classes参数来指定聚类的簇个数,使用kmeans进行聚类。cd C:/Users/dell/Desktop/ sh demo-word.sh ./distance vectors.bin输入阿富汗:喀布尔(首都)、坎大哈(主要城市)、吉尔吉斯斯坦、伊拉克等。输入国歌:输入首都:输入:将为您减少类似内容我要收藏392个赞不感兴趣分享到分享到:相关文章还可以输入140字热门频道23.2万人订阅11.6万人订阅24.4万人订阅15万人订阅2010.8万人订阅你还可用第三方账号来登录请输入你注册的电子邮件地址绑定密保手机*您可用使用此密保手机找回密码及登录*请勿随意泄露手机号,以防被不法分子利用,骗取帐号信息手机号码发送验证码确定电子邮件请输入您的意见和建议请您输入正确的邮箱地址,以便我们和您联系,帮您解决问题。扫描下载手机客户端热门搜词

我要回帖

更多关于 word排版技巧 的文章

 

随机推荐