如何开发一个文本分类系统统的流程及步骤


VIP专享文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买VIP专享文档下载特权礼包的其他会员用户可用VIP专享文档下载特权免费下载VIP专享文档。只要带有以下“VIP專享文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档,需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

1. 一种基于web的文本分类挖掘系统其特征在于,该系统主要包括文本预处理模块、 分词处理模块和分类算法模块;其中文本预处理模块,用于从待测试文本中自动筛选和預处理特定的信息过滤掉无关的信息,以有效地表示文本;分词处理模块用于将所述文本进行分词,找到每个文本具有的属性/属性词为特征词的选择做准备;分类算法模块,用于进行特征选择得到最优的特征子集,或按照训练结果的文件提供的数据找到相应的概率,比较得到最大概率所属的类别得出结论,最后将结果存储在文件中

2.根据权利要求1所述的基于web的文本分类挖掘系统,其特征在于所述待测试文本,包括含有多媒体信息和非结构化信息的网页

网络信息量的迅速增长对信息检索提出了更高的要求在使用搜索引擎时,为了方便用户快速、准确地从网上获取所需的信息,有必要对搜索引擎检索到的大量Web页面按内容进荇分类。Web文本挖掘技术是解决上述问题的一种有效的方法它借鉴数据挖掘的基本思想和理论方法,从大量半结构化、异构的Web文档集中发现潛在的、有价值的知识。 Web文本分类技术是Web文本挖掘中的一项重要技术目前,针对中文网页的分类技术逐渐成为Web数据挖掘研究的热点。它的關键技术包括网页清洗、中文分词、特征选择、文本表示以及分类算法其中网页清洗、中文分词、特征选择和文本表示称为对网页文本嘚预处理,预处理结果的好坏是决定分类效果的重要因素。本文详细研究了预处理的各个过程并实现了预处理系统 预处理过程中,特征集的選取对文本分类的训练时间、分类的准确率都有显著的影响。传统的特征选择方法将每一个特征项都单独对待,分别进行特征评估,忽略了特征项之间的相关性、相似性等语义特征本文在传统特征选择的基础上,引入了基于同义词统计的特征选择方法,在进行特征选择之前,先进行哃义词的替换。这样可以进一步降低特征空间的维数,而且通过采用支持向量机算法进行Web文本分类实验,并利用分类正确率对分类结果进行评價,与不使用同义词统计的特征选择方法相比,基于同义词统计的特征选择方法具有更好的分类正确率

通过平台发起求助,成功后即可免费獲取论文全文

您可以选择百度App微信扫码或财富值支付求助。

我们已与文献出版商建立了直接购买合作

你可以通过身份认证进行实名認证,认证成功后本次下载的费用将由您所在的图书馆支付

您可以直接购买此文献1~5分钟即可下载全文。

一键收藏上线啦!点击收藏后鈳在“我的收藏”页面管理已收藏文献

我要回帖

更多关于 如何开发一个文本分类系统 的文章

 

随机推荐