量的这个方法是设置词的最小使用频率。
你对这个回答的评价是
下载百度知道APP,抢鲜体验
使用百度知道APP立即抢鲜体验。你的手机镜头里或许有别人想知道的答案
假如现在有问答对数据问题10个詞,答案一个词训练数据都已经使用jieba分词,然后用word2vec生成词向量生成300维的词向量现在把num_steps=10,embadding=300的question输入到rnn中,最后会得到什么假如得到300维的向量,损失函数怎么选择是选择consine计算与目标答案词向量的相似度吗,但是我看大部分会用交叉熵函数但是交叉熵函数不是需要概率分布嗎,词向量不算是概率分布吧小白求教
首先感谢无私分享的各位大神攵中很多内容多有借鉴之处。本次将自己的实验过程记录希望能帮助有需要的同学。
现在的中文语料库不是特别丰富我在之前的文章Φ略有整理,有兴趣的可以看看本次实验使用wiki公开数据,下载地址如下:
训练word2vec生成词向量的开源代码非常多使用的语言种类也很丰富,本实验使用gensim包训练词向量其特点使用简便,训练速度快
wiki中文数据中存在很多繁体中文,因此首先需要将繁体字转为简体中文
本文使用结巴分词,使用方法比较简单在这里不加赘述。