购买GHT怎么匹配上不上

设计一个系统处理词语搭配问题比如说中国和人民可以搭配,

则中国人民人民中国都有效要求:

*系统每秒的查询数量可能上千次;

*词语的数量级为10W;

*每个词至多可以與1W 个词搭配

当用户输入中国人民的时候,要求返回与这个搭配词组相关的信息

如果不考虑歧义,可以用wm基于shift表的词表匹配上方法在O(length(input))时間内完成分词。

如果考虑歧义用专用分词系统。时间复杂度待查

wm表占用内存大概5M以内.

用二维向量表示10w个词之间的搭配信息。每个词-词搭配信息占用一个bit共 10w * 10w bit,大概160MByte.

分词完成后可以在O(1)时间内完成搭配信息的查询。

上述处理在普通PC(AMD 双核2.5G Hz2G内存)上可以在一百-五百微秒时間范围内完成,即每秒至少可以处理两千次查询


加载中,请稍候......

以上网友发言只代表其个人观点不代表新浪网的观点或立场。

我要回帖

更多关于 匹配不上 的文章

 

随机推荐