设计一个系统处理词语搭配问题比如说中国和人民可以搭配,
则中国人民人民中国都有效要求:
*系统每秒的查询数量可能上千次;
*词语的数量级为10W;
*每个词至多可以與1W 个词搭配
当用户输入中国人民的时候,要求返回与这个搭配词组相关的信息
如果不考虑歧义,可以用wm基于shift表的词表匹配上方法在O(length(input))时間内完成分词。
如果考虑歧义用专用分词系统。时间复杂度待查
wm表占用内存大概5M以内.
用二维向量表示10w个词之间的搭配信息。每个词-词搭配信息占用一个bit共 10w * 10w bit,大概160MByte.
分词完成后可以在O(1)时间内完成搭配信息的查询。
上述处理在普通PC(AMD 双核2.5G Hz2G内存)上可以在一百-五百微秒时間范围内完成,即每秒至少可以处理两千次查询
加载中,请稍候......
以上网友发言只代表其个人观点不代表新浪网的观点或立场。