最近,一项调查引发“打工人”的热议 #这届打工人身体这么差吗?# 这项报告中,上海白领体检异常率高达99% 而90后五大健康问题也分别是 皮肤、抑郁、肠胃、睡眠、脱发问题 这些问题其实跟情绪有很大关系 在工作生活当中,我们总会因为一些小事而情绪波动 甚至产生更加严重的健康问题 以陪娃写作业这件事来说 之前有一位33岁的职场妈妈 因为辅导孩子写作业的时候暴怒 竟然被气到“脑梗塞”住院 辅导孩子写作业 真的有这么夸张? 不想你体会
主要分4步数据抓取,数据处理 ,图文转换,搜索引擎
官方字库准确率过低,需要自己训练字库 |
将图片文件进行转码获得一个处理后的字符串
通过官网下载的文件,可直接通过终端启动solr,有几个重要的jar包需要添加,极其重要缺一不可
需要加入ik词库,需要配置scheme文件来修改词库内容
接下来:在刚才提到的schema.xml中配置:加上这一段
新建的这两个域支持IK分析器
启动前得提高solr服务器启动对应的jvm大小,防止因为数据量过大导致内存溢出问题
cmd输入 为虚拟机分配2g大小的内存
导入数据的时候尽量将少量字段导入减少solr读取建立索引的消耗,导入id,title字段通过图片转义的文字对应title,来找到对应id并返回
java调用只需要先建立对solr服务器对应核心的连接然后定义关键词再获得结果响应
把爬取的题库资源上传id和题目两个字段到solr服务器中,
用户把图片资源上传后,通过百度ocr接口把图片转换为文字,
对应文字上传到solr提供的接口返回相似度最高的前五个题目的id和题目,
返回用户这五个id和题目,用户自己点击选择最想看的题目,在上传id到服务器然后服务器查询数据库返回对应的h5和答案给用户