共查询到20条相似文献,搜索用时 15 毫秒
1.
基于网页去噪Hash的增量式网络爬虫研究 总被引:1,自引:0,他引:1
基于网页Hash值产生的增量式网络爬虫,可以实现网页的增量抓取过程.然而,由于网页噪声的存在,经典Hash算法对文本产生的Hash值过于敏感,导致通过Hash值对比判断网页变化的过程偏离实际情况.研究提出一种去噪后Hash产生方法,通过对网页文本块进行“正文”与“噪声”分类,去除噪声后对网页正文内容产生Hash值并判断网页是否变化,提高网页增量抓取效率.实验结果表明所提出的基于去噪后Hash产生方法的增量式抓取过程,Hash值敏感度降低,有效提高了网络爬虫增量抓取性能. 相似文献
2.
11.
周向彤 《中国远洋航务公告》2014,(2):87-88
回顾 1.原油1月上旬国际石油市场一直受地缘政治弱化、伊朗和利比亚原油供应可能增加的利空消息左右,原油价格震荡回落。不过,穿越加拿大的Keystone输油管道南线即将开通,库欣地区库存有望进一步下降致使美国经济数据较为强劲,WTI价格在上旬回落后,中旬价格受到支撑。下旬,IMF上调今年全球经济增长预期, 相似文献
15.
17.
18.
19.