行业动态基于网页结构与语言特征的垃圾网页链接检测方法
2023-08-11 加入收藏
但是,算法仍有一些需要深入研究的问题。后续工作需要更进一步扩大并完善初始数据,从而优化对优势率字典的构建。同时,希望更进一步地研究优势率阈值的选取,从而更准确地对网页进行检测。
最后,网页中,块与块之间是有联系的,而本算法简化了这一部分,把块当作独立的个体进行处理。所以,在后续研究中,可以将块与块之间的相似度,如结构相似度、文本内容相似度等加入特征的选取和计算、
本文地址:http://www.xmwlmr.com//article/21304.html