防内容自动采集脚本

最近在网上阅读的时候发现一种新型的内容防采集JavaScript代码。大体情况是:如果网站监测到批量采集工具(爬虫)的行为,例如访问频次太高,就会在内容中插入一端提示信息,并隐藏后续的正文,但是点击解除提示就可以消除提示并显示正文,因此这对于正常的页面浏览是没有实质影响的,但是对采集工具(爬虫)来说,就会出现内容截断,导致采集内容不完整。下面是正常的样子:

一种JavaScript防内容自动采集脚本

下面是网站发现异常的情况,部分正文被截断,但是Web浏览时,点击蓝色文字,原本被屏蔽的问题就会出现。如果是爬虫采集,就没有办法了,会丢失被截断的文字

一种JavaScript防内容自动采集脚本

看了一下网页,其实就是一段不复杂的Javascript代码和内容改写:

内容改写

……..慕容还想稳住下盘,张寻宁已经到了,左右开弓几记直拳打到慕容脸上。

慕容晃了晃差点没摔倒,此时时间只过了5秒。慌乱间,他挥动斧头出击,却再次走空。张寻宁闪身后跃起,膝盖撞到他肚子。慕容再次踉跄后退几步。张寻宁绝不给对手喘息的机会,猛然逼近,这次是一个下勾拳,打中他的下巴。眼看着一幅假牙从口中飞出。

“看起来人设还是很还原?来吧,让我看看你的落樱神斧。”

他奋力用手肘猛击慕容,到目前为止慕容完全没有还手之力。

防采集,自动加载失败,点击手动加载,不支持阅读模式!禁止转码、禁止阅读模式,下面内容隐藏,请退出阅读模式!

网页最后的JS代码(应该是生成器产生的):

由于飞机上没网络,没法检查网页中某外部JS文件中init(’chapter’)的内容,但是几乎可以肯定是用来判断是否有异常采集行为,从而给出提示并屏蔽内容。

本文链接:https://www.dzdvip.com/8967.html 版权声明:本文内容均来源于互联网。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 395045033@qq.com,一经查实,本站将立刻删除。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注