如何用非技术的手段防止博客被恶意爬取或使用?

发布时间:2017-7-1 11:34:05编辑:www.fx114.net 分享查询网我要评论
本篇文章主要介绍了"如何用非技术的手段防止博客被恶意爬取或使用? ",主要涉及到如何用非技术的手段防止博客被恶意爬取或使用? 方面的内容,对于如何用非技术的手段防止博客被恶意爬取或使用? 感兴趣的同学可以参考一下。

如何用非技术的手段防止博客被恶意爬取或使用?

博客园的技术氛围浓厚,也经常有大神在写博客。

但有一件恼人的事情就是,有部分第三方网址大量甚至全部爬取作者原创随笔,并发布到自己的网址。本来转载这种事情是无可厚非的,但是这类网址发布爬取的原创内容,有的不留原作者信息,有的不留作者联系方式,有的没有原网址链接,有的甚至直接说文章是该网址创作的。这种无耻的做法目前还确实没有一个万能的解决方案,因为就像所有的作者都可以浏览、复制、并保存网页一样。但原创作者还是可以做一些事情来保护自己的。

首先通俗介绍一下爬虫的原理。就像自然人在浏览网页一样,爬虫的工作不断扫描是否有新的文章,如果有,就获取相应链接的内容,进行相应的解析,然后保存到本地数据库中。当然有的爬虫网址也会结合人工审查的机制,并不会把所有的东西都往本地放。

接下来,介绍我个人应对爬虫的土办法。

①新建一个随笔,写上标题,但是内容可以写成 “为防止本页面被恶意爬取或使用,请到原页面查看最新内容” 这类的话。点击存为草稿,先别发布。

②到随笔列表,找到这个未发布的随笔,点开,找到他的url。然后重新编辑该随笔,在 “原页面” 处建立一个内链接,链接到这个页面。因为我发现未发布和发布后的url是不变的。然后我们正式发布这个随笔,就像下面这样的一个文章。

③等(大约30分钟到1小时)。 这一步什么事情都不要做,等别的机器人爬虫来爬取你的博客。一般来说,如果有的网址在爬虫后有人工审核的话,就不会要你这个页面了(也好,爱要不要)。对于另外一些网址,就会把你的内容抓过去,就像下面这个图一样。

显然上面这个图只留下一个作者名字,没有作者联系方式也没有原网址。我点开名字,亦不能跳到我在cnblogs上的页面。

④过了这段时间,重新编辑随笔,这次就是把真实内容帖进去,发布就可以了。被爬取的页面还是原来的版本,仍然有个链接进入你的这篇文章,但是在第三方网址上却没有文章的实质内容,相当于他们给你做了一次推广,何乐不为?

当然上面的办法也不是十全十美的,下面几个问题有必要解释一下:

问题1:第一次发布的随笔没有实质内容,那么在博客园所有随笔中,只有标题是有效的。这确实会影响一开始就对你文章感兴趣的读者,但是个人认为,盯着“所有随笔”看的读者应该不多吧,这个列表滚动这么快,绝大部分读者应该是通过搜索关键字来查看文章的。

问题2:如何把握机器爬虫的爬取时间间隔?这个问题的答案确实并不统一,但可以这样考虑。如果它的爬取时间间隔很短,那么用上面的方法就可以顺利解决问题;如果它的间隔很长,那么你的页面发布要远早于它所生产的伪劣页面,因此在搜索引擎中,你的页面的排名应该更靠前。

问题3:难道机器爬虫不会重新获取文章吗?一般来说不会。文章的数量是巨大的,重新获取会增加很大的复杂度和成本。虽然在技术上也不是不可行,但有这个实力的公司估计也不屑于干这种偷文章的事情吧。

下面介绍一些其他的防御方法:

①图片水印。就像本文上面的图片一样。最专业的添加水印的方法当然是通过PS了,重量级工具,一般人还玩不6。其实,通过MS office的word就完全可以胜任了。如果图片特别多,还可以写个python程序来完成添加水印的任务。相关程序网上可以搜到哦。

②在文章插入内链接。就像下面这样:

  本文原地址:http://www.cnblogs.com/lochan/p/7076354.html

  请到这里查看本文的最新修改版本。

③在文中写入自己的相关信息或联系方式。

 


上一篇:打造独立数据库访问的中间服务
下一篇:大神相关网址

相关文章

相关评论

本站评论功能暂时取消,后续此功能例行通知。

一、不得利用本站危害国家安全、泄露国家秘密,不得侵犯国家社会集体的和公民的合法权益,不得利用本站制作、复制和传播不法有害信息!

二、互相尊重,对自己的言论和行为负责。

好贷网好贷款