-
百度是怎么样识别采集站和伪原创的?
网络 2014/6/4 15:03:45免责声明:以下内容为个人设想,不代表百度官方。
文本指纹技术
技术来源:继承了杀毒软件的文件指纹技术,及部分杀软的启发式扫描技术。本文的两句题外话:
1:这种技术将彻底打碎站群工具团队的饭碗,在当下,无论站群工具如何降价都不要购买。现在所有的站群工具用户都在观望,有的内部用户群已经开始了大范围退群。续费的极少。
2:不要想用任何方式伪原创,现在唯一能通过百度审核的只有纯原创,不要以为拆分段落就能蒙混过去,仿写都过不去。百度敢于进行这样大更新的基底是什么?
是百度赖以生存,并且开发到足够强壮的文本指纹技术在支撑。以前一些可以拆分段落重新匹配的伪原创工具,或许尚能蒙蔽百度的眼睛。但是现在,很可惜,百度已经拥有了强有力的技术后盾。
百度目前的文本指纹技术究竟牛X到什么程度?
他能识别
flash文件
pdf文件
excel文件
word文档
TXT文档
xml文件
javascript文件
html文件
以及常见的动态页面.
只要你能搜索到的,他几乎都能识别.那么文本指纹究竟是一种什么技术,能精确到什么程度?
文本指纹技术源于杀毒软件的文件指纹技术,并不是什么新技术了.
文本指纹和杀毒软件不同的是,他只读取文本和特定的文件,从而获取md5码.然后和庞大的信息库进行对照.
这种技术能精确到每个标点符号的程度.
例如"这是一个,简单的例子"
搜索引擎会把 "这是一个" 和 "简单的例子" 拆分开来,生成md5码,逐段匹配.
因此现在的伪原创工具,再也逃不过百度的法眼了.阅读(882) 分享(0)