百度是怎么样识别采集站和伪原创的？ _博文列表

百度是怎么样识别采集站和伪原创的？

网络 2014/6/4 15:03:45

免责声明：以下内容为个人设想，不代表百度官方。
文本指纹技术
技术来源：继承了杀毒软件的文件指纹技术，及部分杀软的启发式扫描技术。
本文的两句题外话：
１：这种技术将彻底打碎站群工具团队的饭碗，在当下，无论站群工具如何降价都不要购买。现在所有的站群工具用户都在观望，有的内部用户群已经开始了大范围退群。续费的极少。
２：不要想用任何方式伪原创，现在唯一能通过百度审核的只有纯原创，不要以为拆分段落就能蒙混过去，仿写都过不去。
百度敢于进行这样大更新的基底是什么？
是百度赖以生存，并且开发到足够强壮的文本指纹技术在支撑。
以前一些可以拆分段落重新匹配的伪原创工具，或许尚能蒙蔽百度的眼睛。但是现在，很可惜，百度已经拥有了强有力的技术后盾。
百度目前的文本指纹技术究竟牛Ｘ到什么程度？
他能识别
flash文件
pdf文件
excel文件
word文档
TXT文档
xml文件
javascript文件
html文件
以及常见的动态页面．
只要你能搜索到的，他几乎都能识别．
那么文本指纹究竟是一种什么技术，能精确到什么程度？
文本指纹技术源于杀毒软件的文件指纹技术，并不是什么新技术了．
文本指纹和杀毒软件不同的是，他只读取文本和特定的文件，从而获取ｍｄ５码．然后和庞大的信息库进行对照．
这种技术能精确到每个标点符号的程度．
例如＂这是一个，简单的例子＂
搜索引擎会把　＂这是一个＂　和　＂简单的例子＂　拆分开来，生成ｍｄ５码，逐段匹配．
因此现在的伪原创工具，再也逃不过百度的法眼了．

阅读(1859) 分享(0)

上一篇: 多线程环境下调用 HttpWebRequest 并发连接限制
下一篇: IE6双倍margin值的bug出现条件及解决办法