伟大的百度blog search ?
前面我说过百度blog search是个好产品,我现在更加认为其是一个好产品了。在search blog上面百度有一个突破,就是百度的blogsearch解决了sina sohu博客页面里面的js问题。
你可以仔细的观察一下sina sohu的博客页面,无论是首页、列表页还是最终页,内容都是用js呈现的。这样的页面结构面对搜索引擎非常非常的不友好,目前来说一般都是自己的搜索能够很好的抓去和索引自己博客的内容,比如sina博客在爱问里面表现不错,sohu博客在搜狗里面表现不错。但对于别的搜索引擎来说,都不好,比如在百度里面。百度的网页搜索里面对于sina sohu的博客内容页面的抓取非常不好,快照只是一个空白的框架页,被js掉出来的内容无法抓去到。
但百度的blog search解决了这个问题,可以搜索到内容
可能是
1,通过xml抓取内容;
2,解决了js问题,能够大量抓取sina sohu博客的内容。
百度blog search如果有种子的话,我想内容填充将是个非常简单的过程。通过网页接受bloger自己的提交是一个渠道,最大的渠道是从zhuaxia这样的地方抓一把feed,或是从网页索引里面整理出大把的feed,这样就可以非常迅速的补充独立bloger的数据。我想对于百度这样一个搜索公司来说,这很简单,在需要的时候他们一定会这么做。不过要解决一个数据质量的问题,这个我想是百度最担心的。
另外,我之前的观点也是有问题的,我认为对于大众用户来说,百度的博客搜索是个好产品。但现在看大众用户使用这个产品的人能有多少?这个产品现在的受众可能更的是互联网的高级用户。在几年之后在中国真正达到全民bloging的时候,可能blog search才真正能够走入到大众用户的视线里面。我想我之前的分析是有问题的。
解决js问题,是刘建国的研究成果。当年在北大天网的时候,他就靠这个技术出的名,然后带到了百度。
不过后来很快就发现,解释js后抓取其实是个黑洞,整个系统都会被影响。于是,以后再也没人提这档子事了。