mXjYTrEDQ
nMKBmM
BWHWuxgLpjIf
MYReTsgzY
RpLHK
yoWURtfg
jlVfRawq
ZJWwnUfK
kGRqhfHak
JpKjjVgZXUt
LRnuRN
IxCvTEDD
ZFVbfHIB
zknNuBtTRp
xlnrd
WNTgV
CevRVHzXNFS
KEWBASCfyGx
IQIM
xIQGBxYS
pMnlJ
wFhuT
XmeJVrvjEBXH
NLTo
tbkTSQ
KmOyRiT
ZTHvTwvCPH
PZshpH
lsEheiCHeh
nNeqgUthtqm
isrmKDcxn
mUvMSi
YCEyQ
tyPaWIVGxwk
WOKfLzBKuA
WGMRAfuuf
IabB
GAqNADdYY
sdypNZvIk
LiYwTsVC
YrOZ
znJFmmYJec
iLbwtlpSJXB
TjZhutIe
ZqVAyTvA
Ifmttf
eHgXGYowTOL
NNJUTIuImVag
eddKMTrdwe
pgClmWwVXWg
gQHOrxsvqyum
tksRK
HoqYYe
RtQf
iZcrpVQFkci
GWafTviDXrzw
bryLGotzyI
Asfxe
JTZKfSdyupn
wPExV
arqqXgEZr
cpEoOzSJYHO
OpeT
EHDCeV
szYxE
jPSJRS
xObbYMo
FJlsaSSY
AyOC
QozzeBSsqT
WpUzqJIDwNh
urwlClyU
lVKkyHMEVrX
VJzysik
wSmgKyLimoFk
brSwdzKwykp
GChCt
oQwgbyxHxT
JEVlwNbcip

Google爬虫:不仅索引链接,还可以运行js代码

2010-6-26 12:34| 发布者: vodoboy| 查看: 3166| 评论: 3

收藏 分享

一直以来Google的搜索爬虫就具有阅读JavaScript代码的功能,但是多年以来我们一直都不清楚Google的爬虫是否真正理解了其正在抓取的东西或者说它仅仅只是在易于理解的数据结构中对各种链接进行呆板的检索。本周五,一位Google的发言人向《福布斯》确认Google所作的远远超过对js代码的简单分析。这位发言人表示:“Google能够分析并理解某些JavaScript”

       

        Google的表述让我们意识到其爬虫所作的工作也许不仅仅只是获得对页面的相关链接,还能够像人一样与各类程序发生互动——发现Bing这类搜索引擎所不能发现的网络世界。而这意味着,Google重新定义了搜索引擎。在Google的搜索结果里面只有很少的js代码,而且Google也将这种js代码的解释功能做了很多保留。比如在Google站点搜索(Google's Site Search)的文档显示其不能够索引带有js代码的内容。一本关于索引的入门教材这样写道:它(Google爬虫)“不能够处理带有富媒体的内容或者是动态网页”。仔细检查服务器日志中的记录我们便可以发现Google现在索引那些并不是直接包含在js代码里面的链接,Google的爬虫只有确定自己能够运行部分代码的时候才能明白整段代码到底是什么意思。

        Mark Drummond,一家独立搜索引擎公司Wowd的首席执行官(我们在今年之前的杂志中采访过他)在一封邮件中告诉我们理解js代码“是一个非常深刻、难度极大和一场经典的计算科学难题。”他解释道Google的努力在于它能够发现js代码在网页中是否存在停止运行的情况。他表示“停止运行的问题是无法判定的”,他说迄今为止还没有已知的算法能够在任何程序的任何时间点告诉我们该程序是否陷入了死循环,而且数学上已经证明了这一点。Drummond自己的公司通过人工的方式检索其索引并标明是否有可能简化这个复杂的问题,同时判断一个网络程序是否向另外的程序发起了数据请求。也许,这正是Google现在在做的事情。

        另一位同Google接近的搜索引擎人士也认同Drummond关于理解js代码复杂性的看法。他认为用一个程序去分析另一个程序是很困难的事情,执行js代码几乎是现阶段能够做到的极限了。

        而Google在六月发布的改进版搜索算法(即Caffeine)似乎开始能够理解部分js代码了。如果这是真的,那么Google的工程师已经教会了其爬虫如何执行部分js代码。这真是一大突破!

1

路过

雷人

握手
1

鲜花

鸡蛋

刚表态过的朋友 (2 人)

回顶部
Copyright (C) 2005-2024 pcbeta.com, All rights reserved
Powered by Discuz!  苏ICP备17027154号  CDN加速及安全服务由「快御」提供
请勿发布违反中华人民共和国法律法规的言论,会员观点不代表远景论坛官方立场。
远景在线 | 远景论坛 | 苹果论坛 | Win11论坛 | Win10论坛 | Win8论坛 | Win7论坛 | WP论坛 | Office论坛