如何用好谷歌等搜索引擎？( 二 )

数据中心：Google用来索引世界的塔
Google的数据中心高度机密。我们能了解到的不多：
1．在美国本土有19个以上的数据中心。其余17个数据中心分布在美国以外的世界各地。
2．每个数据中心有50万平方英尺那么大。建造一个数据中心要花费约6亿美元。
3． Google数据中心是世界上最高效的设施之一。而且也非常环保。几乎没有碳排放。
4．数据中心使用50到100兆瓦的电力。由于需要冷却。通常建在便于用水的地方。
5． Google服务器安置在一个一组容得下1160台服务器的有房子那么大的标准集装箱容器中。
处理流程
1．你写博客、或在Twitter上推微博、更新站点等诸如此类往Web上添加内容的操作
2．Google bots程序（一种作为搜索引擎构件的智能代理程序）抓取你网页的title和description、keyword等内容
（1）Google爬虫沿着链接路径周游万维网。如果没有超文本路径到你的站点。你的站点将不会被索引
（2）如果你在robots.txt中设置不许索引。Google爬虫程序将不会抓取你的网页
（3）如果链接到你站点的超文本链接上有nofollow标签。Google爬虫将不会从这些链接路径周游到你的站点。
（4）Google也能通过blog软件或xml站点地图找到你的网站
（5）从PageRank越高的网站链接到你的网站的链接越多。你的网站的PageRank就越高。
（6）Google爬虫将周游所有未标注为nofollow的链接
3．一旦被Google爬虫访问到。网页几秒内就被索引了
（1）网页内容被存储在一个倒排索引中
① 网页标题和链接数据被保存在一个索引中。用于广度优先搜索
② 网页内容保存在另一个索引中。以用于检索频率不高的长尾、个性化、深度优先搜索
（2）当你用Google搜索时。你并没有在检索时时更新的万维网。而是在检索Google的缓存。Google定期更新其索引库。在Twitter实时搜索等的竞争下。Google的索引库更新周期趋短。
4．Google基于链接评估域名和网页的总体PageRank值。
5．检查网页以防止作弊行为
(1)Google的搜索质量和反垃圾信息审查和优化算法
(2) 1万多远程测试用户评价搜索结果的质量
(3) Google征请用户对有PageRank讹诈嫌疑的垃圾信息进行举报
(4) Google接到 (美国)数字千年版权法案的通知。要求Google从搜索结果中剔除涉嫌盗版的内容
6．在对页面做了损害分析后。现在每个页面都有很多用于辅助用户搜索的数据片（比如检索关键词）反向引用着它
7．用户发出搜索请求
（1）Google搜索质量工程师Patrick Riley：在大多数Google搜索中。你的搜索处于许多并行的控制过程或Google实验室的创新项目组过程中。可以说每一个查询请求都会参与一些Google的创意实验。
8．Google会用同义词匹配与你的搜索关键词语义相近的查询结果
9．生成初步的查询结果
（1）Google当然能返回成千上万数量无限的查询结果。但一般只显示不到1000条的查询结果。出于“少则得。多则惑”的考虑。（2）对查询结果做本地化处理。本土站点在查询结果中优先出现
10．对查询结果集按权威性和PageRank进行排序。重复的查询结果被剔除。
(1) Google根据关键词、广告类型、用户所处位置找出相关的被竞价拍卖的关键词广告
(2) 关键词广告必须遵守当地法律条文
① 广告业主的非法广告将被取缔
② 如果关键词的搜索流量过低或关键词广告点击量偏低。则会被自动禁用
③ 出于商业策略。像亚马逊这样的客户会给予优惠折扣。
(3) 关键词相关广告按收益潜力（对关键词进行竞价拍卖后的广告质量不断进行评估）排序
(4) 对广告业主来说广告内容一般都是固定的。但有时使用动态关键词使关键词广告与搜索关键词相关度更高
① 一些广告本身允许增加易变的附属信息。比如网站链接、电话号码、产品链接、地址等
(5) 当广告拥有了相当高的点击率。则会显示在搜索结果列表的上方。以使其更显眼。
(6) 其余的广告依序显示在相应的位置
11．对查询结果进行过滤处理
(1) 对通常的查询（比如在Google首页上发出的搜索请求）。Google会把相关的专题性垂直搜索结果（比如新闻、购物、视频、书籍、地图等）也加到返回的查询结果中
(2) 个性化方面：用户访问过的网站在查询结果列表中会更靠上
(3) 大量使用锚点的网站有可能被从查询结果中删除
(4) 搜索结果集的聚簇性：如果网页被其他高PageRank的网站引用。则网页的重要性会大大提高。