如何用好谷歌等搜索引擎?( 二 )


数据中心:Google用来索引世界的塔
Google的数据中心高度机密 。我们能了解到的不多:
1. 在美国本土有19个以上的数据中心 。其余17个数据中心分布在美国以外的世界各地 。
2. 每个数据中心有50万平方英尺那么大 。建造一个数据中心要花费约6亿美元 。
3. Google数据中心是世界上最高效的设施之一 。而且也非常环保 。几乎没有碳排放 。
4. 数据中心使用50到100兆瓦的电力 。由于需要冷却 。通常建在便于用水的地方 。
5. Google服务器安置在一个一组容得下1160台服务器的有房子那么大的标准集装箱容器中 。
处理流程
1.你写博客、或在Twitter上推微博、更新站点等诸如此类往Web上添加内容的操作
2.Google bots程序(一种作为搜索引擎构件的智能代理程序)抓取你网页的title和description、keyword等内容
(1)Google爬虫沿着链接路径周游万维网 。如果没有超文本路径到你的站点 。你的站点将不会被索引
(2)如果你在robots.txt中设置不许索引 。Google爬虫程序将不会抓取你的网页
(3)如果链接到你站点的超文本链接上有nofollow标签 。Google爬虫将不会从这些链接路径周游到你的站点 。
(4)Google也能通过blog软件或xml站点地图找到你的网站
(5)从PageRank越高的网站链接到你的网站的链接越多 。你的网站的PageRank就越高 。
(6)Google爬虫将周游所有未标注为nofollow的链接
3.一旦被Google爬虫访问到 。网页几秒内就被索引了
(1)网页内容被存储在一个倒排索引中
① 网页标题和链接数据被保存在一个索引中 。用于广度优先搜索
② 网页内容保存在另一个索引中 。以用于检索频率不高的长尾、个性化、深度优先搜索
(2)当你用Google搜索时 。你并没有在检索时时更新的万维网 。而是在检索Google的缓存 。Google定期更新其索引库 。在Twitter实时搜索等的竞争下 。Google的索引库更新周期趋短 。
4.Google基于链接评估域名和网页的总体PageRank值 。
5.检查网页以防止作弊行为
(1)Google的搜索质量和反垃圾信息审查和优化算法
(2) 1万多远程测试用户评价搜索结果的质量
(3) Google征请用户对有PageRank讹诈嫌疑的垃圾信息进行举报
(4) Google接到 (美国)数字千年版权法案的通知 。要求Google从搜索结果中剔除涉嫌盗版的内容
6.在对页面做了损害分析后 。现在每个页面都有很多用于辅助用户搜索的数据片(比如检索关键词)反向引用着它
7.用户发出搜索请求
(1)Google搜索质量工程师Patrick Riley:在大多数Google搜索中 。你的搜索处于许多并行的控制过程或Google实验室的创新项目组过程中 。可以说每一个查询请求都会参与一些Google的创意实验 。
8.Google会用同义词匹配与你的搜索关键词语义相近的查询结果
9.生成初步的查询结果
(1)Google当然能返回成千上万数量无限的查询结果 。但一般只显示不到1000条的查询结果 。出于“少则得 。多则惑”的考虑 。(2)对查询结果做本地化处理 。本土站点在查询结果中优先出现
10.对查询结果集按权威性和PageRank进行排序 。重复的查询结果被剔除 。
(1) Google根据关键词、广告类型、用户所处位置找出相关的被竞价拍卖的关键词广告
(2) 关键词广告必须遵守当地法律条文
① 广告业主的非法广告将被取缔
② 如果关键词的搜索流量过低或关键词广告点击量偏低 。则会被自动禁用
③ 出于商业策略 。像亚马逊这样的客户会给予优惠折扣 。
(3) 关键词相关广告按收益潜力(对关键词进行竞价拍卖后的广告质量不断进行评估)排序
(4) 对广告业主来说广告内容一般都是固定的 。但有时使用动态关键词使关键词广告与搜索关键词相关度更高
① 一些广告本身允许增加易变的附属信息 。比如网站链接、电话号码、产品链接、地址等
(5) 当广告拥有了相当高的点击率 。则会显示在搜索结果列表的上方 。以使其更显眼 。
(6) 其余的广告依序显示在相应的位置
11.对查询结果进行过滤处理
(1) 对通常的查询(比如在Google首页上发出的搜索请求) 。Google会把相关的专题性垂直搜索结果(比如新闻、购物、视频、书籍、地图等)也加到返回的查询结果中
(2) 个性化方面:用户访问过的网站在查询结果列表中会更靠上
(3) 大量使用锚点的网站有可能被从查询结果中删除
(4) 搜索结果集的聚簇性:如果网页被其他高PageRank的网站引用 。则网页的重要性会大大提高 。