产品详细介绍
百度抓取网页的程序叫做百度百科。我们主要分析百度抓取网站的情况。百度蜘蛛在网站日志中的活动:捕捉频率并返回网页状态代码。查看日志的方式:通过FTP,在网站的根目录下找到一个日志文件,文件名一般包含日志,下载并解压里面的记事本,记事本是网站的日志,记录网站的访问和运行情况。由于每台服务器和主机的情况不同,不同主机记录功能记录的内部
容量也不同,有的甚至没有记录功能。日志内容如下:61 . 135 . 168 . 22-[11/JAN/2009:004:02336040800《获取/论坛/线程-7303-1-1.1》' 2008450 '-' baiduspider(http://www . Baidu . com/search/spider . htm)'分析:获取/论坛/线程-7303200代表成功的抓取。8450意味着8450字节被抓取。如果日志中的格式不同,这意味着日志格式设置不同。从许多日志中可以看出,200,000和200,064代表正常抓取。捕获频率是通过在每日日志中检查百度蜘蛛的捕获时间获得的。没有捕获频率的标准时间表或频率编号。我们通常通过比较许多天的日志来判断它。当然,我们希望百度蜘蛛一天能抓取尽可能多的次数。
下一页:百度推广质量测量优化策略
城市分销