step by step教你做spider （完整过程，以ebay示例）

第 31 楼 / webdriver

通过上面的分析，基本上我得到了一个产品分类下的url的产生机制，这个正是spider工作的起点或者叫入口。。。

上述分析的结果是，“digital camera”子类，采用gallery方式显示，每页96个items，其url产生规律是：

HTTP : //www.ebay.ca/sch/Digital-Cameras-/31388/i.html?_pgn=[n]&_skc=[(n-1)x96]&rt=nc

但是，这只是小小的第一步而已。。。

花篮

投诉

踩

第 32 楼 / webdriver

作为s-b-s教程，我目前只需要这一个子类足以。

但作为实际运作，你必须采用另外的方法，搜集到所有的大类，子类，子子类（如果你打算细化）的url产生规律，并且把它
1）写到文件里
2）写到算法里

作为种子文件/输入，为后面实现的spider所用！

花篮

投诉

踩

第 33 楼 / webdriver

有了页面的url，接下来谈的是如何抓页面

所谓页面，简单说就是html格式的文本内容，最简单的方法，在当前浏览器页面，右键点击，view page source，你能看到的内容正是你目前浏览器所接收到的页面源码 -- 以前web 1.0时候，都是预先写好的静态页面或者后端组合好的静态页面，传到浏览器里进行解释，渲染，显示。现在浏览器技术先进了，页面里除了静态的数据，还有格式定义，还有javascript blocks，至于如何显示完全靠browser自己发挥。

但我做的是spider，显然不能“view page source”在copy/paste，对吧，所以要编程实现

花篮

投诉

踩

第 34 楼 / webdriver

能实现web page 访问的编程语言真是太多了 -- 其实语言不是关键，关键的是library支持。

作为常年在windows下酷比的码工，我比较习惯用软软的工具和产品去工作，所以我将以C#/Visual Studio作为后续代码的编制。

但是各位看官，语言其实真的不重要，重要的是。。。。思路。。。

花篮

投诉

踩

第 35 楼 / webdriver

c# 页面访问的代码
url 就是我上面提到的能够根据种子自动生成的。
得到html保存在response里。

_BBCODE_CODE:




using System.Net;



namespace MySpider {

        ....



        public static void AccessPage(string url, out string response, out bool success)

        {

            try

            {

                HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);



                // Set some reasonable limits on resources used by this request

                request.MaximumAutomaticRedirections = 4;

                request.MaximumResponseHeadersLength = 4;



                // Set credentials to use for this request.

                request.Credentials = CredentialCache.DefaultCredentials;



                HttpWebResponse rs = (HttpWebResponse)request.GetResponse();



                // Get the stream associated with the response.

                Stream receiveStream = rs.GetResponseStream();



                // Pipes the stream to a higher level stream reader with the required encoding format. 

                StreamReader readStream = new StreamReader(receiveStream, Encoding.UTF8);



                response = readStream.ReadToEnd();



                rs.Close();

                readStream.Close();



                success = true;

 

            }

            catch

            {

                response = null;

                success = false;

            }



        }





     ....

}

花篮

投诉

踩

第 36 楼 / webdriver

html page 拿到了，几十K呢，下面要做的是提取页面里的产品定义信息

在你能够程序分析之前，还是先得自己阅读一下 -- 找规律。

（真累。。。）

花篮

投诉

踩

第 37 楼 / cet6

好高深呐看不懂啊

花篮

投诉

踩

第 38 楼 / webdriver

要完成网页分析，工具很重要；如果编程，那么library很重要。

网页是纯文本文件，因此regular expression必然是首选。

在编程实现RegExp前，先要在交互环境下搞定pattern。

这里推荐 Expresso软件 www.ultrapico.com/expresso.htm 免费，我用着挺好

花篮

投诉

踩