使用node.js 和cheerio 基于request爬虫

2016-01-15 10:49:00
何定鑫
原创 1353
摘要:使用node.js和cheerio 爬虫简直爽爽的

在package安装包中加入cheerio和request即可

在model中建立文件myUtil.js


                    var 
                    MyUtil = 
                    function () {
}
                    ; 
                    var http = 
                    require(
                    'http')
                    ; 
                    var request = 
                    require(
                    'request')
                    ; 
                    MyUtil.
                    prototype.
                    get=
                    function(url
                    ,callback){
    request(url
                    , 
                    function (error
                    , response
                    , body) { 
                    if (!error && response.
                    statusCode == 
                    200) {
            callback(body
                    ,response.
                    statusCode)
                    ; 
                     }
    })
}
module.
                    exports = 
                    new 
                    MyUtil()
                    ;
在路由中加入



                    var myUtil = 
                    require(
                    '../model/myUtil.js')
                    ;
                    



app.
                    get(
                    '/'
                    ,
                    function(req
                    ,res){ 
                    var url=
                    "http://movie.douban.com/subject/11529526"
                    ; 
                     console.
                    log(url)
                    ; 
                     myUtil.
                    get(url
                    ,
                    function(content
                    ,status) {
    console.
                    log(
                    "status:="+status)
                    ; 
                     
                    var movie={}
                    ; 
                     movie.
                    name = $(content).
                    find(
                    'span[property="v:itemreviewed"]').
                    text()
                    ; 
                     movie.
                    director = $(content).
                    find(
                    '#info span:nth-child(1) a').
                    text()
                    ; 
                     console.
                    log(movie)
                    ; 
                     res.
                    render(
                    'index'
                    ,{ 
                    title:movie.
                    name 
                     })
                    ; 
                     })
                    ; })
                    ;
即可简单爬虫待更


发表评论
评论通过审核后显示。