国产不卡一区二区电影网,欧美一级做a爱高清免费观看,精品天堂成人Av在线播放,99国产精品尤物视频在线99,国产无遮挡18禁无码麻豆

国产不卡一区二区电影网,欧美一级做a爱高清免费观看,精品天堂成人Av在线播放,99国产精品尤物视频在线99,国产无遮挡18禁无码麻豆

合肥做網(wǎng)站,選擇瘋狗科技,專(zhuān)業(yè)、敬業(yè)的合肥網(wǎng)絡(luò )公司
首頁(yè) > 網(wǎng)站技術(shù) > 詳情

使用 Node.js 開(kāi)發(fā)資訊爬蟲(chóng)流程

2018-01-10 14:22:56   來(lái)源:互聯(lián)網(wǎng)   瀏覽:  次
最近項目需要一些資訊,因為項目是用 Node js 來(lái)寫(xiě)的,所以就自然地用 Node js 來(lái)寫(xiě)爬蟲(chóng)了項目地址:github com mrtanweijie…,項目里面爬取了 Readhub 、 開(kāi)源中國 、 開(kāi)發(fā)者頭條 、 36Kr 這幾個(gè)網(wǎng)站的資訊內容

最近項目需要一些資訊,因為項目是用 Node.js 來(lái)寫(xiě)的,所以就自然地用 Node.js 來(lái)寫(xiě)爬蟲(chóng)了

項目地址:github.com/mrtanweijie… ,項目里面爬取了 Readhub 、 開(kāi)源中國 、 開(kāi)發(fā)者頭條 、 36Kr 這幾個(gè)網(wǎng)站的資訊內容,暫時(shí)沒(méi)有對多頁(yè)面進(jìn)行處理,因為每天爬蟲(chóng)都會(huì )跑一次,現在每次獲取到最新的就可以滿(mǎn)足需求了,后期再進(jìn)行完善

爬蟲(chóng)流程概括下來(lái)就是把目標網(wǎng)站的HTML下載到本地再進(jìn)行數據提取。

一、下載頁(yè)面

Node.js 有很多http請求庫,這里使用 request ,主要代碼如下: 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
requestDownloadHTML () {
 const options = {
  url: this.url,
  headers: {
  'User-Agent': this.randomUserAgent()
  }
 }
 return new Promise((resolve, reject) => {
  request(options, (err, response, body) => {
  if (!err && response.statusCode === 200) {
   return resolve(body)
  } else {
   return reject(err)
  }
  })
 })
 }

使用 Promise 來(lái)進(jìn)行包裝,便于后面使用的時(shí)候用上 async/await 。因為有很多網(wǎng)站是在客戶(hù)端渲染的,所以下載到的頁(yè)面不一定包含想要的HTML內容,我們可以使用 Google 的 puppeteer 來(lái)下載客戶(hù)端渲染的網(wǎng)站頁(yè)面。眾所周知的原因,在 npm i 的時(shí)候 puppeteer 可能因為需要下載Chrome內核導致安裝會(huì )失敗,多試幾次就好了:) 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
puppeteerDownloadHTML () {
 return new Promise(async (resolve, reject) => {
  try {
  const browser = await puppeteer.launch({ headless: true })
  const page = await browser.newPage()
  await page.goto(this.url)
  const bodyHandle = await page.$('body')
  const bodyHTML = await page.evaluate(body => body.innerHTML, bodyHandle)
  return resolve(bodyHTML)
  } catch (err) {
  console.log(err)
  return reject(err)
  }
 })
 }

當然客戶(hù)端渲染的頁(yè)面最好是直接使用接口請求的方式,這樣后面的HTML解析都不需要了,進(jìn)行一下簡(jiǎn)單的封裝,然后就可以像這樣使用了: #滑稽 :)

1
await new Downloader('http://36kr.com/newsflashes', DOWNLOADER.puppeteer).downloadHTML()

二、HTML內容提取

HTML內容提取當然是使用神器 cheerio 了, cheerio 暴露了和 jQuery 一樣的接口,用起來(lái)非常簡(jiǎn)單。瀏覽器打開(kāi)頁(yè)面 F12 查看提取的頁(yè)面元素節點(diǎn),然后根據需求來(lái)提取內容即可 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
readHubExtract () {
 let nodeList = this.$('#itemList').find('.enableVisited')
 nodeList.each((i, e) => {
  let a = this.$(e).find('a')
  this.extractData.push(
  this.extractDataFactory(
   a.attr('href'),
   a.text(),
   '',
   SOURCECODE.Readhub
  )
  )
 })
 return this.extractData
 }

三、定時(shí)任務(wù)

1
2
3
4
5
6
7
8
9
10
11
cron 每天跑一跑
function job () {
 let cronJob = new cron.CronJob({
 cronTime: cronConfig.cronTime,
 onTick: () => {
  spider()
 },
 start: false
 })
 cronJob.start()
}

四、數據持久化

數據持久化理論上應該不屬于爬蟲(chóng)關(guān)心的范圍,用 mongoose ,創(chuàng )建Model 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
import mongoose from 'mongoose'
const Schema = mongoose.Schema
const NewsSchema = new Schema(
 {
 title: { type: 'String', required: true },
 url: { type: 'String', required: true },
 summary: String,
 recommend: { type: Boolean, default: false },
 source: { type: Number, required: true, default: 0 },
 status: { type: Number, required: true, default: 0 },
 createdTime: { type: Date, default: Date.now }
 },
 {
 collection: 'news'
 }
)
export default mongoose.model('news', NewsSchema)

基本操作

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
import { OBJ_STATUS } from '../../Constants'
class BaseService {
 constructor (ObjModel) {
 this.ObjModel = ObjModel
 }
 
 saveObject (objData) {
 return new Promise((resolve, reject) => {
  this.ObjModel(objData).save((err, result) => {
  if (err) {
   return reject(err)
  }
  return resolve(result)
  })
 })
 }
}
export default BaseService

資訊

1
2
3
4
import BaseService from './BaseService'
import News from '../models/News'
class NewsService extends BaseService {}
export default new NewsService(News)

愉快地保存數據

1
await newsService.batchSave(newsListTem)

更多內容到Github把項目clone下來(lái)看就好了。

總結

 

原文鏈接:https://juejin.im/post/5a506e6d51882573450156e3?utm_source=tuicool&utm_medium=referral

一级特黄aa大片手机在线| 在线播放免费人成毛片乱码| 亚洲av乱码一区二区三区林ゆな| 一级骚片超级骚在线观看| 日韩欧美国产精品亚洲二区| 亚洲啪啪一区二区综合精品区| 亚洲r成人av久久人人爽| 中文字幕亚洲一区二区三区| 中文人妻无码一区二区三区| 亚洲aV无码潮喷在线观看蜜桃| 亚洲性色精品一区二区在线| 一区二区不卡久久精品| 亚欧洲精品在线视频免费观看| 精品久久久久久a片小说8| 性欧美大战久久久久久久| 中文字幕亚洲资源| 亚洲国产成人久久综合一区99| 亚洲第一天堂网站| 91精品欧美一区二区三区| 亚洲av无码专区成人在线| 日本黄漫动漫在线观看视频| 亚洲国产日韩精品福利| 在线观看亚洲精品专区| 欧美肥妇多毛bbw| 亚洲天堂在线观看视频| 久久精品99久久久久精吨| 国产精品一品二品有码| 精品久久久久久综合日本| 在线观看黄色一级片| 亚洲av不卡一区二区三区| 亚洲精品国产精品乱码不99| 色婷婷六月亚洲婷婷国产| 一本大道香蕉日韩中字在线| 亚洲色图综合网站| 亚洲欧美日本国产综合在线| 中文字幕不卡日韩精品一区| 亚洲第一成人网站| 丰满少妇又爽又紧又丰满在线观看| 亚洲日韩色少妇无码播放小说| 亚洲人aⅤ高清无码| 亚洲不卡aV无码电影在线观看| 亚洲国产高清精品线久久| 欧美三级成人精品视频在线观看| 国产精品国产三级在线高清观看| 亚洲精品无码无遮挡毛片久久久| 综合欧美一区二区三区| 久久久性色精品国产免费观看| 欧美最猛黑人xxxx黑人表情| 欧美一区二区三区不卡| 欧美亚日韩国产aⅴ精品中极品| 人妻体体内射精一区二区| 在线看片免费人成视频69| 亚洲av无码片区一区二区三区| 久久一牛精品99久久精品66| 亚洲小说欧美激情另类| 国产精品无打码在线播放| 亚洲人禽杂交av片久久| 亚洲av无码专区在线电影视色| 欧美性野久久久久久久久| 久久久久久国产毛片| 免费人成又黄又爽又色| 亚洲av婷婷五月产av中文| 亚洲一区二区三区精品视频| 日韩久久精品国产免费观看频道| 久久99精品久久久久久国产人妖| 亚洲国产中文字幕| 91精品观看91久久久久久| 亚洲日本视频免费看| 中文字幕不卡视频第二页| 亚洲色精品一区二区三区| 欧美综合自拍亚洲欧美人| 人妻少妇精品一区二区三区| 中文字幕国产日韩| 精品久久久久久三级| 亚洲日韩丝袜熟女变态| 国产成人精品免高潮| 国产精品一区二区三区国产日韩| 中文字幕人妻无码一夲道| 亚洲无码在线播放| 亚洲一区二区三区国产精华液| 亚洲天堂一区二区三区四区| 日本av一区二区免费| 亚洲精品囯产精品乱码不99| 亚洲精品国产无码午夜| 精品乱码一区内射人妻无码| 一区二区三区+在线播放| 亚洲精品无码日韩国产不卡av| 亚洲av色眯眯一区二区| 国产美女mm131爽爽爽免费| 婷婷综合久久狠狠色99h| 97精品国产高清自在线看超| 国产精品扒开腿做爽爽A片| 免费黄日本韩国黄色片| 一级毛卡片免费精品视频在线| 日韩视频无码中字免费观| 男人狂躁进女人下面免费视频| 一区二区三区毛片| 国产日韩乱码精品一区二区| 男女爽爽无遮挡午夜视频| 在线观看一级欧美| 中国一级黄色美女撒尿| 中文字幕亚洲第一页| 中文字幕一区二区人妻在线不卡| 亚洲国产在线精品国自产拍| 中文无码人妻制服丝袜AⅤ久久| 亚洲日韩欧美一区二区三区| 男人狂躁进女人下面免费视频| 韩国伦理片在线观看| 亚洲魔镜号出轨中文字幕| 亚洲欧洲日产国码无码久久99| 日韩欧美国产中文字幕| 一本久久a久久精品综合香蕉| 亚洲日韩精品欧美一区二区一| 亚洲午夜一区在线观看| 男人阁激情亚洲欧美中文字幕| 中文字幕在线一区二区三区不卡| 91精品人妻一区二区| 久久国产主播福利在线| 亚洲日韩视频一区二区| 国产全黄三级在线播出| 国色天香社区在线视频| 国产户外无码在线观看| 无码国产精成人午夜视频不卡| 亚洲欧美不卡视频在线播放| 亚洲性福利视频网站| 免费A级毛片在线播放不收费| 少妇被爽到高潮喷水久久欧美精品| 亚洲国产欧美国产| 亚洲人妻激情小说| 国产精品一区二区欧美视频| 最新亚洲人AV日韩一区二区| 久久久久无码国产精品不卡| 亚洲精品福利在线观看| 亚洲色欲AV无码成人专区| 亚洲欧洲国产成人综合| 精品视频在线完整版| 中文字幕日韩三级片| 国产一级片免费观看| 亚洲精品国产综合久久一线| 国模吧一区二区三区精品视频| 亚洲爆乳无码精品aaa片蜜桃| 精品午夜国产人人幅利| 亚洲无码精品在线视频| 亚洲国产精品嫩草研究院| 亚洲AV无码AV男人的天堂| 成人国产精品色哟哟| 亚洲国产欧美一区二区久久| 免费无遮挡又黄又爽app| 亚洲av成本人无码网站| 在线视频无码免费| 精品国产一区二区三区a| 少妇无码一区二区三区精品视频| 又色又爽又黄又无遮挡网站| 亚洲熟妇AV一区二区三区浪潮| 日韩不卡手机视频在线观看| 亚洲aV舒服丰满在线播放| 亚洲一区二区三区国产精华液| 一级黄片欧美尤物| 亚洲一二三四区中文字幕| 亚洲国产精品ⅴa在线播放| 国内精品久久久久久久97牛牛| 中文字幕第1页在线| 国产区精品一区二区不卡中文| 亚洲综合一区二区不卡| 国产天堂久久综合五月色| 少妇人妻无码专区在线视频| 欧美一区二区三区美人| 国产亚洲精品VA在线观看| 国产成人久久AV免费高清| 亚洲爆乳无码专区www| 亚洲成人av电影一区二区三区| 99久久免费国产精品特黄| 亚洲天堂视频图片| 中文字幕日本午夜在线观看| 又大又湿又紧又硬又粗a片| 欧美色视频在线观看| 成人免费观看视频网站无遮挡版| 国产精品三级小泽玛利亚| 久久亚洲精品国产精品婷婷| 精品久久久久久久久无忧传媒| 久久亚洲国产精品高清| 亚洲乱码卡一卡二卡新区中国| 免费人成年短视频免费网站| 国产片aV片永久免费观看| 亚洲女人被黑人巨大进入同性| 亚洲精品一区二区国产精华液| 亚洲成a人v欧美综合天堂麻豆| 日本精品国产1区2区3区| 欧洲黄色视频免费在线| 亚洲精品资源国产精品| 性色av无码不卡中文字幕| 日韩精品一区二区三区免费不卡| 在线看片无码永久| 成人高清无遮挡免费视频软件| 亚洲精品天堂无码中文字幕影院| 久久精品亚洲国产aV果冻传媒| 在线看免费福利影院| 亚洲aⅴ在线无码天堂777| 亚洲国产成人AⅤ毛片大全久久| 五月开心亚洲综合在线| 亚洲日本乱码中文在线电影亚洲| 亚洲熟妇无码八AV在线播放| 一本大道一卡2卡三卡4卡国产| 又粗又大又爽又色视频| 亚洲国产一成人久久精品| 欧美高清精品不卡在线观看| 亚洲三级永久码高清精品A级V| 中文字幕视频一区| 精品亚洲一区二区在线播放| 精品亚洲国产成AV人片传媒| 免费人成视频在线播放视频| 又大又长视频一二区| 天堂成人Av在线播放| 成人性生交大片免费看国外| 精品无码人妻一区二区免费蜜桃| 在线全文阅读简嘉| 中文字幕亚洲欧美一区| 一区二区三区老妞在线| 在线一区二区三区| 久久精品一区二区三区| 亚洲女初尝黑人巨高清全集下载| 亚洲女人国产香蕉久久精品| 最新亚洲中文字幕无线| 国产亚洲精品国产福利你懂的| 亚洲男人天堂网站| 狠狠色噜噜色狠狠狠| 亚洲中文字幕无码va| 亚洲精品欧美日韩在线| 一级二级在线观看| 亚洲天堂日韩中文| 国产色综合天天综合网| 在线看日本中文字幕不卡| 日韩av在线高清免费毛片| 成人无码在线视频网站| 中文字幕免费无线观看| 欧美成a高清在线观看| 中文字幕免费版视频| 成人a片产无码免费视频在线观看| 亚洲精品亚洲人成在线下载| 国产精品av一区在线| 色综合色国产热无码一| 久久久久毛片精品美女免费| 午夜a级理论片在线播放一级| 亚洲精品午夜aaa久久久| 一区二区三区久久午夜免费电影| 中文字幕一区日韩在线视频| 国产欧美日韩综合精品一级| 成人无码区在线观看| 亚洲韩国国产一级毛片| 少妇性饥渴无码a区免费| 亚洲熟女av中文字幕男人总站| 在线观看国产成人AV天堂| 亚洲自拍欧美另类制服| 亚洲乱码中文字幕综合站| 亚洲日韩一区二区一无码| 亚洲综合色自拍一区| 一级黄色片免费播放| 亚洲成AV人在线视午夜片| 中文天堂最新版磁力搜索| 亚洲精品人妖电影在线观看| 免费高清在线视频亚太国产| 最新国产在线视频超鹏| 欧美国产亚洲另类一区| 久久国产精品自由自在| 亚洲一区二区三区麻豆| 999视频播放网站| 国产成人精品免高潮在线观看| 国产精品亚洲片夜色在线| 亚洲男人天堂2018| 亚洲一区二区无码偷拍| 无码久久精品人妻一区二区三区| 国内少妇偷人精品视频免费| 亚洲综合久久中文字幕专区一区| 在线看WWW不卡福利姬| 免费播放大全电视剧| 亚洲人aⅤ高清无码| 国产精品爆乳奶水无码视频| 亚洲日韩精品a∨片无码加勒比| 亚洲三级无码经典三级| 精品原创巨作av女教师| 一级二级黄色视频| 亚洲国产成人久久綜合一区| 伊人久久大香线蕉综合色| 国产无码AV在线播放| 亚洲天堂日韩无码高清综合| 亚洲av无码码潮喷在线观看| 一级做a爰片久久毛片无码电影|