国产99久久精品_欧美日本韩国一区二区_激情小说综合网_欧美一级二级视频_午夜av电影_日本久久精品视频

最新文章專題視頻專題問答1問答10問答100問答1000問答2000關(guān)鍵字專題1關(guān)鍵字專題50關(guān)鍵字專題500關(guān)鍵字專題1500TAG最新視頻文章推薦1 推薦3 推薦5 推薦7 推薦9 推薦11 推薦13 推薦15 推薦17 推薦19 推薦21 推薦23 推薦25 推薦27 推薦29 推薦31 推薦33 推薦35 推薦37視頻文章20視頻文章30視頻文章40視頻文章50視頻文章60 視頻文章70視頻文章80視頻文章90視頻文章100視頻文章120視頻文章140 視頻2關(guān)鍵字專題關(guān)鍵字專題tag2tag3文章專題文章專題2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章專題3
問答文章1 問答文章501 問答文章1001 問答文章1501 問答文章2001 問答文章2501 問答文章3001 問答文章3501 問答文章4001 問答文章4501 問答文章5001 問答文章5501 問答文章6001 問答文章6501 問答文章7001 問答文章7501 問答文章8001 問答文章8501 問答文章9001 問答文章9501
當(dāng)前位置: 首頁 - 科技 - 知識百科 - 正文

網(wǎng)站爬蟲的一個實際分享

來源:懂視網(wǎng) 責(zé)編:小采 時間:2020-11-27 14:23:41
文檔

網(wǎng)站爬蟲的一個實際分享

網(wǎng)站爬蟲的一個實際分享:產(chǎn)生背景編輯隨著網(wǎng)絡(luò)的迅速發(fā)展,萬維網(wǎng)成為大量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。搜索引擎(Search Engine),例如傳統(tǒng)的通用搜索引擎AltaVista,Yahoo!和Google等,作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指
推薦度:
導(dǎo)讀網(wǎng)站爬蟲的一個實際分享:產(chǎn)生背景編輯隨著網(wǎng)絡(luò)的迅速發(fā)展,萬維網(wǎng)成為大量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。搜索引擎(Search Engine),例如傳統(tǒng)的通用搜索引擎AltaVista,Yahoo!和Google等,作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指

產(chǎn)生背景

編輯

隨著網(wǎng)絡(luò)的迅速發(fā)展,萬維網(wǎng)成為大量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。搜索引擎(Search Engine),例如傳統(tǒng)的通用搜索引擎AltaVista,Yahoo!和Google等,作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性,如:

(1)不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁。

(2)通用搜索引擎的目標(biāo)是盡可能大的網(wǎng)絡(luò)覆蓋率,有限的搜索引擎服務(wù)器資源與無限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾將進一步加深。

(3)萬維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,圖片、數(shù)據(jù)庫、音頻、視頻多媒體等不同數(shù)據(jù)大量出現(xiàn),通用搜索引擎往往對這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無能為力,不能很好地發(fā)現(xiàn)和獲取。

(4)通用搜索引擎大多提供基于關(guān)鍵字的檢索,難以支持根據(jù)語義信息提出的查詢。

網(wǎng)絡(luò)爬蟲

為了解決上述問題,定向抓取相關(guān)網(wǎng)頁資源的聚焦爬蟲應(yīng)運而生。聚焦爬蟲是一個自動下載網(wǎng)頁的程序,它根據(jù)既定的抓取目標(biāo),有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接,獲取所需要的信息。與通用爬蟲(general purpose web crawler)不同,聚焦爬蟲并不追求大的覆蓋,而將目標(biāo)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁,為面向主題的用戶查詢準(zhǔn)備數(shù)據(jù)資源。

1 聚焦爬蟲工作原理以及關(guān)鍵技術(shù)概述

網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊列。然后,它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)上述過程,直到達到系統(tǒng)的某一條件時停止。另外,所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存貯,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對于聚焦爬蟲來說,這一過程所得到的分析結(jié)果還可能對以后的抓取過程給出反饋和指導(dǎo)。

相對于通用網(wǎng)絡(luò)爬蟲,聚焦爬蟲還需要解決三個主要問題:

(1) 對抓取目標(biāo)的描述或定義;

(2) 對網(wǎng)頁或數(shù)據(jù)的分析與過濾;

(3) 對URL的搜索策略。

網(wǎng)站爬蟲,主要是爬博客下的所有文章內(nèi)容及標(biāo)題,保存到data目錄下。具體如下:

import requestsimport re

url = ''def get_html(url):#打開url并獲取該url的所有html信息html_content = requests.get(url).text#從html_conten所有的html信息中匹配到所有博客的超鏈接地址href_list = re.findall(r'href="(.*)">(.*)</a>', html_content)for line in href_list:#打開超鏈接地址line_html = requests.get(line[0])
 conten = line[1]
 line_content = line_html.text
 line_encoding = line_html.encodingprint('文章標(biāo)題:%s,文章編碼:%s'%(conten, line_encoding))
get_html(url)

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

文檔

網(wǎng)站爬蟲的一個實際分享

網(wǎng)站爬蟲的一個實際分享:產(chǎn)生背景編輯隨著網(wǎng)絡(luò)的迅速發(fā)展,萬維網(wǎng)成為大量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。搜索引擎(Search Engine),例如傳統(tǒng)的通用搜索引擎AltaVista,Yahoo!和Google等,作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指
推薦度:
標(biāo)簽: 一個 分享 網(wǎng)站
  • 熱門焦點

最新推薦

猜你喜歡

熱門推薦

專題
Top
主站蜘蛛池模板: 亚洲国产精品免费观看 | 精品123区 | 欧美 日韩 国产 色 欧美 日韩 亚洲另类专区 | 国产精品久久久久久永久牛牛 | 国产午夜高清一区二区不卡 | 国产欧美日韩精品在线 | 国产毛片在线 | 日韩精品一区二区三区毛片 | 手机在线观看国产精选免费 | 亚洲欧美日本综合 | 日韩国产在线观看 | 国产成人欧美一区二区三区的 | 国内精品免费视频 | 亚洲视频入口 | 久久久久久久久国产 | 国产精品香蕉一区二区三区 | 日韩欧美一区二区三区免费看 | 国产精品高清一区二区 | 精品国产一区二区 | 日韩欧美一区二区三区在线播放 | 日韩经典第一页 | 国产最新进精品视频 | 亚洲韩精品欧美一区二区三区 | 美女视频黄a视频免费全过程在线 | 萌白酱喷水 | 国产欧美日 | 精品国产一二三区在线影院 | 国产欧美另类久久精品91 | 免费观看黄色网址 | 日韩视频一区二区在线观看 | 欧美 国产 日韩 第一页 | 欧美激情伊人 | 不卡的中文字幕 | 女同互忝互慰dv毛片观看 | 国产成人精品亚洲一区 | 亚洲人成网站999久久久综合 | 国产不卡的一区二区三区四区 | 亚洲精品免费观看 | 日韩欧美在线第一页 | 大陆国产精品视频 | 999成人国产精品 |