国产99久久精品_欧美日本韩国一区二区_激情小说综合网_欧美一级二级视频_午夜av电影_日本久久精品视频

最新文章專題視頻專題問答1問答10問答100問答1000問答2000關(guān)鍵字專題1關(guān)鍵字專題50關(guān)鍵字專題500關(guān)鍵字專題1500TAG最新視頻文章推薦1 推薦3 推薦5 推薦7 推薦9 推薦11 推薦13 推薦15 推薦17 推薦19 推薦21 推薦23 推薦25 推薦27 推薦29 推薦31 推薦33 推薦35 推薦37視頻文章20視頻文章30視頻文章40視頻文章50視頻文章60 視頻文章70視頻文章80視頻文章90視頻文章100視頻文章120視頻文章140 視頻2關(guān)鍵字專題關(guān)鍵字專題tag2tag3文章專題文章專題2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章專題3
問答文章1 問答文章501 問答文章1001 問答文章1501 問答文章2001 問答文章2501 問答文章3001 問答文章3501 問答文章4001 問答文章4501 問答文章5001 問答文章5501 問答文章6001 問答文章6501 問答文章7001 問答文章7501 問答文章8001 問答文章8501 問答文章9001 問答文章9501
當(dāng)前位置: 首頁 - 科技 - 知識(shí)百科 - 正文

如何做一個(gè)簡易的搜索引擎

來源:懂視網(wǎng) 責(zé)編:小采 時(shí)間:2020-11-27 19:30:38
文檔

如何做一個(gè)簡易的搜索引擎

如何做一個(gè)簡易的搜索引擎:有時(shí)候因?yàn)楣ぷ鳌⒆陨淼男枨螅覀兌紩?huì)去瀏覽不同網(wǎng)站去獲取我們需要的數(shù)據(jù),于是爬蟲應(yīng)運(yùn)而生,下面是我在開發(fā)一個(gè)簡單爬蟲的經(jīng)過與遇到的問題。 上一次小白已經(jīng)得到了一個(gè)任勞任怨的網(wǎng)絡(luò)小爬蟲,要是不搞一波小事情似乎對(duì)不太起這個(gè)小爬蟲,于是乎小白又鼓
推薦度:
導(dǎo)讀如何做一個(gè)簡易的搜索引擎:有時(shí)候因?yàn)楣ぷ鳌⒆陨淼男枨螅覀兌紩?huì)去瀏覽不同網(wǎng)站去獲取我們需要的數(shù)據(jù),于是爬蟲應(yīng)運(yùn)而生,下面是我在開發(fā)一個(gè)簡單爬蟲的經(jīng)過與遇到的問題。 上一次小白已經(jīng)得到了一個(gè)任勞任怨的網(wǎng)絡(luò)小爬蟲,要是不搞一波小事情似乎對(duì)不太起這個(gè)小爬蟲,于是乎小白又鼓

有時(shí)候因?yàn)楣ぷ鳌⒆陨淼男枨螅覀兌紩?huì)去瀏覽不同網(wǎng)站去獲取我們需要的數(shù)據(jù),于是爬蟲應(yīng)運(yùn)而生,下面是我在開發(fā)一個(gè)簡單爬蟲的經(jīng)過與遇到的問題。

上一次小白已經(jīng)得到了一個(gè)任勞任怨的網(wǎng)絡(luò)小爬蟲,要是不搞一波小事情似乎對(duì)不太起這個(gè)小爬蟲,于是乎小白又鼓搗鼓搗參考各方大神的資料以倒排索引為基礎(chǔ)原理設(shè)計(jì)了一個(gè)簡答的搜索引擎。

之前的爬蟲只是得到了網(wǎng)頁的源碼而沒有做任何處理,乃是一個(gè)一次性的小爬蟲,所以小白用正則表達(dá)式對(duì)網(wǎng)頁內(nèi)容進(jìn)行匹配得到其中的網(wǎng)址,之后小爬蟲就可以利用這個(gè)自生自滅至死方休的幫我們爬取網(wǎng)頁拉,這里不得不提一下beautifulsoup和正則表達(dá)式了,據(jù)說beautifulsoup模塊是一個(gè)網(wǎng)頁爬取提取的利器,只可惜小寶在做完之后才聽得大名萬分遺憾沒能試用一番,但是正則表達(dá)時(shí)小白可是切身的研究了一丟丟,熟練了(強(qiáng)行熟練)也是非常的好用,比如提取網(wǎng)頁源碼的網(wǎng)址:

 link_list = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')", html)
 這一句就提出個(gè)七七八八來,當(dāng)然這么粗糙魚目混珠的情況也是少不了的,但是還是非常好用的,
 雖然看起來很復(fù)雜但是只要掌握了(?<)、(?=)、.、+、?這幾種符號(hào)的用法小白覺得就可以解決大部分問題了,
 哦這里還有提一句,正則表達(dá)式似乎不支持嵌套的情形,
 大概形如“找到所有前面三個(gè)字符滿足條件A的字符a,條件A是這三個(gè)字符前面的內(nèi)容滿足條件B”巴拉巴拉,
 好吧感覺說的好亂讓我們暫且跳過這個(gè)話題。提取處理的匹配如果用findall是存儲(chǔ)在列表中的,
 這樣我們就可以在一個(gè)網(wǎng)頁列表中一直加入新找到的鏈接一直重復(fù)爬取,小白這里自認(rèn)為能力有限,
 所以就從提取中的網(wǎng)頁鏈接爬取了100個(gè)網(wǎng)頁做一個(gè)輕裝版。這里提個(gè)醒,由于之前html鏈接提取的很粗糙,
 所以可能把各種形如網(wǎng)頁鏈接的css文件路徑、圖片路徑什么亂七八糟的給爬下來,
 不過我們這里就統(tǒng)一當(dāng)作網(wǎng)頁鏈接在一個(gè)try·except模塊中進(jìn)行connection,
 不是鏈接的就會(huì)出現(xiàn)異常我們只要捕獲跳過就又可以愉快的繼續(xù)了~~。
 有了爬取下來的網(wǎng)頁內(nèi)容下面就應(yīng)該是得到其中真正呈現(xiàn)在網(wǎng)頁中的東西了。
 寫過網(wǎng)頁的同學(xué)們都應(yīng)該知道網(wǎng)頁內(nèi)容一般都在<p><\p>之中,title和鏈接什么的也有對(duì)應(yīng)的標(biāo)簽,
 運(yùn)用正則表單式理論上可以分離出來,不過小白親身時(shí)間發(fā)現(xiàn)只匹配一次效果非常不好,
 匹配的內(nèi)容的確包括想要的內(nèi)容,但是因?yàn)闃?biāo)簽一般都是嵌套的嘛而且小白技術(shù)畢竟也不好正則表達(dá)式可能表述的也有問題,
 所以總是會(huì)將內(nèi)容嵌套在標(biāo)簽中返回,這里就有一個(gè)比較笨的方法供大家參考,咳咳,
 既然一次不能得到,那么就對(duì)內(nèi)容進(jìn)行再匹配,咳咳,經(jīng)過了三層匹配外加一些小技巧終于是勉強(qiáng)匹配出來了,
 這里代碼過于丑陋就不再貼出來了咳咳。

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

文檔

如何做一個(gè)簡易的搜索引擎

如何做一個(gè)簡易的搜索引擎:有時(shí)候因?yàn)楣ぷ鳌⒆陨淼男枨螅覀兌紩?huì)去瀏覽不同網(wǎng)站去獲取我們需要的數(shù)據(jù),于是爬蟲應(yīng)運(yùn)而生,下面是我在開發(fā)一個(gè)簡單爬蟲的經(jīng)過與遇到的問題。 上一次小白已經(jīng)得到了一個(gè)任勞任怨的網(wǎng)絡(luò)小爬蟲,要是不搞一波小事情似乎對(duì)不太起這個(gè)小爬蟲,于是乎小白又鼓
推薦度:
標(biāo)簽: 一個(gè) 如何 簡單的
  • 熱門焦點(diǎn)

最新推薦

猜你喜歡

熱門推薦

專題
Top
主站蜘蛛池模板: 日韩成人在线视频 | 欧美日韩国产va另类 | 国产免费高清视频在线观看不卡 | 热久久国产 | 久久婷婷影院 | 亚洲午夜久久久久久91 | 国产成人精品一区二区不卡 | 欧美一级专区免费大片 | 国产精品久久久久久一级毛片 | 国产成人一区二区三区小说 | 国产精品1区2区3区 国产精品1234区 | 青青草原国产一区二区 | 国产成人精品综合久久久 | 黄色毛片免费在线观看 | 亚洲欧洲一二三区 | 久久成人国产 | 久久精品视频一区 | 国产午夜免费视频 | 日韩一二区 | 亚洲欧美中文日韩综合 | 国产黄色片一级 | 国产福利一区二区三区在线观看 | 人与禽一级一级毛片 | 91精品国产高清久久久久久91 | 亚洲自拍另类 | 久久伊人中文字幕 | 亚洲欧美综合区自拍另类 | 国产高清免费在线观看 | 97一级毛片全部免费播放 | 国产在线精品观看一区 | 欧美日韩大尺码免费专区 | 在线观看亚洲视频 | 综合网天天 | 日韩欧美片 | 国产全黄一级毛片 | 九九九国产在线 | 久久精品一区二区 | 在线免费国产视频 | 欧洲97色综合成人网 | a毛片在线 | 国产成人精品久久一区二区三区 |