Python知識分享網(wǎng) - 專業(yè)的Python學習網(wǎng)站 學Python,上Python222
Python網(wǎng)絡爬蟲介紹
匿名網(wǎng)友發(fā)布于:2023-10-27 10:34:10
(侵權舉報)

2024 一天掌握python爬蟲【基礎篇】 涵蓋 requests、beautifulsoup、selenium

https://www.bilibili.com/video/BV1Ju4y1Y7k6/

 

什么是網(wǎng)絡爬蟲?

網(wǎng)絡爬蟲(又稱為網(wǎng)頁蜘蛛,網(wǎng)絡機器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。

比如百度 www.baidu.com 搜索引擎的所有檢索內容,都是百度的很多蜘蛛去萬維網(wǎng)上去抓取,以及進行持久化存儲,用戶通過百度搜索框,輸入想要搜索的內容,百度服務器再通過算法檢索出最相關,最佳的內容顯示給搜索結果頁面給用戶展示。

 

網(wǎng)絡爬蟲的核心工作內容

網(wǎng)絡爬核心工作內容是去目標站點爬取網(wǎng)頁,將網(wǎng)頁中我們需要的內容進行解析,最后保存,比如保存到Excel,數(shù)據(jù)庫等。

 

網(wǎng)絡爬蟲的用途

應用場景1:搜索引擎抓取網(wǎng)頁信息。 不知道大家對于Google、百度這種搜索引擎的工作原理都了解多少,搜索引擎的首要工作流程就是利用網(wǎng)絡爬蟲去爬取各個網(wǎng)站的頁面。以百度蜘蛛為例,一旦有網(wǎng)站的頁面更新了,百度蜘蛛就會出動,然后把爬取的頁面信息搬回百度,再進行多次的篩選和整理。最終在大家搜索相關信息的時候,通過排名呈現(xiàn)給大家??梢哉f,沒有網(wǎng)絡爬蟲,我們使用搜索引擎查詢資料的時候,就不會那么便捷、全面和高效。

應用場景2:爬取需要數(shù)據(jù)進行統(tǒng)計。 冷數(shù)據(jù)啟動時豐富數(shù)據(jù)的主要工具,新業(yè)務開始時,由于剛起步,所以沒有多少數(shù)據(jù),此時就需要爬取其他平臺的數(shù)據(jù)來填充我們的業(yè)務數(shù)據(jù)。比如說,如果我們想做一個類似大眾點評這樣的平臺,一開始沒有商戶等信息,就需要去爬取大眾,美團等商家的信息來填充數(shù)據(jù),比如天眼查,企查查,西瓜數(shù)據(jù)等等。

應用場景3:出行類軟件通過爬蟲搶票。 如果問網(wǎng)絡爬蟲技術應用最多的領域是什么?那一定是出行行業(yè)。相信每逢春運或是節(jié)假日,大家都用過一些搶票的軟件,就為了獲得一張機票或者是一張火車票,而這種出行類軟件正是運用網(wǎng)絡爬蟲技術來達到搶票的目的。像搶票軟件這樣的網(wǎng)絡爬蟲,會不停地爬取交通出行的售票網(wǎng)站,一旦有票就會點擊拍下來,放到自己的網(wǎng)站售賣。如果一定時間內沒有人購買,就又會自動退票。然后又通過網(wǎng)站爬蟲把票拍下來,到時間又繼續(xù)退票,如此反復循環(huán)。

應用場景4:聚合平臺整合信息進行比較。 如今,出現(xiàn)了很多比價平臺、聚合電商還有返利平臺等等給,這類聚合平臺的本質都是提供橫向數(shù)據(jù)比較,聚合服。比如說電商中經(jīng)常需要有一種比價系統(tǒng),從各大電商平臺,如拼多多,淘寶,京東等抓取同一個商品的價格信息,以給用戶提供最實惠的商品價格,這樣就需要利用網(wǎng)絡爬蟲從各大電商平臺爬取信息。

應用場景5:爬取個人信用信息 黑產(chǎn),灰產(chǎn),風控等,比如我們要向某些資金方申請授信,在資金方這邊首先要部署一道風控,來看你的個人信息是否滿足授信條件,這些個人信息通常是某些公司利用爬蟲技術在各個渠道爬取而來的,當然了這類場景還是要慎用,不然正應了那句話“爬蟲用的好,監(jiān)牢進得早”。

 

Python的爬蟲技術

爬蟲的總流程可以理解為:蜘蛛要抓某個獵物-->沿著蛛絲找到獵物-->吃到獵物;即爬取-->解析-->存儲;

在爬取數(shù)據(jù)過程中所需參考工具如下:

請求庫:urllib、requests、selenium

解析庫:正則、xpath、jsonpath、beautifulsoup、pyquery

存儲庫:文件、MySQL、Mongodb、Redis……

爬蟲框架:Scrapy

轉載自: