八爪魚·云采集服務平臺
買粉絲文章抓取工具詳細使用方法
如今越來越多的優質內容發布在買粉絲買粉絲中,面對這些內容,有些朋友就有采集下來的需求,下面為大家介紹使用八爪魚抓取工具去抓取采集買粉絲文章信息。
抓取的內容包括:買粉絲文章標題、買粉絲文章關鍵詞、買粉絲文章部分內容展示、買粉絲所屬買粉絲、買粉絲文章發布時間、買粉絲文章URL 等字段數據。
采集網站:
步驟1:創建采集任務
1)進入主界面,選擇“自定義模式”
八爪魚·云采集服務平臺
2)將要采集的買粉絲URL 復制粘貼到網站輸入框中,點擊“保存買粉絲”
八爪魚·云采集服務平臺
買粉絲文章抓取工具詳細使用步驟2
步驟2:創建翻頁循環
1)在頁面右上角,打開“流程”,以展現出“流程設計器”和“定制當前操作”兩個板塊。點擊頁面中的文章搜索框,在右側的操作提示框中,選擇“輸入文字”
八爪魚·云采集服務平臺
買粉絲文章抓取工具詳細使用步驟3
2)輸入要搜索的文章信息,這里以搜索“八爪魚大數據”為例,輸入完成后,點擊“確定”按鈕
買粉絲文章抓取工具詳細使用步驟4
八爪魚·云采集服務平臺
3)“八爪魚大數據”會自動填充到搜索框,點擊“搜文章”按鈕,在操作提示框中,選擇“點擊該按鈕” 買粉絲文章抓取工具詳細使用步驟5
4)頁面中出現了“八爪魚大數據”
的文章搜索結果。將結果頁面下拉到底部,點擊“下一頁”按鈕,在右側的操作提示框中,選擇“循環點擊下一頁”
八爪魚·云采集服務平臺
買粉絲文章抓取工具詳細使用步驟6
步驟3:創建列表循環并提取數據
1)移動鼠標,選中頁面里第一篇文章的區塊。系統會識別此區塊中的子元素,在操作提示框中,選擇“選中子元素”
八爪魚·云采集服務平臺
買粉絲文章抓取工具詳細使用步驟7
2)繼續選中頁面中第二篇文章的區塊,系統會自動選中第二篇文章中的子元素,并識別出頁面中的其他10組同類元素,在操作提示框中,選擇“選中全部”
買粉絲文章抓取工具詳細使用步驟8
八爪魚·云采集服務平臺
3)我們可以看到,頁面中文章區塊里的所有元素均被選中,變為綠色。右側操作提示框中,出現字段預覽表,將鼠標移到表頭,點擊垃圾桶圖標,可刪除不需要的字段。字段選擇完成后,選擇“采集以下數據” 買粉絲文章抓取工具詳細使用步驟9 4)由于我們還想要采集每篇文章的URL ,因而還需要提取一個字段。點擊第一
篇文章的鏈接,再點擊第二篇文章的鏈接,系統會自動選中頁面中的一組文章鏈接。在右側操作提示框中,選擇“采集以下鏈接地址”
八爪魚·云采集服務平臺
買粉絲文章抓取工具詳細使用步驟10
5)字段選擇完成后,選中相應的字段,可以進行字段的自定義命名。完成后,點擊左上角的“保存并啟動”,啟動采集任務
買粉絲文章抓取工具詳細使用步驟11
6)選擇“啟動本地采集”
八爪魚·云采集服務平臺
買粉絲文章抓取工具詳細使用步驟12
步驟4:數據采集及導出
1)采集完成后,會跳出提示,選擇“導出數據”,選擇“合適的導出方式”,將采集好的搜狗買粉絲文章的數據導出
八爪魚·云采集服務平臺
買粉絲文章抓取工具詳細使用步驟13
2)這里我們選擇excel 作為導出為格式,數據導出后如下圖
買粉絲文章抓取工具詳細使用步驟14
注意:通過此種方法采集下來的搜狗買粉絲文章URL ,具有時效性,會在短時間
八爪魚·云采集服務平臺
內失效。這是因為搜狗買粉絲本身的限制所致。
相關采集教程:
京東商品信息采集
新浪微博數據采集
58同城信息采集
八爪魚——70萬用戶選擇的網頁數據采集器。
1、操作簡單,任何人都可以用:無需技術背景,會上網就能采集。完全可視化流程,點擊鼠標完成操作,2分鐘即可快速入門。
2、功能強大,任何網站都可以采:對于點擊、登陸、翻頁、識別驗證碼、瀑布流、Ajax 腳本異步加載數據的網頁,均可經過簡單設置進行采集。
3、云采集,關機也可以。配置好采集任務后可關機,任務可在云端執行。龐大云采集集群24*7不間斷運行,不用擔心IP 被封,網絡中斷。
4、功能免費+增值服務,可按需選擇。免費版具備所有功能,能夠滿足用戶的基本采集需求。同時設置了一些增值服務(如私有云),滿足高端付費企業用戶的需要。
八爪魚采集抖音評論如下
第一步 復制粘貼目標買粉絲
復制抖音首頁的買粉絲。粘貼至八爪魚首頁選項的買粉絲輸入框中,點擊開始采集,點擊保存設置,可以觀察到八爪魚自動的打開了這個網頁,接下來就是去配置采集流程。
查看采集流程的開關在設置選項里,自定義模式配置里的打開流程圖是默認開啟的。
第二步 輸入文本&執行操作&添加流程
輸入關鍵詞"手機",并實現搜索,選中輸入框,在彈出的操作提示框中選擇輸入文字,輸入關鍵詞"手機",點擊"確定"保存,注意觀察,八爪魚自動的將"手機"這一關鍵詞自動的填充到了輸入框中,并將這個步驟添加到了流程中。
接下來是點擊"搜索"按鈕,選中"搜索"按鈕,在操作提示框中選擇"
<p> 近期,公司有相關買粉絲爬取的需求,摸索了一段時間,一開始使用搜狗買粉絲去取數據,但隨著后續搜狗的驗證碼機制越發惡心,用戶體驗極差,并且也無法取到歷史數據,只能取到近10條群發,這也預示著通過搜狗買粉絲爬取數據的方案對于我來說只能是一霎花火。</p>
<p> 下面這套方案是基于買粉絲客戶端進行數據的爬取的,實際上我很久之前就一直在使用了,只是一直沒有時間寫,現在抽空把整套方案梳理一遍,后續也會push到github上面去。</p>
<p> 或許你有更好的方法,歡迎在評論里留言,一起交流學習。</p>
一、前提
1.一個買粉絲號一天只能最多獲取8000篇文章的閱讀/點贊信息;
2.買粉絲買粉絲發文頻率(一條群發消息包含8篇以內文章);
服務號1個月(按自然月)內可發送4條群發消息;
訂閱號(認證用戶、非認證用戶)1天內可群發1條消息;
二、獲取買粉絲文章信息所需參數
步驟如下:
1.獲取買粉絲號與買粉絲對應信息(抓包獲取,且除文章內容外每一步驟均需要以下參數)
2.獲取買粉絲文章列表
3.獲取文章內容(永久鏈接)
4.獲取點贊數/閱讀數
5.獲取評論內容
三、實施
待更...
軟件準備
免費下載、安裝、注冊,免費版功能就夠用了,這個任務數據量不大,本地采集模式就可以了。里面提供了一些模板,其中也有微博的。
八爪魚采集器中提供的微博數據采集模板
但微博最麻煩的地方在于登錄操作,時不時還要輸入個驗證碼,加上統計全年的任務需要大量滾動、翻頁等操作,于是還是得用自定義任務,就不可避免要設定采集買粉絲、采集流程、登錄操作。
采集買粉絲
采集買粉絲的設定基本沒有什么問題,只要在買粉絲中找到需要更改的參數就可以了,存在多頁的時候建議從買粉絲來設定頁碼,靠譜一點,自動翻頁我是怕翻錯,而且微博一翻頁就跳出讓登錄,所以自動識別總是能成功但開始采集卻1條都抓不到。以我個人微博主頁為例,查看2019年6月的博文(買粉絲s://weibo.買粉絲/2772779897/profile?is_all=1&stat_date=201906&page=2#feedtop),發現時間軸被按月分割,6月發微博稍微多一點,出現了換頁,于是需要修改兩個參數,【月份】和【頁數】。
個人微博截圖
在八爪魚采集器中,選擇【批量生成】買粉絲,在文本框中選中要替換的參數,點擊【添加參數】進行設置。這里設定的兩個參數,【月份】為01~12(軟件提供【補零】功能,很貼心了),【頁碼】為1~4,因為這次要統計的微博每月不超過4頁,這個要提前看好。
批量生成買粉絲參數設定
自動生成了48個買粉絲之后就可以【保存設置】,開始編輯任務。然后軟件會打開第一個買粉絲,并開始自動識別這一頁的內容,并生成采集數據的結果,并給出操作提示,基本可信,不可全信。點擊【生成采集設置】,自動生成采集流程的框架(畢竟比自己搭要靠譜),再去調整里面細節設置(就是這些細節折騰了好久)。
自動識別結果
采集流程
自動生成的流程圖,基本框架沒問題。
循環采集的基本框架
開始細節設定,【提取列表數據】沒什么說的,刪掉一些不需要的字段就OK。主要是【打開循環中的網頁】,點小齒輪打開設置:
打開循環中的網頁設置
【網頁打開前】這里,怕加載不完全就打開下一頁了,設定了等待3秒。(本來這里嘗試用Cookie的設定繞過登錄,但沒有成功,而且獲取當前頁面Cookie的按鈕也一直沒反應,于是放棄。)【網頁打開后】這里是一定要設定滾動的,一開始以為滾動2次就到底,后來發現不同頁面還不一樣,又設成了3次,間隔1秒同樣是怕沒加載完就跳過。
滾動設定這里糾結了很久,因為總是出現相同的錯誤,明明1個頁面應該加載3次最終獲得45條數據,結果執行的時候總是只抓到15條,沒給滾。不知道是不是沒登錄的關系,還是網頁打開前沒有等待直接開了。
登錄操作
為保證順利完成多頁爬取,還是繞不過要登錄,不然一直會跳出提示登錄對話框,什么也采集不到。講道理微博登錄是有買粉絲okie記錄的,但放到軟件的采集任務里就不行,每次開始都是全新的界面要求登錄,轉眼就不認得你是誰,折騰了各種手動登錄都沒法被記住。于是參考模板里的設定,在開始循環采集之前增加了登錄操作,加入到流程圖里老實執行。
在流程圖中加入了登錄操作
【打開網頁】這里的買粉絲就設定為微博入口(weibo.買粉絲),后面的操作設定其實是半自動的,在預覽的網頁里直接操作,點擊對話框或按鈕,【操作提示】里面就會出現相應的動作,可以記錄下登錄時的輸入文本(用戶名、密碼)、點擊元素等操作,模擬人的操作,并自動添加到流程圖里,不過可能會在循環后面,需要手動拖動流程圖里的方框,調整順序,流程圖搞好了就可以開始【采集】。
本以為這些都設定好了就可以了吧,賬號密碼也都記下了,總該能代替我先登錄了吧。沒想到,登錄的時候,不是用戶名沒輸進去就是密碼沒輸進去,結果根本沒登錄上就執行下一步,開始循環了,還是啥也抓不到。這時候打開網
2024-07-18 15:59
2024-07-18 15:56
2024-07-18 15:01
2024-07-18 14:57
2024-07-18 14:56
2024-07-18 13:24