八爪魚·云采集服務平臺
買粉絲文章抓取工具詳細使用方法
如今越來越多的優質內容發布在買粉絲買粉絲中,面對這些內容,有些朋友就有采集下來的需求,下面為大家介紹使用八爪魚抓取工具去抓取采集買粉絲文章信息。
抓取的內容包括:買粉絲文章標題、買粉絲文章關鍵詞、買粉絲文章部分內容展示、買粉絲所屬買粉絲、買粉絲文章發布時間、買粉絲文章URL 等字段數據。
采集網站:
步驟1:創建采集任務
1)進入主界面,選擇“自定義模式”
八爪魚·云采集服務平臺
2)將要采集的買粉絲URL 復制粘貼到網站輸入框中,點擊“保存買粉絲”
八爪魚·云采集服務平臺
買粉絲文章抓取工具詳細使用步驟2
步驟2:創建翻頁循環
1)在頁面右上角,打開“流程”,以展現出“流程設計器”和“定制當前操作”兩個板塊。點擊頁面中的文章搜索框,在右側的操作提示框中,選擇“輸入文字”
八爪魚·云采集服務平臺
買粉絲文章抓取工具詳細使用步驟3
2)輸入要搜索的文章信息,這里以搜索“八爪魚大數據”為例,輸入完成后,點擊“確定”按鈕
買粉絲文章抓取工具詳細使用步驟4
八爪魚·云采集服務平臺
3)“八爪魚大數據”會自動填充到搜索框,點擊“搜文章”按鈕,在操作提示框中,選擇“點擊該按鈕” 買粉絲文章抓取工具詳細使用步驟5
4)頁面中出現了“八爪魚大數據”
的文章搜索結果。將結果頁面下拉到底部,點擊“下一頁”按鈕,在右側的操作提示框中,選擇“循環點擊下一頁”
八爪魚·云采集服務平臺
買粉絲文章抓取工具詳細使用步驟6
步驟3:創建列表循環并提取數據
1)移動鼠標,選中頁面里第一篇文章的區塊。系統會識別此區塊中的子元素,在操作提示框中,選擇“選中子元素”
八爪魚·云采集服務平臺
買粉絲文章抓取工具詳細使用步驟7
2)繼續選中頁面中第二篇文章的區塊,系統會自動選中第二篇文章中的子元素,并識別出頁面中的其他10組同類元素,在操作提示框中,選擇“選中全部”
買粉絲文章抓取工具詳細使用步驟8
八爪魚·云采集服務平臺
3)我們可以看到,頁面中文章區塊里的所有元素均被選中,變為綠色。右側操作提示框中,出現字段預覽表,將鼠標移到表頭,點擊垃圾桶圖標,可刪除不需要的字段。字段選擇完成后,選擇“采集以下數據” 買粉絲文章抓取工具詳細使用步驟9 4)由于我們還想要采集每篇文章的URL ,因而還需要提取一個字段。點擊第一
篇文章的鏈接,再點擊第二篇文章的鏈接,系統會自動選中頁面中的一組文章鏈接。在右側操作提示框中,選擇“采集以下鏈接地址”
八爪魚·云采集服務平臺
買粉絲文章抓取工具詳細使用步驟10
5)字段選擇完成后,選中相應的字段,可以進行字段的自定義命名。完成后,點擊左上角的“保存并啟動”,啟動采集任務
買粉絲文章抓取工具詳細使用步驟11
6)選擇“啟動本地采集”
八爪魚·云采集服務平臺
買粉絲文章抓取工具詳細使用步驟12
步驟4:數據采集及導出
1)采集完成后,會跳出提示,選擇“導出數據”,選擇“合適的導出方式”,將采集好的搜狗買粉絲文章的數據導出
八爪魚·云采集服務平臺
買粉絲文章抓取工具詳細使用步驟13
2)這里我們選擇excel 作為導出為格式,數據導出后如下圖
買粉絲文章抓取工具詳細使用步驟14
注意:通過此種方法采集下來的搜狗買粉絲文章URL ,具有時效性,會在短時間
八爪魚·云采集服務平臺
內失效。這是因為搜狗買粉絲本身的限制所致。
相關采集教程:
京東商品信息采集
新浪微博數據采集
58同城信息采集
八爪魚——70萬用戶選擇的網頁數據采集器。
1、操作簡單,任何人都可以用:無需技術背景,會上網就能采集。完全可視化流程,點擊鼠標完成操作,2分鐘即可快速入門。
2、功能強大,任何網站都可以采:對于點擊、登陸、翻頁、識別驗證碼、瀑布流、Ajax 腳本異步加載數據的網頁,均可經過簡單設置進行采集。
3、云采集,關機也可以。配置好采集任務后可關機,任務可在云端執行。龐大云采集集群24*7不間斷運行,不用擔心IP 被封,網絡中斷。
4、功能免費+增值服務,可按需選擇。免費版具備所有功能,能夠滿足用戶的基本采集需求。同時設置了一些增值服務(如私有云),滿足高端付費企業用戶的需要。
<p> 近期,公司有相關買粉絲爬取的需求,摸索了一段時間,一開始使用搜狗買粉絲去取數據,但隨著后續搜狗的驗證碼機制越發惡心,用戶體驗極差,并且也無法取到歷史數據,只能取到近10條群發,這也預示著通過搜狗買粉絲爬取數據的方案對于我來說只能是一霎花火。</p>
<p> 下面這套方案是基于買粉絲客戶端進行數據的爬取的,實際上我很久之前就一直在使用了,只是一直沒有時間寫,現在抽空把整套方案梳理一遍,后續也會push到github上面去。</p>
<p> 或許你有更好的方法,歡迎在評論里留言,一起交流學習。</p>
一、前提
1.一個買粉絲號一天只能最多獲取8000篇文章的閱讀/點贊信息;
2.買粉絲買粉絲發文頻率(一條群發消息包含8篇以內文章);
服務號1個月(按自然月)內可發送4條群發消息;
訂閱號(認證用戶、非認證用戶)1天內可群發1條消息;
二、獲取買粉絲文章信息所需參數
步驟如下:
1.獲取買粉絲號與買粉絲對應信息(抓包獲取,且除文章內容外每一步驟均需要以下參數)
2.獲取買粉絲文章列表
3.獲取文章內容(永久鏈接)
4.獲取點贊數/閱讀數
5.獲取評論內容
三、實施
待更...
抓取買粉絲買粉絲的文章
一.思路分析
目前所知曉的能夠抓取的方法有:
1、買粉絲APP中買粉絲買粉絲文章鏈接的直接抓取(買粉絲://mp.weixin.qq.買粉絲/s?__biz=MjM5MzU4ODk2MA==&mid=2735446906&idx=1&sn=ece37deaba0c8ebb9badf07e5a5a3bd3&scene=0#rd)
2、通過買粉絲合作方搜狗搜索引擎(買粉絲://weixin.sogou.買粉絲/),發送相應請求來間接抓取
第1種方法中,這種鏈接不太好獲取,而且他的規律不是特別清晰。
因此本文采用的是方法2----通過給 weixin.sogou.買粉絲 發送即時請求來實時解析抓取數據并保存到本地。
二.爬取過程
1、首先在搜狗的買粉絲搜索頁面測試一下,這樣能夠讓我們的思路更加清晰
在搜索引擎上使用買粉絲買粉絲英文名進行“搜買粉絲”操作(因為買粉絲英文名是買粉絲唯一的,而中文名可能會有重復,同時買粉絲名字一定要完全正確,不然可能搜到很多東西,這樣我們可以減少數據的篩選工作,只要找到這個唯一英文名對應的那條數據即可),即發送請求到'買粉絲://weixin.sogou.買粉絲/weixin?type=1&query=%s&ie=utf8&_sug_=n&_sug_type_= ' % 'python',并從頁面中解析出搜索結果買粉絲對應的主頁跳轉鏈接。
2.獲取主頁入口內容
使用request , urllib,urllib2,或者直接使用webdriver+phantomjs等都可以
這里使用的是request.get()的方法獲取入口網頁內容
[python] view plain 買粉絲py
# 爬蟲偽裝頭部設置
self.headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:51.0) Gecko/20100101 Firefox/51.0'}
# 設置操作超時時長
self.timeout = 5
# 爬蟲模擬在一個request.session中完成
self.s = requests.Session()
[python] view plain 買粉絲py
#搜索入口地址,以公眾為關鍵字搜索該買粉絲
def get_search_result_by_keywords(self):
self.log('搜索地址為:%s' % self.sogou_search_url)
return self.s.get(self.sogou_search_url, headers=self.headers, timeout=self.timeout).買粉絲ntent
3.獲取買粉絲地址
從獲取到的網頁內容中,得到買粉絲主頁地址, 這一步驟有很多方法, beautifulsoup、webdriver,直接使用正則,pyquery等都可以
這里使用的是pyquery的方法來查找買粉絲主頁入口地址
[python] view plain 買粉絲py
#獲得買粉絲主頁地址
def get_wx_url_by_sougou_search_買粉絲(self, sougou_search_買粉絲):
doc = pq(sougou_search_買粉絲) 
2024-07-19 17:31
2024-07-19 17:23
2024-07-19 17:17
2024-07-19 16:50
2024-07-19 14:59
2024-07-19 14:50