Crawlab(分布式爬蟲管理平臺)是一個支持Scrapy、Puppeteer、Selenium,支持Python、NodeJS等任何語言和框架的分布式爬蟲管理平臺,通過增加工作節(jié)點數(shù)量,Crawlab可以做到橫向擴展,用戶一看便知,相信使用起來也是非常順手,歡迎有需要的用戶前來獲取winwin7分享的這款Crawlab中文版!
軟件說明
Crawlab能夠幫助用戶實現(xiàn)多語言爬蟲的目的,通過多種方式進行安裝即可使用,軟件采用主節(jié)點的形式來快速獲取網站數(shù)據(jù),從而保存到本地數(shù)據(jù)中,每當目標站點發(fā)生變化時即會更新數(shù)據(jù),用戶還可通過相關控件來設計前端展示效果,極大的提升了程序員開發(fā)的效率。
介紹
Crawlab架構
Crawlab的架構包括了一個主節(jié)點(Master Node)和多個工作節(jié)點(Worker Node),以及負責通信和數(shù)據(jù)儲存的Redis和MongoDB數(shù)據(jù)庫。
主節(jié)點
主節(jié)點是整個Crawlab架構的核心,屬于Crawlab的中控系統(tǒng)。主節(jié)點負責與前端應用進行通信,并通過Redis將爬蟲任務派發(fā)給工作節(jié)點。同時,主節(jié)點會同步(部署)爬蟲給工作節(jié)點,通過Redis和MongoDB的GridFS。
工作節(jié)點
工作節(jié)點的關鍵作用是實行爬蟲每日任務和儲存爬取數(shù)據(jù)信息與日志,而且根據(jù)Redis的PubSub跟主節(jié)點通訊。根據(jù)提升工作節(jié)點總數(shù),Crawlab能夠保證橫著拓展,不一樣的爬蟲每日任務能夠分派到不一樣的節(jié)點上實行。
MongoDB
MongoDB是Crawlab的運作數(shù)據(jù)庫查詢,儲存有節(jié)點、爬蟲、每日任務、計劃任務等數(shù)據(jù)信息,此外GridFS文檔儲存方法是主節(jié)點儲存爬蟲文檔并同歩到工作節(jié)點的正中間媒體。
Redis
Redis是十分受大家喜愛的Key-Value數(shù)據(jù)庫查詢,在Crawlab中關鍵完成節(jié)點間數(shù)據(jù)通訊的作用。比如,節(jié)點會將自身信息內容根據(jù)HSET儲存在Redis的nodes哈希列表中,主節(jié)點依據(jù)哈希列表來分辨線上節(jié)點。
前面
前面是一個根據(jù)Vue-Element-Admin的單頁應用。在其中器重了許多Element-UI的控制來適用相對應的展現(xiàn)。