網友評分: 5分
LocoySpider是一款非常專業的數據采集軟件,該軟件功能強大,為廣大用戶提供了網絡數據采集以及信息挖掘等功能,有了它,我們可以通過靈活的方式輕松的從網頁上抓取文字、圖片、文件等任何數據。
LocoySpider程序支持遠程下載圖片文件,支持網站登陸后的信息獲取,支持探測文件真實地址,支持代理,支持防盜鏈的采集,支持采集數據直接入庫和模仿人手工發布等許多功能特點。
1、規則自定義 - 通過采集規則的定義,可以搜索所有網站采集幾乎任何類型的信息。
2、多任務,多線程 - 可以同時進行多個信息獲取任務,每個任務可以使用多個線程。
3、所見即所得 - 任務采集過程所見即所得,過程中遍歷的鏈接信息、采集信息、錯誤信息等都會及時的反映在軟件界面中。
4、數據保存 - 數據邊采集邊自動保存到關系數據庫中,并且數據結構能夠自動適應,軟件可以根據采集規則自動創建數據庫,以及其中的表和字段,也可以通過導庫方式靈活的將數據保存到客戶已有的數據庫結構中。
5、斷點續采 - 信息收集任務可以在停止后從斷點開始繼續采集,從此你用不再擔心你的采集任務意外中斷了。
6、網站登錄 - 支持網站Cookie,支持網站可視化登錄,即使登錄時需要驗證碼的網站也能采集。
7、計劃任務 - 通過這個功能可以讓你的采集任務定時、定量或者一直循環執行。
8、采集范圍限制 - 可以根據采集的深度和網址的標識來限制采集的范圍。
9、文件下載 - 可以將采集到的二進制文件(諸如:圖片、音樂、軟件、文檔等等)下載到本地磁盤或者采集結果數據庫中。
10、結果替換 - 可以將采集的結果根據規則替換成你定義的內容。
11、條件保存 - 可以根據某個條件來決定那些信息保存,那些信息過濾。
12、過濾重復內容 - 軟件可根據用戶設置和實際情況對重復內容和重復網址自動刪除重復內容。
13、特殊鏈接識別 - 運用此功能可以將用JavaScript動態生成的鏈接或其他更古怪的連接識別出來。
14、數據發布 - 可以通過自定義接口,將已采集的結果數據發布到任意的內容管理系統和指定數據庫中。現在已支持的目標發布媒體包括:數據庫(access, sql server,my sql,oracle) ,靜態htm文件。
15、預留編程接口 - 定義多個編程接口,用戶可以在事件中利用PHP,C#語言進行編程,擴充采集功能。
1、支持所有網站編碼:完美支持采集所有編碼格式的網頁,程序還可以自動識別網頁編碼。
2、多種發布方式:LocoySpider支持目前所有主流和非主流的CMS,BBS等網站程序,通過系統的發布模塊能實現采集器和網站程序間的完美結合。
3、全自動:無人值守工作,配置好程序后,程序將依據您的設置自動運行,完全無需人工干預。
4、本地編輯:本地可視化編輯已采集的數據。
5、采集測試:這是其它任何同類采集軟件所不能比的,程序支持直接查看采集結果并測試發布。
6、管理方便:使用站點+任務方式管理采集節點,任務支持批量操作,再多的數據管理也很輕松。
多線程高速并行采集系統
任務分配至多個客戶端,同時運行采集,效率倍增。
多識別系統
配備正文識別、中文分詞識別、任意編碼識別等多種識別系統,智能識別操作更輕松。
可選驗證方式
LocoySpider可選擇是否使用加密狗,隨時保障數據安全。
全自動運行
無需人工值守操作,任務完成后自動關機。
替換功能
同義,近義詞替換、參數替換,偽原創必備技能。
任意文件格式下載
圖片、壓縮文件、視頻等任意格式的文件都能輕松下載。
系統運行監控
監控數據質量,確保數據準確性。
支持多數據庫
支持Access/MySQL/MsSQL/Sqlite/Oracle多種類型的數據庫保存及發布。
無限級多頁采集
支持包含ajax請求數據在內的多個頁面信息的無限級采集。
支持擴展
LocoySpider支持接口和插件擴展,滿足各種采發需求。
建網站苦于沒內容?
火車采集器可自動采集優質內容,定時發布;并配置多種數據處理選項,讓網站內容獨一無二,快速提升網站流量!
業務發展遭遇瓶頸?
火車采集器助您在數據中快速挖掘新客戶;透視競爭對手的業務數據,分析客戶行為拓展新業務,精準營銷降低風險和預算。
數據提取速度太慢?
火車采集器采用分布式高速采集系統,多個服務端同時運作,解決工作學習中大量的數據下載及使用需求,讓您能有更多時間做更多事。
輿情監測無從下手?
火車采集器可應用于“輿情雷達監測與測控系統”,精準監控網絡數據的信息安全,及時對不利或危情信息進行預警處理。
1、 列表頁新增“地址處理”功能
內容替換/排重
可以對網址中內容進行替換,且替換完成后,重復的網址會自動去重。
純正則替換
可以使用正則表達式進行匹配,和內容替換功能類似
字符編碼處理
網址中有需要轉碼的內容,比如采到的鏈接里有 & 可以進行解碼
2、新增“請求失敗數”的預警條件設置
3、下載圖片命名,新增[記錄自增Id]格式
記錄自增ID:同一個內容頁中,多個標簽設置記錄自增ID,那么多個標簽都是從1開始自增,再次測試運行又會重新開始從1自增,更換個內容頁測試運行,也是從1開始自增。
自增ID:設置自增ID是采集器啟動后運行,開始一個自增ID,從1開始自增,之后就是自增。重啟采集器后,又會重新開始自增ID,從1開始自增。
4、修復圖片下載誤判斷問題
5、修復計劃任務中“每天調度”,起始運行時間配置未生效的問題
6、 修復PHP插件,對于循環記錄的處理報錯的問題
7、修復拼音首字母對于一些錯誤字符的判斷問題
8、任務批量編輯,修復“發布”中“多網站亂序發布”未能復制的問題
9、修改“循環添加新記錄”配置后,修復數據格式選擇錯誤的問題
10、修復循環記錄中列表頁標簽被多次處理的問題
11、修復對于一些302跳轉地址,無法正確跳轉的問題
12、修復一些網址無法正確請求的問題
標簽: LocoySpider 火車采集器 數據采集 信息采集