網友評分: 5分
飛騰反黃軟件 V2.3.0.1010 官方版
全能模擬王自動點擊軟件 V17.1.1 綠色最新版
Sangfor WebShellKiller(網站暗鏈檢測工具) V3.3.0.2 綠色免費版
Easy Web Editor(可視化網頁制作軟件) V2016.40.1 官方版
Google Web Designer(網頁編輯器) V8.0.3.0603 官方版
Advanced PDF Page Extractor(PDF頁面提取軟件) V1.5 官方版
Fiddler4網頁抓包軟件 V5.0.2 官方版
我要看vip視頻Chrome插件 V1.4.1 綠色版
XPath2Doc 是一個半自動采集網頁生成Word docx文件的工具,帶企查查、天眼查采集配置,使用XPath2Doc需要自己在WebBrowser窗口里面手工登錄,并找到需要的數據頁面,然后點擊程序按鈕進行采集,所以是個半自動的網頁數據填充Docx工具。
網頁的每個元素,都可以表示成為XPath語句,所以我們可以讀取瀏覽器打開的網站頁面源代碼,通過XPath語句得到網頁元素中的文本。
XPath語句的獲取辦法:
通常我們可以使用谷歌的Chrome瀏覽器打開網站頁面,按F12調出開發者工具界面,在ELements選項卡下,隨著鼠標的移動可以看到網頁內容被陰影覆蓋,點開三角符號,可以更進一步定位準確的位置,直到找到最終需要的數據位置。在找到的文本上點鼠標右鍵,在彈出的菜單中,選擇Copy-Copy XPath,然后粘貼到記事本即可得到需要的XPath語句。
這里需要說明一點:如果拷貝出來的XPath語句中有/tbody會影響采集,程序內部對此問題進行了處理,但可能會在某些特殊情況下還是會影響數據采集,可以手工去掉。
1、本程序工作需要三個配置文件:General.ini,自定義.ini,自定義模板.docx。后兩個文件名自己定義。
General.ini文件中定義了INI文件和Docx模板文件的存放目錄,可以不填,默認是程序所在目錄。
自定義.ini、自定義模板.docx是軟件使用者自己創建的網頁采集XPath語句及最后生成文件所用的Docx模板,具體設置方法請看ini文件中的說明。注意,Docx模板文件中的“@<#0001#>@”之類的字符是在INI文件中定義的用于替換網頁采集內容的標記字符串。ini文件中定義了替換關鍵字的前后綴和模板文件名。
2、使用本程序前,請先建立好你自己的INI配置文件和Docx模板文件。(具體可以參見附帶的企查查、天眼查兩個配置文件和起訴書模板)
需要說明的是,模板文件支持對文檔的不同部分使用不同的網址進行采集,注意Url的設置。
啟動程序--選擇模板--點擊采集數據按鈕旁邊的黑色三角符號,點開下拉菜單,點擊需要采集的部分。等候瀏覽器加載網頁完畢,手工輸入需要查詢的內容,點擊查詢,找到數據的具體頁面,然后點擊采集數據按鈕,觀察右側的列表中是不是已經得到需要的數據。繼續點開下拉菜單,選擇下一個需要采集的部分,如果網址發生了變化要等候瀏覽器加載完畢,找到需要的數據頁面。點擊采集數據按鈕觀察右側列表中是不是得到了第二部分的數據。如此反復,直到數據全部采集完畢。
如果前后兩部分的網址相同,在點擊下一部分的下拉菜單之前,要先在瀏覽器中重新查詢新的數據,等新數據頁面出來之后在點擊下拉菜單選擇下一部分進行采集。(網址相同的情況下,點擊下一部分會直接從網頁取數據,如果瀏覽器沒有換頁面,數據就錯了。)如果某個部分需要重新采集,請先點擊下拉菜單中的該部分名稱,然后點擊采集按鈕重復采集該部分(此時可以隨意改變瀏覽器的數據頁面,得到的就是不同公司數據)。
列表中采集得到的數據結果如果有偏差,可以單擊自行修改。XPath語句如果有什么錯誤,也可以自己修改看測試結果(XPath語句在修改后會立即重新抓取瀏覽器的數據,所以瀏覽器最好是有效數據頁面),在程序中修改的XPath語句,不會保存到INI文件中,請自行手工保存。
如果列表中數據無誤,預覽窗口中的Docx模板內容也正確,則可以點擊創建文檔按鈕,填寫要生成的文件名,本軟件會使用抓取到的網頁數據替換模板中的索引字符串,自動生成Docx文檔。
需要說明的是,右下角的Docx預覽窗口不能完整的支持Word文檔,對不標準的文檔可能會出現文本缺失或者錯位現象。遇到這種情況,可以忽略,或者將模板文件改成規范的文本格式(單倍行距)。