雷火电竞官网-中国知名电竞赛事平台

<ol id="36hex"></ol>

<rt id="36hex"><listing id="36hex"><ul id="36hex"></ul></listing></rt>

<rt id="36hex"></rt>

<big id="36hex"><optgroup id="36hex"></optgroup></big>

當下軟件園 / 匯聚當下最新最酷的軟件下載站！

最新更新|軟件分類|軟件專題|軟件標簽|論壇轉貼|軟件發布

當下軟件園

您的位置：首頁 > 網絡軟件 > 搜索引擎 > Apache Nutch(Java搜索引擎工具) V2.3 官方版

Apache Nutch(Java搜索引擎工具) V2.3 官方版 版本

軟件大?。?/span>7.21M
軟件語言：英文
軟件類型：國外軟件
軟件授權：免費軟件
更新時間：2018-05-05
軟件類別：搜索引擎
應用平臺：Win2003,WinXP,Vista,Win7,Win8

網友評分： 9.4分

軟件非常好（94%）軟件不好用（6%）

網友評論下載地址收藏該頁

相關軟件

　　Apache Nutch是一個開放源代碼的Java搜索引擎框架，它提供了運行自己的搜索引擎所需要的全部工具，包括全文搜索和Web爬蟲，使用Nutch不僅可以建立自己內部網的搜索引擎，同時也可以針對整個網絡建立搜索引擎。

Apache Nutch

【軟件特色】

　　1、Nutch致力于讓每個人能很容易，同時花費很少就可以配置世界一流的Web搜索引擎

　　2、每個月取幾十億網頁

　　3、為這些網頁維護一個索引

　　4、對索引文件進行每秒上千次的搜索

　　5、提供高質量的搜索結果

【功能特點】

　　1、支持將起始URL集合注入到Nutch系統之中

　　2、支持生成片段文件，其中包含了將要抓取的URL地址

　　3、根據URL地址在互聯網上抓取相應的內容

　　4、解析所抓取到的網頁，并分析其中的文本和數據

　　5、根據新抓取的網頁中的URL集合來更新起始URL集合，并再次進行抓取

　　6、同時，對抓取到的網頁內容建立索引，生成索引文件存放在系統之中

Apache Nutch

【使用教程】

　　1、首先先運行軟件，選擇File -> Import Project ->選擇apache-nutch-1.9文件夾，確定后選擇Import project from external model(Eclipse)

　　2、一直點擊next到結束，成功將項目導入project中去

　　3、源碼導入工程后，并不能執行完整的爬取。Nutch將爬取的流程切分成很多階段，每個階段分別封裝在一個類的main函數中。在外面通過Linux Shell調用這些main函數，來完整爬取的流程。下面我們來運行Nutch中最簡單的流程：Inject。我們知道爬蟲在初始階段，是需要人工給出一個或多個url，作為起始點（廣度遍歷樹的樹根）。Inject的作用，就是把用戶寫在文件里的種子(一行一個url，是TextInputFormat)，插入到爬蟲的URL管理文件(crawldb，是SequenceFile)中。

　　4、接下來我們按照Nutch默認的配置，需要修改Nutch的配置文件，為插件文件夾指定一個絕對路徑，修改conf/nutch-default.xml文件內容，并且保存到工程中

　　5、接下來我們就可以開始對指定的網站的信息進行完整的爬取了

【更新日志】

　　V1.9更新：

　　1、增加了可爬取的數據類型

　　2、增加對Web爬蟲的管理功能

　　3、解決了一些格式上的已知問題

　　4、修復了一些bug，優化了軟件界面

　　5、優化了軟件性能

軟件特別說明

標簽：搜索引擎編程框架

其他版本下載

Apache Nutch(Java搜索引擎工具) V2.3 官方版

有問題？點此報錯 + 投訴 + 提問

下載地址在右側

人氣軟件

網友評論

排行榜

越獄搜索2015迅雷云播版 V2015.2.7 綠色版 759K / 簡體中文 /8.9
快播種子大全 V20140505 官方最新版 5.13M / 簡體中文 /2.9
八度云助手 V5.7 綠色版 1.12M / 簡體中文 /10
通搜網絡資源搜索 V3.6.9 綠色免費版 194K / 簡體中文 /8.8
搜索易 V1.7.7903 官方免費版 1.15M / 簡體中文 /9.7
飛云種子搜索器 V2.0.0.5 綠色免費版 178K / 簡體中文 /10

網盤搜索神器

熱門關鍵詞

回頂部去下載

關于本站|下載幫助|下載聲明|軟件發布|聯系我們

Copyright ? 2005-2024 m.obymc.com.All rights reserved.

浙ICP備2024132706號-1 浙公網安備33038102330474號

<rt id="pdl73"></rt>

<center id="pdl73"></center>