火車(chē)頭數(shù)據(jù)采集平臺(tái)是一款用于搜索獲取全網(wǎng)數(shù)據(jù)的網(wǎng)絡(luò)輔助工具,可以靈活迅速地抓取網(wǎng)頁(yè)中大量非結(jié)構(gòu)化的文本,圖片等資源信息,通過(guò)一系列的分析處理,準(zhǔn)確挖掘出所需數(shù)據(jù)。并可以選擇發(fā)布到網(wǎng)站后臺(tái)、導(dǎo)入數(shù)據(jù)庫(kù)或者保存在本地Excel,Word等格式的文件中。火車(chē)采集器是目前最受歡迎的網(wǎng)頁(yè)數(shù)據(jù)采集軟件,有需要進(jìn)行采集操作的用戶快來(lái)獲取吧!

火車(chē)頭數(shù)據(jù)采集平臺(tái)安裝方法
1、等待火車(chē)采集器下載完成,然后解壓縮并雙擊exe文件,進(jìn)入安裝向?qū)?,點(diǎn)擊下一步。

2、點(diǎn)擊【瀏覽】設(shè)置軟件的安裝位置,然后點(diǎn)擊【安裝】。

3、稍等片即可完成安裝,勾選【運(yùn)行 火車(chē)采集器 9.3】選項(xiàng),點(diǎn)擊【完成】即可運(yùn)行。

特色
1、無(wú)限級(jí)多張采集,能夠完成無(wú)盡深層的采集
2、每日任務(wù)序列運(yùn)作管理方法,適用Cron關(guān)系式
3、無(wú)限級(jí)排序任務(wù)管理,每日任務(wù)垃圾回收站功能
4、RSS詳細(xì)地址采集功能
5、列表頁(yè)分頁(yè)查詢采集獲得功能
6、列表頁(yè)額外主要參數(shù)獲得功能
7、列表頁(yè)及標(biāo)識(shí)XPath數(shù)據(jù)可視化獲取功能
8、標(biāo)識(shí)純正則替換功能
9、Http插口查詢運(yùn)作狀況
10、導(dǎo)出來(lái)紀(jì)錄為單獨(dú)或好幾個(gè)Txt、html文檔
11、標(biāo)識(shí)間隨意搭配功能
12、對(duì)于標(biāo)識(shí)內(nèi)容再次推送Http要求功能
13、無(wú)限級(jí)列表網(wǎng)站地址采集
14、從Http頭信息內(nèi)容中讀取數(shù)據(jù)
15、題目?jī)?nèi)容文章正文獲取功能
16、Aspx列表分頁(yè)查詢自鑒別
17、多網(wǎng)址站群系統(tǒng)式web公布
18、導(dǎo)出來(lái)紀(jì)錄為Word格式
19、導(dǎo)出來(lái)全部紀(jì)錄為Excel格式
20、應(yīng)用任意二級(jí)(適用Socket代理)
21、多拓展間數(shù)據(jù)傳輸功能
22、免費(fèi)下載的圖片全自動(dòng)加加強(qiáng)型圖片水印功能
23、Ocr鑒別(圖片轉(zhuǎn)換為文本)
24、Http插口管理方法采集器運(yùn)作
25、Mongodb數(shù)據(jù)庫(kù)儲(chǔ)存數(shù)據(jù)信息
26、主從關(guān)系網(wǎng)絡(luò)服務(wù)器分布式系統(tǒng)采集
火車(chē)頭數(shù)據(jù)采集平臺(tái)使用方法
1.在程序主界面中,點(diǎn)擊“新建”下拉箭頭,從中選擇“任務(wù)”項(xiàng)。

2.在彈出的窗口中,輸入“任務(wù)名”,同時(shí)點(diǎn)擊“起始網(wǎng)址”欄目右側(cè)的“添加”按鈕。

3.接下來(lái)就極為重要的一步,就是對(duì)要進(jìn)行采集的網(wǎng)站進(jìn)行分板,對(duì)所采取的網(wǎng)站中各片文章的URL進(jìn)行綜合分析并找出規(guī)律,最后按如圖進(jìn)行填寫(xiě)。

4.然后切換至“第二步:采集內(nèi)容規(guī)則”選項(xiàng)卡中,我們需要對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行分板。在此以“搜狗瀏覽器”為例,右擊要進(jìn)行分析的網(wǎng)頁(yè),從彈出的菜單中選擇“審查元素”項(xiàng)。

5.在“開(kāi)發(fā)式模式”界面中,點(diǎn)擊“選擇頁(yè)面中的一個(gè)元素去透視”按鈕,接著點(diǎn)擊“標(biāo)題”內(nèi)容,此時(shí)就可以在“開(kāi)發(fā)者”窗口中顯示標(biāo)題所對(duì)應(yīng)的標(biāo)簽,此例為“h2"。

6.接下來(lái)在”采集內(nèi)容規(guī)則“界面中,點(diǎn)擊“添加”按鈕來(lái)添加“標(biāo)題”項(xiàng),或者直接雙擊“標(biāo)題”項(xiàng)進(jìn)行修改。在彈出的界面中,勾選”前后截取“,將設(shè)置前后輟分別為"“、”".

7.利用同樣的方法添加其它采集內(nèi)容的規(guī)則。切換至“第三步:發(fā)布內(nèi)容設(shè)置”選項(xiàng)卡,勾選“啟用 方式二”,并進(jìn)行如圖設(shè)置。
8.最后從任務(wù)列表中,勾選要采集的內(nèi)容,點(diǎn)擊“開(kāi)始”按鈕就可以按規(guī)則采集網(wǎng)站中的網(wǎng)頁(yè)內(nèi)容啦。

數(shù)據(jù)轉(zhuǎn)換
數(shù)據(jù)采集下來(lái)后可選擇保存到sqlite、mysql、sqlserver三種類(lèi)型的數(shù)據(jù)庫(kù)中。
默認(rèn)保存為sqlite數(shù)據(jù)庫(kù),可轉(zhuǎn)換為其他類(lèi)型,其中sqlite是可以保存在本地?cái)?shù)據(jù)庫(kù)的。
mysql、sqlserver既可以保存在本地?cái)?shù)據(jù)庫(kù),也可以保存到遠(yuǎn)程數(shù)據(jù)庫(kù)。
工具菜單--數(shù)據(jù)轉(zhuǎn)換
如需轉(zhuǎn)換原有數(shù)據(jù)庫(kù)請(qǐng)勾選“轉(zhuǎn)換內(nèi)容庫(kù)”,否則數(shù)據(jù)庫(kù)內(nèi)容將被清空。
分組右鍵功能
在分組上右擊,支持導(dǎo)入任務(wù),導(dǎo)出分組,導(dǎo)入分組等。
導(dǎo)入任務(wù):分組上右擊--導(dǎo)入任務(wù),可以導(dǎo)入.ljobx后綴的任務(wù)。
導(dǎo)出分組:分組上右擊--導(dǎo)出分組,批量導(dǎo)出任務(wù)分組,可以導(dǎo)出.lgrp后綴的分組。
導(dǎo)入分組:分組上右擊--導(dǎo)入分組,批量導(dǎo)入任務(wù)分組,可以導(dǎo)入.lgrp后綴的分組。

采集規(guī)則
起始網(wǎng)址
采集規(guī)則制作的第一步驟,點(diǎn)擊向?qū)砑?,?rarr;②,出現(xiàn)如圖界面。

分3種方式:普通網(wǎng)址,批量網(wǎng)址,文本導(dǎo)入。
獲取內(nèi)容網(wǎng)址
有常規(guī)模式和高級(jí)模式兩種。
1.常規(guī)模式:該模式默認(rèn)抓取一級(jí)地址,即從起始頁(yè)源代碼中獲取到內(nèi)容頁(yè)A鏈接。
它有2種方式:a.自動(dòng)獲取地址鏈接 b.手動(dòng)設(shè)置規(guī)則獲取。
2.高級(jí)模式:該模式對(duì)0級(jí),多級(jí),POST類(lèi)型網(wǎng)址的抓取有效。
即起始網(wǎng)址就是內(nèi)容頁(yè)網(wǎng)址;
或者需要對(duì)多級(jí)列表網(wǎng)址采集才能得到最終內(nèi)容頁(yè)鏈接;
或者是post網(wǎng)址類(lèi)型抓取等情況下使用高級(jí)模式。
0級(jí)及多級(jí)網(wǎng)址獲取
起始網(wǎng)址就是內(nèi)容頁(yè)網(wǎng)址,直接采集起始網(wǎng)址里的內(nèi)容。
何為多級(jí)?
即有多級(jí)列表,需要設(shè)置多級(jí)網(wǎng)址步驟后,才能得到最終內(nèi)容頁(yè)鏈接。
列表上下頁(yè)分頁(yè)
對(duì)于設(shè)置列表分頁(yè),下圖的起始網(wǎng)址--批量網(wǎng)址設(shè)置是最常見(jiàn)也是最常用的。
登錄采集
登錄信息設(shè)置: 對(duì)于部分需要登錄的網(wǎng)站,需要設(shè)置此項(xiàng)。
更新內(nèi)容
1.優(yōu)化標(biāo)簽數(shù)據(jù)處理中字符替換。
2.對(duì)文件探測(cè)無(wú)效導(dǎo)致文件下載失敗問(wèn)題優(yōu)化。
3.處理用戶名包含特殊符號(hào)不能登錄問(wèn)題。
4.修復(fù)數(shù)據(jù)管理批量操作數(shù)據(jù)有異常彈窗提示。
5.修復(fù)二級(jí)代理卡死問(wèn)題。
6.完善自動(dòng)獲取cookie失敗問(wèn)題。
7.發(fā)布到word,自動(dòng)轉(zhuǎn)義"<"、">"為"<"、">"。
8.修復(fù):勾選發(fā)布選項(xiàng),采集最大數(shù)無(wú)效。
9.修復(fù)oracle鏈接問(wèn)題。
10.支持oss存儲(chǔ)。
11.修復(fù):下載地址后面有斜杠,下載文件時(shí)無(wú)后綴名。
注:火車(chē)采集器無(wú)破解版,提供為官方版本