文本文件行去重化工具 v2.1.10

文本文件行去重化工具 v2.1.10? Text Line Dereplication BigData Tool

這只是篇介紹文,沒(méi)有資源可下載,工具作者并沒(méi)有開(kāi)放下載這款工具,

而是通過(guò)加密狗的形式出售,咨詢(xún)了下價(jià)格在3500RMB~4500RMB左右,

有剛需的朋友可以聯(lián)系,作者的QQ是24759362。

我平時(shí)偶爾需要對(duì)很大的文本文件去重,也嘗試過(guò)許許多多的小工具,Linux命令、網(wǎng)站在線去重等方式,但文件若很大很大則去重過(guò)長(zhǎng)就會(huì)很漫長(zhǎng),或者導(dǎo)致軟件直接卡死。

這款工具號(hào)稱(chēng)全網(wǎng)最快,也是唯一能處理超過(guò)100G,甚至超過(guò)500G、1T以上大數(shù)據(jù)的去重軟件,光是看軟件的界面就能看出作者是花了許多心思在上面,功能做的很細(xì)致。

但由于價(jià)格高昂,自己也并不是剛需,所以沒(méi)有購(gòu)買(mǎi),暫時(shí)通過(guò)Linux命令行下對(duì)大文件去重,Windows下的工具用過(guò)的基本都很難處理太大的文件,直接就卡死無(wú)響應(yīng)。

以下是原作者對(duì)軟件的介紹:

例如:多個(gè)TXT大數(shù)據(jù)文本文件合并以及文本行去重 130GB20億行數(shù)據(jù)60分鐘即可完成去重操作

測(cè)試數(shù)據(jù)大小:20億行130GB的數(shù)據(jù)只需60分鐘

平均去重速度:2000000000(行) ÷ 3600(秒) =? 555555(行/秒)≈55萬(wàn)行/秒 .

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
2008-4-25【數(shù)據(jù)來(lái)源于】【編號(hào)0255713】培訓(xùn)班簽到表_3
2008-2-8【數(shù)據(jù)來(lái)源于】【編號(hào)0414755】培訓(xùn)班簽到表_3
2008-12-10【數(shù)據(jù)來(lái)源于】【編號(hào)0362890】培訓(xùn)班簽到表_6
2008-7-14【數(shù)據(jù)來(lái)源于】【編號(hào)0031453】培訓(xùn)班簽到表_3
2008-10-11【數(shù)據(jù)來(lái)源于】【編號(hào)0062763】培訓(xùn)班簽到表_5
2008-4-16【數(shù)據(jù)來(lái)源于】【編號(hào)0722391】培訓(xùn)班簽到表_5
2008-10-2【數(shù)據(jù)來(lái)源于】【編號(hào)0919890】培訓(xùn)班簽到表_5
2008-1-5【數(shù)據(jù)來(lái)源于】【編號(hào)0087451】培訓(xùn)班簽到表_6
2008-10-16【數(shù)據(jù)來(lái)源于】【編號(hào)0790573】培訓(xùn)班簽到表_6
2008-4-11【數(shù)據(jù)來(lái)源于】【編號(hào)0713075】培訓(xùn)班簽到表_3
2008-11-4【數(shù)據(jù)來(lái)源于】【編號(hào)0478024】培訓(xùn)班簽到表_6
2008-5-23【數(shù)據(jù)來(lái)源于】【編號(hào)0733822】培訓(xùn)班簽到表_5
2008-1-11【數(shù)據(jù)來(lái)源于】【編號(hào)0673685】培訓(xùn)班簽到表_6
2008-2-3【數(shù)據(jù)來(lái)源于】【編號(hào)0159964】培訓(xùn)班簽到表_1
2008-12-28【數(shù)據(jù)來(lái)源于】【編號(hào)0811027】培訓(xùn)班簽到表_1
2008-12-27【數(shù)據(jù)來(lái)源于】【編號(hào)0352763】培訓(xùn)班簽到表_4
2008-1-2【數(shù)據(jù)來(lái)源于】【編號(hào)0615848】培訓(xùn)班簽到表_5
2008-7-6【數(shù)據(jù)來(lái)源于】【編號(hào)0764659】培訓(xùn)班簽到表_2
2008-9-17【數(shù)據(jù)來(lái)源于】【編號(hào)0572933】培訓(xùn)班簽到表_1
2008-9-15【數(shù)據(jù)來(lái)源于】【編號(hào)0316727】培訓(xùn)班簽到表_2
2008-8-4【數(shù)據(jù)來(lái)源于】【編號(hào)0746945】培訓(xùn)班簽到表_5
2008-4-16【數(shù)據(jù)來(lái)源于】【編號(hào)0544330】培訓(xùn)班簽到表_1

以上工具會(huì)生成如下格式的測(cè)試數(shù)據(jù)一共4列20億行(條):

Text Line Dereplication BigData Tool 文本行去重化 大數(shù)據(jù)工具

演示視頻:


本軟件特點(diǎn)及其描述:
1.平均處理速度60Mb/s(讀寫(xiě)速度),例如130Gb的txt文件,大約60分鐘即可完成文本行去重;
2.處理最大文本(txt或者csv)文件的能力——沒(méi)有行數(shù)限制,沒(méi)有文件大小限制,輕松處理超過(guò)1000Gb的文本文件,被去重的文本行可以是1列N行,也可以是N列N行的格式,允許被去重的文本格式每一行數(shù)據(jù)之中的任何一列,或者兩列或者多列甚至全部列文本內(nèi)容都可以為空,支持處理長(zhǎng)短各異,雜亂無(wú)章的文本行去重;
3.一次性可合并去重處理多個(gè)大數(shù)據(jù)文件,可以對(duì)歷史數(shù)據(jù)進(jìn)行持續(xù)更新升級(jí),對(duì),沒(méi)錯(cuò),是對(duì)您的大數(shù)據(jù)文件進(jìn)行升級(jí);
4.具備自動(dòng)文件編碼探測(cè)功能,被去重的所有大數(shù)據(jù)文件必須是同樣的文件編碼;
5.本軟件是目前互聯(lián)網(wǎng)上銷(xiāo)售的單機(jī)版文本行去重軟件中去重速度最快的軟件,其它專(zhuān)業(yè)性的軟件公司開(kāi)發(fā)的類(lèi)似產(chǎn)品最快處理速度才5Mb/s而已;
6.標(biāo)準(zhǔn)版與極速版合二為一,實(shí)時(shí)的百分比處理進(jìn)度條更新,讓您目測(cè)整個(gè)操作過(guò)程大約需要的時(shí)間;
7.獨(dú)特的拆分算法,巧妙構(gòu)思的快速數(shù)學(xué)計(jì)算模型,讓您的CPU利用率幾乎一直處于50%的線性水平,標(biāo)準(zhǔn)版幾乎能讓內(nèi)存消耗處在7Gb的線性水平;
8.文件的大小與硬件性能之間關(guān)系:是線性關(guān)系,對(duì),您沒(méi)看錯(cuò),不是指數(shù)關(guān)系,所以處理大數(shù)據(jù)的能力非常強(qiáng)悍!
9.支持所有64位的操作系統(tǒng)

以下是測(cè)速環(huán)境,如果您的硬件性能比以下配置要好的話,那么您的硬盤(pán)讀寫(xiě)的速度會(huì)更快,文本行去重過(guò)程需要的時(shí)間會(huì)更短:

操作系統(tǒng):Windows 10 x64
CPU型號(hào):Intel(R) Core(TM) i5-4570 CPU @ 3.2GHz 4核處理器
固態(tài)硬盤(pán)型號(hào):GLOWAY STK512GS3-S7
內(nèi)存型號(hào):金士頓HyperX 8Gb DDR3 1600 4條內(nèi)存,實(shí)際上只使用了1條8Gb的內(nèi)存容量

標(biāo)準(zhǔn)版文本行去重化處理速度(讀/寫(xiě))&硬件(固態(tài)硬盤(pán),CPU,內(nèi)存條)性能界面截屏:

任務(wù)管理器性能測(cè)試截圖表明:
1). CPU運(yùn)算能力消耗折線走向瞬間沒(méi)有出現(xiàn)明顯地上下跳躍,始終保持在40%這樣一條直線上,
表明CPU負(fù)載很低,工作得很輕松;

2). 內(nèi)存消耗折線走向瞬間沒(méi)有出現(xiàn)明顯地上下跳躍,始終保持在7個(gè)GB這樣一條直線上,
表明內(nèi)存消耗很穩(wěn)定,不會(huì)出現(xiàn)內(nèi)存不夠用這樣的突發(fā)的狀況;
3). 固態(tài)硬盤(pán)讀寫(xiě)平均速度一直在65M/秒的速率處理大數(shù)據(jù),表明處理大數(shù)據(jù)的數(shù)學(xué)建模計(jì)算
模型速度非常優(yōu)秀,計(jì)算模型已經(jīng)超越了目前互聯(lián)網(wǎng)上所有已知軟件算法;

從測(cè)試截圖上,我們通過(guò)分析這些硬件工作時(shí)的折線走勢(shì),就能根據(jù)它是否平滑或者水平(也
就是軟件運(yùn)行時(shí)具備線性特性),來(lái)衡量軟件設(shè)計(jì)是否優(yōu)秀,運(yùn)行時(shí)是否穩(wěn)定,

從實(shí)際消耗系統(tǒng)資源(例如 CPU,內(nèi)存,硬盤(pán)),就能判斷此軟件在自己的電腦上是否能快
速長(zhǎng)時(shí)間地處理大量數(shù)據(jù)。

測(cè)試固態(tài)硬盤(pán)讀寫(xiě)速度420M/s,如果你的硬盤(pán)比我這款還要
好,那么我可以肯定的告訴你,此軟件處理數(shù)據(jù)時(shí)平均讀寫(xiě)速率肯定會(huì)超過(guò)65M/秒。

極速版文本行去重化處理速度(讀/寫(xiě))&硬件(固態(tài)硬盤(pán),CPU,內(nèi)存條)性能界面截屏: