The UNIX and Linux Forums  


Go Back   Die UNIX-und Linux-Foren > Top Foren > Shell Programmierung und Scripting
.
Google unix.com



Shell Programmierung und Scripting Post Fragen zu ksh, csh, sh, bash, Perl, PHP, sed, awk und anderen Shell-Skripte und Shell-Scripting-Sprachen hier.

Mehr UNIX-und Linux-Forum Themen Vielleicht finden Sie hilfreiche
Faden Thread Starter Forum Antworten Last Post
Entfernt Dubletten aus Datei von bestimmten Standort gopikgunda Shell Programmierung und Scripting 1 04-09-2008 03:16 AM
Schnellste Weg für die Suche nach der Datei vaibhavbhat UNIX für Fortgeschrittene und Experten 3 03-10-2008 10:57 AM
So entfernen Sie Duplikate nicht sortieren orahi001 UNIX for Dummies Questions & Answers 4 01-17-2008 07:19 PM
So löschen / entfernen, Verzeichnis, in schnellste Weg getdpg Shell Programmierung und Scripting 6 03-07-2006 10:42 AM
schnellste Befehl "Kopieren" vascobrito UNIX for Dummies Questions & Answers 0 07-20-2004 07:02 AM

Closed Thread
English Japanese Spanish French German Portuguese Italian Dutch Swedish Russian Norwegian Hungarian Hebrew Danish Bulgarian Greek Powered by Powered by Google
 
LinkBack Thread Tools Suche diesen Thread Rate Thread Anzeige-Modi
  #1 (permalink)  
Old 06-23-2005
Radhika radhika is offline
Registrierte Nutzer
  
 

Join Date: Apr 2005
Beiträge: 51
schnellste Weg, um Duplikate zu entfernen.

Ich habe die Fragen und Antworten - mit sortieren, Duplikate, etc. ... aber ich habe nicht alle Artikel oder Ergebnisse auf.

Derzeit bin ich mit:
sort-u datei1> datei2 Duplikate zu entfernen. Bei einer Dateigröße von ca. 1giga Byte. Zeit, die zur Beseitigung von Dubletten ist 1 Stunde 21 Min..

Gibt es eine andere Art und Weise schneller zu entfernen Duplikate? Unsere Dateigrößen könnte auf 10 bis 12 Giga Byte Größe.

Aprpeciate Any pointers.
Danke,
Radhika.
  #2 (permalink)  
Old 06-24-2005
vino's Avatar
vino vino is offline Forum Staff  
Supporter (in vino veritas)
  
 

Join Date: Feb 2005
Ort: Bangalore, Indien
Posts: 2798
Nur ein Gedanke.

Warum nicht die teile und herrsche Ansatz?

Vino

Zuletzt bearbeitet von vino; am 06-24-2005 04:46 AM..
  #3 (permalink)  
Old 06-24-2005
pixelbeat pixelbeat is offline
Registrierte Nutzer
  
 

Join Date: Jun 2005
Ort: Irland
Beiträge: 61
Das ist ca. 200 KByte / s. Pretty crap.
Ich vermute, Sie verprügeln Swap?

Eine Sache ist zu prüfen, wenn Sie sie nicht benötigen Multibyte Sortieren,
dann stelle die Art Befehl mit LANG \u003d C

Klingt wie Sie eine Datenbank (Index) um ehrlich zu sein.

Wenn die Ausgabe ist ein kleiner% der Eingabe, dann
ausdrücklich Partitionierung der Eingabe von Vorteil wäre.
IE: Während sort-u chunk | sort-u
  #4 (permalink)  
Old 06-24-2005
amit_sapre amit_sapre is offline
Registrierte Nutzer
  
 

Join Date: Jun 2005
Ort: Bangalore, Indien
Beiträge: 28
Cool

Probieren Sie diese ...

sed '$! N; / ^ \ (.* \) \ n \ 1 $ /! P, D'

# Die erste Zeile der doppelten sind nur gehalten und Ruhezeiten sind, werden gestrichen.

Ich habe das mit rund 1 GB-Datei.

Es dauerte etwa 13 min zu sortieren, dass die Datei. Viel viel schneller als Art Befehl.


Zuletzt bearbeitet von amit_sapre; am 06-24-2005 10:53 AM..
  #5 (permalink)  
Old 06-24-2005
vino's Avatar
vino vino is offline Forum Staff  
Supporter (in vino veritas)
  
 

Join Date: Feb 2005
Ort: Bangalore, Indien
Posts: 2798
Zitat:
Zitat von amit_sapre
Probieren Sie diese ...

sed '$! N; / ^ \ (.* \) \ n \ 1 $ /! P, D'

# Die erste Zeile der doppelten sind nur gehalten und Ruhezeiten sind, werden gestrichen.

Hoffen, dass dies schneller arbeiten als Art-Kommando.

Ich habe nicht versucht, auf große Dateien.
Havn't versucht Ihr sed. Aber es doesnt gehen davon aus, dass alle Einträge sind bereits sortiert und dann löscht die Duplikate.

und / oder

Wenn die Datei ist unsortiert, dann doppelte Einträge auf der Grundlage der ersten Zeile werden entfernt. seit sed macht nur ein durch die Datei.

Oder habe ich es falsch?

vino
  #6 (permalink)  
Old 06-24-2005
amit_sapre amit_sapre is offline
Registrierte Nutzer
  
 

Join Date: Jun 2005
Ort: Bangalore, Indien
Beiträge: 28
Hallo Vino,

Mit diesem Befehl wird der erste Eintrag, wie sie ist und löschen Sie die anderen Einträge,

unabhängig davon, ob die Datei sortiert ist oder nicht.

Eine vorherige Annahmen während der Ausführung dieses Befehls.
  #7 (permalink)  
Old 06-24-2005
Radhika radhika is offline
Registrierte Nutzer
  
 

Join Date: Apr 2005
Beiträge: 51
Hallo Amit,


>>
sed '$! N; / ^ \ (.* \) \ n \ 1 $ /! P, D'

Könnten Sie erklären, das Kommando - Stück für Stück, wenn es Ihnen nichts ausmacht.

Danke!
Closed Thread

Lesezeichen

Thread Tools Suche diesen Thread
Suche diesen Thread:

Erweiterte Suche
Anzeige-Modi Rate this thread
Rate this thread:

Forumregeln
Du möglicherweise nicht neue Themen
Du möglicherweise nicht nach Antworten
Du möglicherweise nicht post-Anlagen
Du möglicherweise nicht bearbeiten Sie Ihre Beiträge

BB-Code ist Auf
Smilies sind Auf
[IMG] Code Auf
HTML-Code ist Aus
Trackbacks sind Auf
Pingbacks sind Auf
Refbacks sind Auf




Alle Zeiten sind GMT -4. Es ist jetzt 11:39 AM.


Powered by: vBulletin, Copyright © 2000 - 2006, Jelsoft Enterprises Ltd. Sprachliche Übersetzungen Powered by .
vBCredits v1.4 Copyright © 2007 - 2008, PixelFX Studios
Die UNIX-und Linux-Foren Content © Copyright 1993-2009. Alle Rechte Reserved.Ad Management von RedTyger

Content Relevant URLs durch vBSEO 3.2.0