The UNIX and Linux Forums  

Go Back   В UNIX и Linux Форумы > Топ форумы > Shell программирование и сценарии
.
Google unix.com



Shell программирование и сценарии Почтовые вопросы о KSH, CSH, SH, BASH, Perl, PHP, SED, AWK и скрипты оболочки и оболочки скриптовых языков здесь.

Подробнее UNIX и Linux Темы форума можно найти полезные
Нить Резьба для начинающих Форум Ответы Последнее сообщение
Удаление дубликатов из файла с конкретного места gopikgunda Shell программирование и сценарии 1 04-09-2008 03:16 AM
Самый быстрый путь для поиска файлов vaibhavbhat UNIX перспективных И опытных пользователей 3 03-10-2008 10:57 AM
Как удалить дубликаты без сортировки orahi001 UNIX для чайников Вопросы И Ответы 4 01-17-2008 07:19 PM
Как удалить / удалить каталог в быстрый способ getdpg Shell программирование и сценарии 6 03-07-2006 10:42 AM
быстро скопировать команду vascobrito UNIX для чайников Вопросы И Ответы 0 07-20-2004 07:02 AM

Closed Thread
English Japanese Spanish French German Portuguese Italian Dutch Swedish Russian Norwegian Hungarian Hebrew Danish Bulgarian Greek Powered By Powered by Google
 
LinkBack Резьба Инструменты Искать в этом Thread Оценить Thread Режимы дисплея
Old 06-23-2005
Радхики radhika is offline
Зарегистрированный пользователь
  
 

Регистрация: Apr 2005
Сообщений: 51
быстрый способ удаления дубликатов.

Я искал на часто задаваемые вопросы - с помощью сортировки, дубликатов и т.д. ... но я не получил каких-либо статей или результаты по нему.

В настоящее время я использую:
Сорт-U file1> file2 для удаления дубликатов. Для файла размером около 1giga байт. Время, необходимое для удаления дубликатов это 1 час 21 мин.

Есть ли какие-либо другие быстрый способ удаления дубликатов? Наши размеры файлов может получить от 10 до 12 гига байт размера.

Aprpeciate каких-либо указателей.
Спасибо,
Радхики.
Old 06-24-2005
vino's Avatar
Вино vino is offline Forum Staff  
Supporter (в Vino Veritas)
  
 

Регистрация: Февраль 2005
Место проведения: Бангалор, Индия
Сообщения: 2798
Просто мысли.

Почему бы не использовать "разделяй и властвуй подход?

Вино

Последний раз редактировалось Вино; на 06-24-2005 04:46 AM..
Old 06-24-2005
pixelbeat pixelbeat is offline
Зарегистрированный пользователь
  
 

Регистрация: Jun 2005
Место проведения: Ирландия
Сообщений: 61
Это около 200Кб / с Pretty дерьма.
Полагаю, вы обмолот своп?

Одна вещь, чтобы проверить это, если вам не нужна многобайтовых сортировка,
Затем переменной рода команду LANG \u003d C

Похоже, вам потребуется база данных (индекс), которые будут честными.

Если вывод является небольшой% от вклада, а затем
прямо перегородки входные будет полезным.
IE: в то время как сорт-U кусок | сорт-U
Old 06-24-2005
amit_sapre amit_sapre is offline
Зарегистрированный пользователь
  
 

Регистрация: Jun 2005
Место проведения: Бангалор, Индия
Сообщений: 28
Cool

Попробуйте это ...

SED '$! N; / ^ \ (.* \) \ N \ 1 $ /! P; D'

# Первая строка дублировать те только хранятся и остальные будут удалены.

Я испытал это около 1GB файл.

Он принял около 13 минут, что для сортировки файлов. Многое гораздо быстрее, чем сортировка команды.


Последний раз редактировалось amit_sapre; на 06-24-2005 10:53 AM..
Old 06-24-2005
vino's Avatar
Вино vino is offline Forum Staff  
Supporter (в Vino Veritas)
  
 

Регистрация: Февраль 2005
Место проведения: Бангалор, Индия
Сообщения: 2798
Цитата:
Первоначально Послано amit_sapre
Попробуйте это ...

SED '$! N; / ^ \ (.* \) \ N \ 1 $ /! P; D'

# Первая строка дублировать те только хранятся и остальные будут удалены.

Надеюсь, что это будет работать быстрее, чем сортировка команды.

Я не проверял на больших файлах.
Havn't пытались ваш SED. Но doesn't он предполагать, что все записи уже отсортированы и затем удаляет дубликаты.

и / или

Если файл несортированные, а затем дублировать записей основанных на первой линии удаляются. с тех пор, как SED делает только один проход через файл.

Или я получить его не так?

Вино
Old 06-24-2005
amit_sapre amit_sapre is offline
Зарегистрированный пользователь
  
 

Регистрация: Jun 2005
Место проведения: Бангалор, Индия
Сообщений: 28
Привет Vino,

Эта команда будет первой позиции, как это и исключить другие записи,

независимо от того, файл отсортирован или нет.

Не ранее предположения при выполнении этой команды.
Old 06-24-2005
Радхики radhika is offline
Зарегистрированный пользователь
  
 

Регистрация: Apr 2005
Сообщений: 51
Привет Амит,


>>
SED '$! N; / ^ \ (.* \) \ N \ 1 $ /! P; D'

Не могли бы вы объяснить, в команде - постепенно, если вы не возражаете.

Спасибо!
Closed Thread

Закладки

Резьба Инструменты Искать в этом Thread
Искать в этом Thread:

Расширенный поиск
Режимы дисплея Оценить эту ветку
Оценить эту ветку:

Отправка Правила
Вы не может Начать новую нитей
Вы не может Почтовые ответы
Вы не может Почтовые вложения
Вы не может Редактировать Ваши сообщения

BB код быть На
Смайлики являемся На
[IMG] код На
HTML-код Вне
Trackbacks являемся На
Pingbacks являемся На
Refbacks являемся На




Часовой пояс GMT -4. Текущее время 05:57 PM.


Powered By: Справка, Copyright © 2000 - 2006, Jelsoft Enterprises Limited. Язык Переводы на питание от .
vBCredits v1.4 Copyright © 2007 - 2008, PixelFX Studios
В UNIX и Linux форумы Содержание Copyright © 1993-2009. Все права Reserved.Ad управления по RedTyger

Содержание соответствующие URL-адреса в vBSEO 3.2.0