Go Back   В UNIX и Linux Форумы > Топ форумы > Shell программирование и сценарии
.
Google Site



Shell программирование и сценарии Почтовые вопросы о KSH, CSH, SH, BASH, Perl, PHP, SED, AWK и скрипты оболочки и оболочки скриптовых языков здесь.

Closed Thread
English Japanese Spanish French German Portuguese Italian Powered By Powered by Google
 
Резьба Инструменты Искать в этом Thread Оценить Thread Режимы дисплея
Old 10-14-2008
Зарегистрированный пользователь
 

Регистрация: Sep 2007
Сообщений: 173
Уникальные ценности из гигабайт файлов

Привет,

У меня было дело с файлами лишь несколько концертов, и до сих пор удалось выйти с помощью сортировки полезности. Но теперь у меня есть гигабайт файлов, которые я хочу, чтобы отфильтровать уникальные значения.

У меня есть сервер с 8 процессора и оперативной памяти 16GB с 5-ТБ HDD. Есть ли смысл пытается использовать сортировать снова для этого типа проблемы и есть лучшее решение для этого? Любая помощь высокую оценку.
Рекламные ссылки
Old 10-14-2008
Technorati Master
 

Регистрация: Mar 2005
Расположение: в конечном узле B + дерево
Сообщения: 3007
Не совсем.

Запуск снова просто сортировать по тера-байт проблема обыкновение наращивать правильно и что не нужно также.

Эти типа проблем, для которых вычислительная сложность возрастает с более количество записей для обработки можно с помощью карт уменьшить проблему. Это, вероятно, следует сделать путем разделения файлов на 'N' кусками и сотрудничающих друг от обработанных кусков.
Old 10-14-2008
Зарегистрированный пользователь
 

Регистрация: Sep 2007
Сообщений: 173
Итак, если у меня есть только один сервер с 8 процессоров, я мог бы быть в состоянии выполнить такой алгоритм? Я немного новой для этих вещей я прошу прощения, если вопрос глупый. Мне было просто интересно, если существует алгоритм, просто разбивают исходный файл, а затем процесс ее постепенно ...

А также, какова основная проблема, если я создать hashmap? Я имею в виду, если Существуют лишь несколько уникальных ценностей, где бы эта проблема за счет в первую очередь?
Old 10-14-2008
Зарегистрированный пользователь
 

Регистрация: Oct 2008
Место проведения: Orem, Юта
Сообщений: 100
Если я могу спросить, какой тип файла это? На одной инстанции, а срочные работы, я смог занять обычного текстового файла, и использовать раскол команды. Это беспокоило меня немного, так как жесткий диск был ранен очень тяжело, но получил задание сделать. Если файл будет работать с чем-то примитивным, что?
Old 10-14-2008
Зарегистрированный пользователь
 

Регистрация: Sep 2007
Сообщений: 173
Ох .. Это текстовый файл тоже с кучей цифр от сетевого моделирования эксперимента ... Я думал, на самом деле расщепления файл и получить работу, но было просто любопытно, если Существуют более эффективные способы сделать что-то вроде matrixmadhan выразил ....

Последний раз редактировалось Legend986; на 10-14-2008 09:47 PM..
Old 10-25-2008
Technorati Master
 

Регистрация: Mar 2005
Расположение: в конечном узле B + дерево
Сообщения: 3007
(Я все время забывают об этом, извините плохой памятью )


Возможно, вы могли бы попробовать, что я был размещен в должность ниже ваш другой вопрос.

Изготовление вещей работать быстрее

Это вид ручек такими огромными данных проблем. Запуск такого рода более чем один большой файл, было бы очень утомительно и лучше разделить и достичь того же.
Old 10-25-2008
...@...
 

Регистрация: Февраль 2004
Местонахождение: Н. М.
Сообщений: 6152
А hashmap или ассоциативные массивы (другого слова для них), вероятно, лучше всего.

Можно даже попробовать AWK, если ваша версия обрабатывает largefiles. Предположим, ваш карте ключ 1-10 символов в отчете.

Код:
awk '!arr[substr($0,1,10)++' myTBfile

Рекламные ссылки
Closed Thread

Закладки

Резьба Инструменты Искать в этом Thread
Искать в этом Thread:

Расширенный поиск
Режимы дисплея Оценить эту ветку
Оценить эту ветку:

Отправка Правила
Вы не может Начать новую нитей
Вы не может Почтовые ответы
Вы не может Почтовые вложения
Вы не может Редактировать Ваши сообщения

BB код быть На
Смайлики являемся На
[IMG] код На
HTML-код Вне
Trackbacks являемся На
Pingbacks являемся На
Refbacks являемся Вне


Подробнее UNIX и Linux Темы форума можно найти полезные
Нить Резьба для начинающих Форум Ответы Последнее сообщение
Получение уникальных значений в файле Legend986 Shell программирование и сценарии 5 10-15-2008 03:36 AM
Рассчитать Gigabyte и терабайт terryporter51 Shell программирование и сценарии 3 07-01-2008 01:59 PM
Нужно найти только уникальных значений для данного тега через файлы sudheshnaiyer UNIX для чайников Вопросы И Ответы 8 09-03-2007 01:53 AM
для получения уникального значения mahalakshmi Shell программирование и сценарии 3 02-05-2007 09:30 AM
Уникальная ячейка vaules в файл rahulrathod Shell программирование и сценарии 3 01-17-2006 07:42 AM



Часовой пояс GMT -4. Текущее время 11:18 PM.


Powered By: Справка, Copyright © 2000 - 2006, Jelsoft Enterprises Limited. Язык Переводы на питание от .
vBCredits v1.4 Copyright © 2007 - 2008, PixelFX Studios
UNIX и Linux Форум Авторские права © 1993-2010 годов. Все права Reserved.Ad управление RedTyger

Содержание соответствующие URL-адреса в vBSEO 3.2.0