|
|
|
|
Google Site
|
|||||||
| Форумы | Регистрация | Блог | Человек Страницы | Правила форума | Ссылки | Альбомы | ЧАВО | Пользователи | Календарь | Поиск | Сегодняшние сообщения | Отметить форумы читать |
| Shell программирование и сценарии Почтовые вопросы о KSH, CSH, SH, BASH, Perl, PHP, SED, AWK и скрипты оболочки и оболочки скриптовых языков здесь. |
![]() |
|
|
Резьба Инструменты | Искать в этом Thread | Оценить Thread | Режимы дисплея |
|
|||
|
Уникальные ценности из гигабайт файлов
Привет,
У меня было дело с файлами лишь несколько концертов, и до сих пор удалось выйти с помощью сортировки полезности. Но теперь у меня есть гигабайт файлов, которые я хочу, чтобы отфильтровать уникальные значения. У меня есть сервер с 8 процессора и оперативной памяти 16GB с 5-ТБ HDD. Есть ли смысл пытается использовать сортировать снова для этого типа проблемы и есть лучшее решение для этого? Любая помощь высокую оценку. |
| Рекламные ссылки |
|
|
|
|||
|
Не совсем.
Запуск снова просто сортировать по тера-байт проблема обыкновение наращивать правильно и что не нужно также. Эти типа проблем, для которых вычислительная сложность возрастает с более количество записей для обработки можно с помощью карт уменьшить проблему. Это, вероятно, следует сделать путем разделения файлов на 'N' кусками и сотрудничающих друг от обработанных кусков. |
|
|||
|
Итак, если у меня есть только один сервер с 8 процессоров, я мог бы быть в состоянии выполнить такой алгоритм? Я немного новой для этих вещей я прошу прощения, если вопрос глупый. Мне было просто интересно, если существует алгоритм, просто разбивают исходный файл, а затем процесс ее постепенно ...
А также, какова основная проблема, если я создать hashmap? Я имею в виду, если Существуют лишь несколько уникальных ценностей, где бы эта проблема за счет в первую очередь? |
|
|||
|
Если я могу спросить, какой тип файла это? На одной инстанции, а срочные работы, я смог занять обычного текстового файла, и использовать раскол команды. Это беспокоило меня немного, так как жесткий диск был ранен очень тяжело, но получил задание сделать. Если файл будет работать с чем-то примитивным, что?
|
|
|||
|
Ох .. Это текстовый файл тоже с кучей цифр от сетевого моделирования эксперимента ... Я думал, на самом деле расщепления файл и получить работу, но было просто любопытно, если Существуют более эффективные способы сделать что-то вроде matrixmadhan выразил ....
Последний раз редактировалось Legend986; на 10-14-2008 09:47 PM.. |
|
|||
|
(Я все время забывают об этом, извините плохой памятью
)Возможно, вы могли бы попробовать, что я был размещен в должность ниже ваш другой вопрос. Изготовление вещей работать быстрее Это вид ручек такими огромными данных проблем. Запуск такого рода более чем один большой файл, было бы очень утомительно и лучше разделить и достичь того же. |
|
|||
|
А hashmap или ассоциативные массивы (другого слова для них), вероятно, лучше всего. Можно даже попробовать AWK, если ваша версия обрабатывает largefiles. Предположим, ваш карте ключ 1-10 символов в отчете. Код:
awk '!arr[substr($0,1,10)++' myTBfile |
| Рекламные ссылки |
|
|
![]() |
| Закладки |
| Резьба Инструменты | Искать в этом Thread |
| Режимы дисплея | Оценить эту ветку |
|
|
Подробнее UNIX и Linux Темы форума можно найти полезные
|
||||
| Нить | Резьба для начинающих | Форум | Ответы | Последнее сообщение |
| Получение уникальных значений в файле | Legend986 | Shell программирование и сценарии | 5 | 10-15-2008 03:36 AM |
| Рассчитать Gigabyte и терабайт | terryporter51 | Shell программирование и сценарии | 3 | 07-01-2008 01:59 PM |
| Нужно найти только уникальных значений для данного тега через файлы | sudheshnaiyer | UNIX для чайников Вопросы И Ответы | 8 | 09-03-2007 01:53 AM |
| для получения уникального значения | mahalakshmi | Shell программирование и сценарии | 3 | 02-05-2007 09:30 AM |
| Уникальная ячейка vaules в файл | rahulrathod | Shell программирование и сценарии | 3 | 01-17-2006 07:42 AM |