Remove Duplicate by considering multiple columns

05-31-2012

Banned

363, 7

Join Date: Jan 2012

Last Activity: 24 June 2017, 6:25 PM EDT

Posts: 363

Thanks Given: 318

Thanked 7 Times in 7 Posts

Remove Duplicate by considering multiple columns

hi friends,

my input

Code:

chr1	exon	35204	35266	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	42357	42473	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	45261	45404	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	50701	50778	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	51380	51391	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	51649	51846	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	51961	52077	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	52462	52695	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	53305	53451	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	53497	53778	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	53914	54087	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	54187	54399	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	55691	55996	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	56045	56365	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	56636	56986	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	57161	57304	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	57335	57403	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	59371	59407	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	60822	60878	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	61836	61919	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	63192	63230	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	63393	63425	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	66019	66156	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	35204	35266	gene_id "GOLGB1"; transcript_id "GOLGB1_dup1";
chr1	exon	42357	42473	gene_id "GOLGB1"; transcript_id "GOLGB1_dup1";
chr1	exon	45261	45404	gene_id "GOLGB1"; transcript_id "GOLGB1_dup1";
chr1	exon	50701	50778	gene_id "GOLGB1"; transcript_id "GOLGB1_dup1";
chr1	exon	51380	51391	gene_id "GOLGB1"; transcript_id "GOLGB1_dup1";
chr1	exon	51649	51846	gene_id "GOLGB1"; transcript_id "GOLGB1_dup1";
chr1	exon	51961	52077	gene_id "GOLGB1"; transcript_id "GOLGB1_dup1";
chr1	exon	52462	52695	gene_id "GOLGB1"; transcript_id "GOLGB1_dup1";
chr1	exon	53305	53451	gene_id "GOLGB1"; transcript_id "GOLGB1_dup1";
chr1	exon	53497	53778	gene_id "GOLGB1"; transcript_id "GOLGB1_dup1";
chr1	exon	53914	54087	gene_id "GOLGB1"; transcript_id "GOLGB1_dup1";
chr1	exon	54187	54399	gene_id "GOLGB1"; transcript_id "GOLGB1_dup1";
chr1	exon	55691	55996	gene_id "GOLGB1"; transcript_id "GOLGB1_dup1";
chr1	exon	56045	56365	gene_id "GOLGB1"; transcript_id "GOLGB1_dup1";
chr1	exon	56636	56986	gene_id "GOLGB1"; transcript_id "GOLGB1_dup1";
chr1	exon	57161	57304	gene_id "GOLGB1"; transcript_id "GOLGB1_dup1";
chr1	exon	57335	57403	gene_id "GOLGB1"; transcript_id "GOLGB1_dup1";
chr1	exon	59371	59407	gene_id "GOLGB1"; transcript_id "GOLGB1_dup1";
chr1	exon	60822	60878	gene_id "GOLGB1"; transcript_id "GOLGB1_dup1";
chr1	exon	61836	61919	gene_id "GOLGB1"; transcript_id "GOLGB1_dup1";
chr1	exon	63192	63230	gene_id "GOLGB1"; transcript_id "GOLGB1_dup1";
chr1	exon	63393	63425	gene_id "GOLGB1"; transcript_id "GOLGB1_dup1";
chr1	exon	66019	66156	gene_id "GOLGB1"; transcript_id "GOLGB1_dup1";
chr1	exon	35204	35266	gene_id "GOLGB1"; transcript_id "GOLGB1_dup2";
chr1	exon	42357	42473	gene_id "GOLGB1"; transcript_id "GOLGB1_dup2";
chr1	exon	45261	45404	gene_id "GOLGB1"; transcript_id "GOLGB1_dup2";
chr1	exon	50701	50778	gene_id "GOLGB1"; transcript_id "GOLGB1_dup2";
chr1	exon	51380	51391	gene_id "GOLGB1"; transcript_id "GOLGB1_dup2";
chr1	exon	51649	51846	gene_id "GOLGB1"; transcript_id "GOLGB1_dup2";
chr1	exon	51961	52077	gene_id "GOLGB1"; transcript_id "GOLGB1_dup2";
chr1	exon	52462	52695	gene_id "GOLGB1"; transcript_id "GOLGB1_dup2";
chr1	exon	53305	53451	gene_id "GOLGB1"; transcript_id "GOLGB1_dup2";
chr1	exon	53497	53778	gene_id "GOLGB1"; transcript_id "GOLGB1_dup2";
chr1	exon	53914	54087	gene_id "GOLGB1"; transcript_id "GOLGB1_dup2";
chr1	exon	54187	54399	gene_id "GOLGB1"; transcript_id "GOLGB1_dup2";
chr1	exon	55691	55996	gene_id "GOLGB1"; transcript_id "GOLGB1_dup2";
chr1	exon	56045	56365	gene_id "GOLGB1"; transcript_id "GOLGB1_dup2";
chr1	exon	56636	56986	gene_id "GOLGB1"; transcript_id "GOLGB1_dup2";
chr1	exon	57161	57304	gene_id "GOLGB1"; transcript_id "GOLGB1_dup2";
chr1	exon	57335	57403	gene_id "GOLGB1"; transcript_id "GOLGB1_dup2";
chr1	exon	59371	59407	gene_id "GOLGB1"; transcript_id "GOLGB1_dup2";
chr1	exon	60822	60878	gene_id "GOLGB1"; transcript_id "GOLGB1_dup2";
chr1	exon	61836	61919	gene_id "GOLGB1"; transcript_id "GOLGB1_dup2";
chr1	exon	63192	63230	gene_id "GOLGB1"; transcript_id "GOLGB1_dup2";
chr1	exon	63393	63425	gene_id "GOLGB1"; transcript_id "GOLGB1_dup2";
chr1	exon	66019	66156	gene_id "GOLGB1"; transcript_id "GOLGB1_dup2";

my output

Code:

chr1	exon	35204	35266	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	42357	42473	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	45261	45404	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	50701	50778	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	51380	51391	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	51649	51846	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	51961	52077	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	52462	52695	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	53305	53451	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	53497	53778	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	53914	54087	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	54187	54399	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	55691	55996	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	56045	56365	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	56636	56986	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	57161	57304	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	57335	57403	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	59371	59407	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	60822	60878	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	61836	61919	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	63192	63230	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	63393	63425	gene_id "GOLGB1"; transcript_id "GOLGB1";
chr1	exon	66019	66156	gene_id "GOLGB1"; transcript_id "GOLGB1";

I have to compare on the first 4 columns for this file. The delimiters are both tab and space. I would really appreciate anything in awk that would make me flexible to add or delete the no. of columns to consider for matching. That would make my task easier in the future, if I have to work on other files with more no. of columns.

Thanks in advance.

jacobs.smith

View Public Profile for jacobs.smith

Find all posts by jacobs.smith

05-31-2012

Registered User

1,271, 299

Join Date: Sep 2009

Last Activity: 17 July 2019, 5:46 PM EDT

Location: ./India/Bangalore

Posts: 1,271

Thanks Given: 70

Thanked 299 Times in 290 Posts

Code:

awk '!a[$1$2$3$4]++' filename

This User Gave Thanks to pravin27 For This Post:

pravin27

View Public Profile for pravin27

Find all posts by pravin27

05-31-2012

Banned

363, 7

Join Date: Jan 2012

Last Activity: 24 June 2017, 6:25 PM EDT

Posts: 363

Thanks Given: 318

Thanked 7 Times in 7 Posts

I tried

Quote:

awk '!a[$0]++'

.

I lost my brain to think in a more simplified fashion

Gracias my friend!

jacobs.smith

View Public Profile for jacobs.smith

Find all posts by jacobs.smith

Shell Programming and Scripting

Remove Duplicate by considering multiple columns

10 More Discussions You Might Find Interesting

1. Shell Programming and Scripting

Join and merge multiple files with duplicate key and fill void columns

Discussion started by: yjacknewton

2. Shell Programming and Scripting

Do replace operation and awk to sum multiple columns if another column has duplicate values

Discussion started by: as7951

3. Shell Programming and Scripting

Remove columns with duplicate entries

Discussion started by: Sanchari

4. Shell Programming and Scripting

Remove Duplicates on multiple Key Columns and get the Latest Record from Date/Time Column

Discussion started by: vijaykodukula

5. UNIX for Dummies Questions & Answers

remove duplicate lines based on two columns and judging from a third one

Discussion started by: TheTransporter

6. Shell Programming and Scripting

command to remove multiple commands in particular columns

Discussion started by: bshivali

7. Shell Programming and Scripting

Remove duplicate columns in input file

Discussion started by: linux_usr

8. Shell Programming and Scripting

Single command for add 2 columns and remove 2 columns in unix/performance tuning

Discussion started by: onesuri

9. UNIX for Dummies Questions & Answers

Duplicate columns and lines

Discussion started by: dr_sabz

10. Shell Programming and Scripting

how to identify duplicate columns in a row

Discussion started by: suresh3566