merge multiple tables with perl

09-14-2011

Registered User

14, 0

Join Date: May 2011

Last Activity: 29 February 2012, 12:34 PM EST

Posts: 14

Thanks Given: 5

Thanked 0 Times in 0 Posts

merge multiple tables with perl

Hi everyone,

I once again got stuck with merging tables and was wondering if someone could help me out on that problem.

I have a number of tab delimited tables which I need to merge into one big one. All tables have the same header but a different number of rows (this could be changed if it would be easier). I would like to merge them according to the first 3 columns ("chromo", "pos", "ref"), All the following columns ( "alleles", "refAllele", "refCount", "refFreq", "altAllele", "altCount", "altFreq") should be added after each other. Preferably there would also be an indication in the final file to which sample the columns belong.

Four short examples how the tables look like:

SampleA

chromo pos ref alleles refAllele refCount refFreq altAllele altCount altFreq

chr1 30146 A A A 31 100 NA 0 NA

chr1 55217 G G G 2 100 NA 0 NA

chr1 55223 C C C 2 100 NA 0 NA

chr1 55987 C C C 19 100 NA 0 NA

chr1 62138 T T T 114 100 NA 0 NA

chr1 62233 A A A 110 100 NA 0 NA

chr1 64310 A A A 64 100 NA 0 NA

chr1 64321 A A A 17 100 NA 0 NA

chr1 64377 A A A 56 98 NA 1 NA

SampleB

chromo pos ref alleles refAllele refCount refFreq altAllele altCount altFreq

chr1 30146 A A A 10 100 NA 0 NA

chr1 55217 G G G 2 100 NA 0 NA

chr1 55987 C C C 8 100 NA 0 NA

chr1 62138 T C 0 0 C 10 100

chr1 62233 A A A 34 100 NA 0 NA

chr1 64310 A A A 37 100 NA 0 NA

chr1 64321 A A A 9 100 NA 0 NA

chr1 64377 A A A 27 100 NA 0 NA

chr1 65570 A C 0 0 C 2 100

SampleC

chromo pos ref alleles refAllele refCount refFreq altAllele altCount altFreq

chr1 30146 A A A 54 100 NA 0 NA

chr1 55217 G A/G 0 0 A 5 55

chr1 55223 C T/C 0 0 T 4 57

chr1 55987 C C C 17 100 NA 0 NA

chr1 56065 T T T 18 90 NA 2 NA

chr1 62138 T T/C T 19 70 C 8 29

chr1 62233 A G/A 0 0 G 16 66

chr1 64310 A A A 28 100 NA 0 NA

chr1 64321 A C 0 0 C 4 100

SampleD

chromo pos ref alleles refAllele refCount refFreq altAllele altCount altFreq

chr1 30146 A A A 23 100 NA 0 NA

chr1 55217 G G G 2 100 NA 0 NA

chr1 55223 C C C 2 100 NA 0 NA

chr1 55987 C C C 19 100 NA 0 NA

chr1 62138 T C 0 0 C 38 100

chr1 62233 A A A 108 100 NA 0 NA

chr1 64377 A A A 2 100 NA 0 NA

chr1 65570 A A A 3 100 NA 0 NA

chr1 66577 T T T 45 100 NA 0 NA

How the header of the merged table should look like:

chromo pos ref alleles.SampleA refAllele.SampleA refCount.SampleA refFreq.SampleA altAllele.SampleA altCount.SampleA altFreq.SampleA alleles.SampleB refAllele.SampleB refCount.SampleB refFreq.SampleB altAllele.SampleB altCount.SampleB altFreq.SampleB alleles.SampleC refAllele.SampleC refCount.SampleC refFreq.SampleC altAllele.SampleC altCount.SampleC altFreq.SampleC alleles.SampleD refAllele.SampleD refCount.SampleD refFreq.SampleD altAllele.SampleD altCount.SampleD altFreq.SampleD

I tried it using R, but I couldn't really get there.

R

Code:

DF1<-read.table(file="/home/maja/Desktop/R/2836_SNPtable_CLC_stringent.txt", sep = "\t", header=TRUE, fill=TRUE) 
DF2<-read.table(file="/home/maja/Desktop/R/2838_SNPtable_CLC_stringent.txt", sep = "\t",header=TRUE, fill=TRUE) 
DF3<-read.table(file="/home/maja/Desktop/R/2840_SNPtable_CLC_stringent.txt", sep = "\t",header=TRUE, fill=TRUE)
DF4<-read.table(file="/home/maja/Desktop/R/5039_SNPtable_CLC_stringent.txt", sep = "\t",header=TRUE, fill=TRUE)

my.list <- list(DF1, DF2, DF3, DF4)
 
DF <- DF1
for ( .df in my.list ) {
  DF <-merge(DF,.df,by=c("chromo","pos","ref"), all=T)
 }

Error in match.names(clabs, names(xi)) :
names do not match previous names

Any help would be greatly appreciated!!

TuAd

View Public Profile for TuAd

Find all posts by TuAd

09-14-2011

Registered User

628, 174

Join Date: Oct 2010

Last Activity: 2 December 2017, 5:58 AM EST

Location: Madrid, Spain

Posts: 628

Thanks Given: 8

Thanked 174 Times in 171 Posts

Hi,

Test next Perl solution:

Code:

$ ls -1 *SNPtable*
2836_SNPtable_CLC_stringent.txt
2838_SNPtable_CLC_stringent.txt
2840_SNPtable_CLC_stringent.txt
5039_SNPtable_CLC_stringent.txt
$ cat script.pl
use warnings;
use strict;

@ARGV >= 1 or die qq[Usage: perl $0 file1 [file2] [file3] ...\n];

my $suffix_word = qq[Sample];
my $suffix_letter = qq[A];

my $argc = @ARGV;
my @header_in = split /\s+/, scalar <>;

my $header_out = "@header_in[0..2]" . qq[ ];
for ( 1 .. $argc ) {
        $header_out .= join( qq[ ], map { $_ . qq[.] . $suffix_word . $suffix_letter } @header_in[3..$#header_in] ) . qq[ ];
        ++$suffix_letter;
}

printf "%s\n", $header_out;

while ( <> ) {
        next if $. == 1;
        print;
} continue {
        close ARGV if eof;
}
$ perl script.pl
Usage: perl script.pl file1 [file2] [file3] ...
$ perl script.pl 2836_SNPtable_CLC_stringent.txt 2838_SNPtable_CLC_stringent.txt 2840_SNPtable_CLC_stringent.txt  5039_SNPtable_CLC_stringent.txt 
chromo pos ref alleles.SampleA refAllele.SampleA refCount.SampleA refFreq.SampleA altAllele.SampleA altCount.SampleA altFreq.SampleA alleles.SampleB refAllele.SampleB refCount.SampleB refFreq.SampleB altAllele.SampleB altCount.SampleB altFreq.SampleB alleles.SampleC refAllele.SampleC refCount.SampleC refFreq.SampleC altAllele.SampleC altCount.SampleC altFreq.SampleC alleles.SampleD refAllele.SampleD refCount.SampleD refFreq.SampleD altAllele.SampleD altCount.SampleD altFreq.SampleD 
chr1 30146 A A A 31 100 NA 0 NA
chr1 55217 G G G 2 100 NA 0 NA
chr1 55223 C C C 2 100 NA 0 NA
chr1 55987 C C C 19 100 NA 0 NA
chr1 62138 T T T 114 100 NA 0 NA
chr1 62233 A A A 110 100 NA 0 NA
chr1 64310 A A A 64 100 NA 0 NA
chr1 64321 A A A 17 100 NA 0 NA
chr1 64377 A A A 56 98 NA 1 NA
chr1 30146 A A A 10 100 NA 0 NA
chr1 55217 G G G 2 100 NA 0 NA
chr1 55987 C C C 8 100 NA 0 NA
chr1 62138 T C 0 0 C 10 100
chr1 62233 A A A 34 100 NA 0 NA
chr1 64310 A A A 37 100 NA 0 NA
chr1 64321 A A A 9 100 NA 0 NA
chr1 64377 A A A 27 100 NA 0 NA
chr1 65570 A C 0 0 C 2 100
chr1 30146 A A A 54 100 NA 0 NA
chr1 55217 G A/G 0 0 A 5 55
chr1 55223 C T/C 0 0 T 4 57
chr1 55987 C C C 17 100 NA 0 NA
chr1 56065 T T T 18 90 NA 2 NA
chr1 62138 T T/C T 19 70 C 8 29
chr1 62233 A G/A 0 0 G 16 66
chr1 64310 A A A 28 100 NA 0 NA
chr1 64321 A C 0 0 C 4 100
chr1 30146 A A A 23 100 NA 0 NA
chr1 55217 G G G 2 100 NA 0 NA
chr1 55223 C C C 2 100 NA 0 NA
chr1 55987 C C C 19 100 NA 0 NA
chr1 62138 T C 0 0 C 38 100
chr1 62233 A A A 108 100 NA 0 NA
chr1 64377 A A A 2 100 NA 0 NA
chr1 65570 A A A 3 100 NA 0 NA
chr1 66577 T T T 45 100 NA 0 NA

Regards,
Birei

birei

View Public Profile for birei

Find all posts by birei

10-12-2011

Registered User

3, 0

Join Date: Oct 2011

Last Activity: 14 October 2011, 2:43 PM EDT

Posts: 3

Thanks Given: 1

Thanked 0 Times in 0 Posts

Merging sideways

Hi birei,
currently your script merges the files in a vertical fashion:

chromo pos ref alleles.SampleA refAllele.SampleA refCount.SampleA refFreq.SampleA altAllele.SampleA altCount.SampleA altFreq.SampleA alleles.SampleB refAllele.SampleB refCount.SampleB refFreq.SampleB altAllele.SampleB altCount.SampleB altFreq.SampleB alleles.SampleC refAllele.SampleC refCount.SampleC refFreq.SampleC altAllele.SampleC altCount.SampleC altFreq.SampleC alleles.SampleD refAllele.SampleD refCount.SampleD refFreq.SampleD altAllele.SampleD altCount.SampleD altFreq.SampleD file 1
file 1
.
.
.
file 2
file 2 file 2 and so on....

I was wondering is there an easy way where the fields from file 2 are listed next to that of file 1?
If there is an easy fix to this that would be super wonderful. Thanks.

birkhe

View Public Profile for birkhe

Find all posts by birkhe

10-12-2011

Registered User

2,100, 402

Join Date: Apr 2009

Last Activity: 11 February 2020, 10:24 AM EST

Posts: 2,100

Thanks Given: 26

Thanked 402 Times in 360 Posts

Maybe something like this?

Code:

$
$
$ perl -F"\t" -lane 'BEGIN {@hdr = qw(chromo pos ref
                                    alleles.SampleA refAllele.SampleA refCount.SampleA refFreq.SampleA
                                    altAllele.SampleA altCount.SampleA altFreq.SampleA
                                    alleles.SampleB refAllele.SampleB refCount.SampleB refFreq.SampleB
                                    altAllele.SampleB altCount.SampleB altFreq.SampleB
                                    alleles.SampleC refAllele.SampleC refCount.SampleC refFreq.SampleC
                                    altAllele.SampleC altCount.SampleC altFreq.SampleC
                                    alleles.SampleD refAllele.SampleD refCount.SampleD refFreq.SampleD
                                    altAllele.SampleD altCount.SampleD altFreq.SampleD)
                           }
                     $x{join"\t",@F[0..2]}.="\t".join"\t",@F[3..9];
                     END
                     {
                       print join " ", @hdr;
                       foreach $k (sort keys %x) {print "$k\t$x{$k}" if $k !~ /chromo/}
                     }' samplea sampleb samplec sampled
chromo pos ref alleles.SampleA refAllele.SampleA refCount.SampleA refFreq.SampleA altAllele.SampleA altCount.SampleA altFreq.SampleA alleles.SampleB refAllele.SampleB refCount.SampleB refFreq.SampleB altAllele.SampleB altCount.SampleB altFreq.SampleB alleles.SampleC refAllele.SampleC refCount.SampleC refFreq.SampleC altAllele.SampleC altCount.SampleC altFreq.SampleC alleles.SampleD refAllele.SampleD refCount.SampleD refFreq.SampleD altAllele.SampleD altCount.SampleD altFreq.SampleD
chr1    30146   A               A       A       31      100     NA      0       NA      A       A       10      100     NA      0       NA      A    NA0
chr1    55217   G               G       G       2       100     NA      0       NA      G       G       2       100     NA      0       NA      A/G  NA0
chr1    55223   C               C       C       2       100     NA      0       NA      T/C     0       0       T       4       57              C    NA0
chr1    55987   C               C       C       19      100     NA      0       NA      C       C       8       100     NA      0       NA      C    NA0
chr1    56065   T               T       T       18      90      NA      2       NA
chr1    62138   T               T       T       114     100     NA      0       NA      C       0       0       C       10      100             T/C  100
chr1    62233   A               A       A       110     100     NA      0       NA      A       A       34      100     NA      0       NA      G/A  NA0
chr1    64310   A               A       A       64      100     NA      0       NA      A       A       37      100     NA      0       NA      A    NA0
chr1    64321   A               A       A       17      100     NA      0       NA      A       A       9       100     NA      0       NA      C    100
chr1    64377   A               A       A       56      98      NA      1       NA      A       A       27      100     NA      0       NA      A    NA0
chr1    65570   A               C       0       0       C       2       100             A       A       3       100     NA      0       NA
chr1    66577   T               T       T       45      100     NA      0       NA
$
$
$
$

tyler_durden

durden_tyler

View Public Profile for durden_tyler

Find all posts by durden_tyler

10-13-2011

Registered User

3, 0

Join Date: Oct 2011

Last Activity: 14 October 2011, 2:43 PM EDT

Posts: 3

Thanks Given: 1

Thanked 0 Times in 0 Posts

Hi tyler,
I used your instructions as follows:
C:\Perl>perl -F"\t" -lane 'BEGIN {@hdr = qw(chromo pos refalleles.SampleA refAllele.SampleA refCount.SampleA refFreq.SampleA altAllele.SampleA altCount.SampleA altFreq.SampleA alleles.SampleB refAllele.SampleB refCount.SampleB refFreq.SampleB altAllele.SampleB altCount.SampleB altFreq.SampleB alleles.SampleC refAllele.SampleC refCount.SampleC refFreq.SampleC altAllele.SampleC altCount.SampleC altFreq.SampleC alleles.SampleD refAllele.SampleD refCount.SampleD refFreq.SampleD altAllele.SampleD altCount.SampleD altFreq.SampleD)} $x{join"\t",@F[0..2]}.="\t".join"\t",@F[3..9]; { print join " ", @hdr; foreach $k (sort keys %x) {print "$k\t$x{$k}" if $k !~ /chromo/}}' samplea sampleb samplec sampled

But I get the following error message:

Can't find string terminator "'" anywhere before EOF at -e line 1.

C:\Perl>

birkhe

View Public Profile for birkhe

Find all posts by birkhe

10-14-2011

Registered User

7,747, 559

Join Date: Feb 2007

Last Activity: 20 April 2020, 11:28 AM EDT

Location: The Netherlands

Posts: 7,747

Thanks Given: 139

Thanked 559 Times in 520 Posts

Quote:

Originally Posted by birkhe

Your code is unreadable, please reformat your code and use code tags.

Franklin52

View Public Profile for Franklin52

Find all posts by Franklin52

10-14-2011

Registered User

2,100, 402

Join Date: Apr 2009

Last Activity: 11 February 2020, 10:24 AM EST

Posts: 2,100

Thanks Given: 26

Thanked 402 Times in 360 Posts

Quote:

Originally Posted by birkhe

...
But I get the following error message:
Can't find string terminator "'" anywhere before EOF at -e line 1.
C:\Perl>

I ran the script in Unix, whereas you are using Windows (I assume, upon noticing the "C:\Perl>" prompt).

Quoting for the scripts fed to the perl interpreter is different in Unix than Windows. You may want to try the following in Windows:

Code:

perl -F'\t' -lane "BEGIN {@hdr = qw(chromo pos ref
                                    alleles.SampleA refAllele.SampleA refCount.SampleA refFreq.SampleA
                                    altAllele.SampleA altCount.SampleA altFreq.SampleA
                                    alleles.SampleB refAllele.SampleB refCount.SampleB refFreq.SampleB
                                    altAllele.SampleB altCount.SampleB altFreq.SampleB
                                    alleles.SampleC refAllele.SampleC refCount.SampleC refFreq.SampleC
                                    altAllele.SampleC altCount.SampleC altFreq.SampleC
                                    alleles.SampleD refAllele.SampleD refCount.SampleD refFreq.SampleD
                                    altAllele.SampleD altCount.SampleD altFreq.SampleD)
                         }
                   $x{join \"\t\",@F[0..2]} .= \"\t\".join \"\t\",@F[3..9];
                   END
                   {
                     print join \" \", @hdr;
                     foreach $k (sort keys %x) {print \"$k\t$x{$k}\" if $k !~ /chromo/}
                   }" samplea sampleb samplec sampled

The script has not been tested though, as I do not have Perl on Windows.

tyler_durden

---------- Post updated at 10:44 PM ---------- Previous update was at 09:01 AM ----------

In Windows, you could create and run a Perl program like the following:

Code:

C:\>
C:\>
C:\>type join_data.pl
#!perl -w
use strict;

my %merged;
my @hdr = qw(chromo pos ref
             alleles.SampleA refAllele.SampleA refCount.SampleA refFreq.SampleA altAllele.SampleA altCount.SampleA altFreq.SampleA
             alleles.SampleB refAllele.SampleB refCount.SampleB refFreq.SampleB altAllele.SampleB altCount.SampleB altFreq.SampleB
             alleles.SampleC refAllele.SampleC refCount.SampleC refFreq.SampleC altAllele.SampleC altCount.SampleC altFreq.SampleC
             alleles.SampleD refAllele.SampleD refCount.SampleD refFreq.SampleD altAllele.SampleD altCount.SampleD altFreq.SampleD
            );

# loop through sample files; and keep appending the values
# if the key exists in the hash called "merged"
while (defined (my $file  = glob ("sample*"))) {
  open (FH, "<", $file) or die "Can't open $file for reading: $!";
  while (<FH>) {
    chomp (my @chro = split /\t/);
    $merged{join("\t", @chro[0..2])} .= "\t".join("\t", @chro[3..$#chro]);
  }
  close (FH) or die "Can't close $file: $!";
}

# we are done processing all files
# now print the header and then the hash
print join(" ", @hdr), "\n";
foreach my $k (sort keys %merged) {
  print $k,"\t",$merged{$k},"\n" if $k !~ /chromo/
}

C:\>
C:\>perl join_data.pl
chromo pos ref alleles.SampleA refAllele.SampleA refCount.SampleA refFreq.SampleA altAllele.SampleA altCount.SampleA altFreq.SampleA alleles.SampleB refAllele.SampleB refCount.SampleB refFreq.SampleB altAllele.SampleB altCount.SampleB altFreq.SampleB alleles.SampleC refAllele.SampleC refCount.SampleC refFreq.SampleC altAllele.SampleC altCount.SampleC altFreq.SampleC alleles.SampleD refAllele.SampleD refCount.SampleD refFreq.SampleD altAllele.SampleD altCount.SampleD altFreq.SampleD
chr1    30146   A               A       A       31      100     NA      0       NA      A       A   10  100     NA      0       NA      A       A       54      100     NA      0       NA      A       A       23      100     NA      0       NA
chr1    55217   G               G       G       2       100     NA      0       NA      G       G   2   100     NA      0       NA      A/G     0       0       A       5       55      G       G       2       100     NA      0       NA
chr1    55223   C               C       C       2       100     NA      0       NA      T/C     0   0   T       4       57      C       C       2       100     NA      0       NA
chr1    55987   C               C       C       19      100     NA      0       NA      C       C   8   100     NA      0       NA      C       C       17      100     NA      0       NA      C       C       19      100     NA      0       NA
chr1    56065   T               T       T       18      90      NA      2       NA
chr1    62138   T               T       T       114     100     NA      0       NA      C       0   0   C       10      100     T/C     T       19      70      C       8       29      C       0       0       C       38      100
chr1    62233   A               A       A       110     100     NA      0       NA      A       A   34  100     NA      0       NA      G/A     0       0       G       16      66      A       A       108     100     NA      0       NA
chr1    64310   A               A       A       64      100     NA      0       NA      A       A   37  100     NA      0       NA      A       A       28      100     NA      0       NA
chr1    64321   A               A       A       17      100     NA      0       NA      A       A   9   100     NA      0       NA      C       0       0       C       4       100
chr1    64377   A               A       A       56      98      NA      1       NA      A       A   27  100     NA      0       NA      A       A       2       100     NA      0       NA
chr1    65570   A               C       0       0       C       2       100     A       A       3   100 NA      0       NA
chr1    66577   T               T       T       45      100     NA      0       NA

C:\>
C:\>

tyler_durden

This User Gave Thanks to durden_tyler For This Post:

durden_tyler

View Public Profile for durden_tyler

Find all posts by durden_tyler

Shell Programming and Scripting

merge multiple tables with perl

10 More Discussions You Might Find Interesting

1. UNIX for Beginners Questions & Answers

Export Oracle multiple tables to multiple csv files using UNIX shell scripting

Discussion started by: Hope

2. UNIX for Dummies Questions & Answers

How to merge two tables based on a matched column?

Discussion started by: karthikram

3. Shell Programming and Scripting

Multiple files to load into different tables

Discussion started by: nani1984

4. Shell Programming and Scripting

Multiple files to load into different tables,

Discussion started by: nani1984

5. Shell Programming and Scripting

Merge multiple tables into big matrix

Discussion started by: newbie83

6. Web Development

mysql query for multiple columns from multiple tables in a DB

Discussion started by: ilan

7. Shell Programming and Scripting

Merge Two Tables with duplicates in first table

Discussion started by: empyrean

8. Shell Programming and Scripting

Using Perl to Merge Multiple Lines in a File

Discussion started by: Peggy White

9. Programming

SQL Add to Multiple Tables

Discussion started by: flakblas

10. Shell Programming and Scripting

Reading data from multiple tables from Oracle DB

Discussion started by: net