Getting unique sequences from multiple fasta file

09-05-2018

Registered User

15, 0

Join Date: Sep 2018

Last Activity: 14 January 2021, 1:41 PM EST

Posts: 15

Thanks Given: 3

Thanked 0 Times in 0 Posts

Getting unique sequences from multiple fasta file

Hi,

I have a fasta file with multiple sequences. How can i get only unique sequences from the file.

For example
my_file.fasta

Code:

>seq1
TCTCAAAGAAAGCTGTGCTGCATACTGTACAAAACTTTGTCTGGAGAGATGGAGAATCTCATTGACTTTACAGGTGTGGACGGTCTTCAGAGATGGCTCAAGCTAACATTCCCTGACACACCTATAGGGAAAGAGCTAAC

>seq2
CAATTTTGGCTCCTTCATGTCTGTTGTGCCAGACTTGAGTGAGTTTGAACTGCAAGCAAGAAAGGCAGGTTCAGACCAAGAAAAAGATGCAATATACTCCAAGGCACTGATAGCAGCCACAAGAAAGGCGGCTCCTATTG

>seq3
CGGCCTGTGCATGGACATCAAGCAACGACATGGTGACAAAAGGGCTCAAGTGGTTCGAGGATCAGATAACAAAAGAGAATCCTAAATTTATCTCTTGGCACAAGGAGTATGAATTTTTCAAAAAGAATGTGCCCACAGTT

>seq1
TCTCAAAGAAAGCTGTGCTGCATACTGTACAAAACTTTGTCTGGAGAGATGGAGAATCTCATTGACTTTACAGGTGTGGACGGTCTTCAGAGATGGCTCAAGCTAACATTCCCTGACACACCTATAGGGAAAGAGCTAAC

>seq4
AAACTGCAACTCTCACAAGCAAAGTTGTGGCACAGTTCTCAGTTCCTGGGGTCTATGTTGTTGCTGTGCAAGATATGATCAAAGACATGGTTGCCAGAAGAGGTGGAGGGCCTAAACGCGGAGTCAGTGATGAACACATC

>seq1
TCTCAAAGAAAGCTGTGCTGCATACTGTACAAAACTTTGTCTGGAGAGATGGAGAATCTCATTGACTTTACAGGTGTGGACGGTCTTCAGAGATGGCTCAAGCTAACATTCCCTGACACACCTATAGGGAAAGAGCTAAC

>seq2
CAATTTTGGCTCCTTCATGTCTGTTGTGCCAGACTTGAGTGAGTTTGAACTGCAAGCAAGAAAGGCAGGTTCAGACCAAGAAAAAGATGCAATATACTCCAAGGCACTGATAGCAGCCACAAGAAAGGCGGCTCCTATTG

Note there are 3 copies of seq1 and two copies of seq2. I want to get a new file that contain only one copy of seq1, seq2, seq3 and seq4.

Thanks

Last edited by vgersh99; 09-05-2018 at 05:20 PM.. Reason: code tags, please!

Ibk

View Public Profile for Ibk

Find all posts by Ibk

09-05-2018

Moderator

8,825, 1,112

Join Date: Feb 2005

Last Activity: 23 August 2021, 11:26 AM EDT

Location: Foxborough, MA

Posts: 8,825

Thanks Given: 579

Thanked 1,112 Times in 1,003 Posts

Code:

awk '{ a[$0]} END{for (i in a) print i ORS}' RS= my_file.fasta

or better yet:

Code:

awk '!a[$0]++' RS= ORS='\n\n' my_file.fasta

Last edited by vgersh99; 09-06-2018 at 10:57 AM..

These 2 Users Gave Thanks to vgersh99 For This Post:

vgersh99

View Public Profile for vgersh99

Find all posts by vgersh99

09-05-2018

Registered User

15, 0

Join Date: Sep 2018

Last Activity: 14 January 2021, 1:41 PM EST

Posts: 15

Thanks Given: 3

Thanked 0 Times in 0 Posts

Thanks vgersh99. Code worked perfectly

Ibk

View Public Profile for Ibk

Find all posts by Ibk

09-05-2018

Moderator

8,825, 1,112

Join Date: Feb 2005

Last Activity: 23 August 2021, 11:26 AM EDT

Location: Foxborough, MA

Posts: 8,825

Thanks Given: 579

Thanked 1,112 Times in 1,003 Posts

Quote:

Originally Posted by Ibk

Thanks vgersh99. Code worked perfectly

I'd suggest following this user for the similar scientific threads.
Like this one.

vgersh99

View Public Profile for vgersh99

Find all posts by vgersh99

Shell Programming and Scripting

Getting unique sequences from multiple fasta file

10 More Discussions You Might Find Interesting

1. UNIX for Beginners Questions & Answers

How to add specific bases at the beginning and ending of all the fasta sequences?

Discussion started by: dineshkumarsrk

2. Shell Programming and Scripting

Shorten header of protein sequences in fasta file to only organism name

Discussion started by: jerrild

3. UNIX for Beginners Questions & Answers

How to count the length of fasta sequences?

Discussion started by: dineshkumarsrk

4. UNIX for Dummies Questions & Answers

Select distinct sequences from fasta file and list

Discussion started by: Marion MPI

5. Shell Programming and Scripting

Shorten header of protein sequences in fasta file

Discussion started by: alexypaul

6. Shell Programming and Scripting

Count and search by sequence in multiple fasta file

Discussion started by: empyrean

7. Shell Programming and Scripting

Extract sequences from a FASTA file based on another file

Discussion started by: nelsonfrans

8. Shell Programming and Scripting

Shell script for changing the accession number of DNA sequences in a FASTA file

Discussion started by: margarita

9. UNIX for Dummies Questions & Answers

Breaking a fasta formatted file into multiple files containing each gene separately

Discussion started by: Ann Mc Cartney

10. UNIX for Dummies Questions & Answers

trying to grep -v multiple changing sequences from a file

Discussion started by: candyluv030