Parsing and masking regions from a single fasta file with subsequence

09-25-2014

Registered User

4, 0

Join Date: Dec 2013

Last Activity: 27 September 2014, 2:10 AM EDT

Posts: 4

Thanks Given: 1

Thanked 0 Times in 0 Posts

Parsing and masking regions from a single fasta file with subsequence

HI,

I have a Complete genome fasta file and I have list of sub sequence regions
in the format as :

Code:

4353..5633
6795..9354
1034..14456

I want a script which can mask these region in a single complete genome fasta file with the alphabet N

kindly help

Last edited by Don Cragun; 09-25-2014 at 06:51 AM.. Reason: Add CODE tags.

margarita

View Public Profile for margarita

Find all posts by margarita

09-25-2014

Registered User

176, 67

Join Date: Nov 2013

Last Activity: 21 February 2019, 3:36 AM EST

Posts: 176

Thanks Given: 14

Thanked 67 Times in 63 Posts

You have given some sample input, can you please provide your expected output?

Also please advise what you have tried so far?

pilnet101

View Public Profile for pilnet101

Find all posts by pilnet101

09-25-2014

Registered User

4, 0

Join Date: Dec 2013

Last Activity: 27 September 2014, 2:10 AM EDT

Posts: 4

Thanks Given: 1

Thanked 0 Times in 0 Posts

The content in the file

Code:

>CP008559 Pseudomonas aeruginosa SRS4, complete genome
tttaaagagaccggcgattctagtgaaatcgaacgggcaggtcaatttccaaccagcgat
gacgtaatagatagatacaaggaagtcatttttcttttaaaggatagaaacggttaatgc
tcttgggacggcgcttttctgtgcataactcgacgaagcccagcaactgcgtgtttctcc
ggcaggcaaaaggttgtcgagaaccggtgtcgaggctgtttccttcctgagcgaagcctg
gggatgaacgagatggttatccacagcggttttttccacacggctgtgcgcagggatgta
cccccttcaaagcaagggttatccacaaagtccaggacgaccgtccgtcggcctgcctgc
ttttattaaggtcttgatttgcttggggcctcagcgcatcggcatgtggataagtacggc
ccgtccggctacaataggcgcttatttcgttgtgccgcctttccaatctttgggggatat
ccgtgtccgtggaactttggcagcagtgcgtggatcttctccgcgatgagctgccgtccc
aacaattcaacacctggatccgtcccttgcaggtcgaagccgaaggcgacgaattgcgtg
tgtatgcacccaaccgtttcgtcctcgattgggtgaacgagaaatacctcggtcggcttc
tggaactgctcggtgaacgcggcgagggtcagttgcccgcgctttccttattaataggca
gcaagcgtagccgtacgccgcgcgccgccatcgtcccatcgcagacccacgtggctcccc
cgcctccggttgctccgccgccggcgccagtgcagccggtatcggccgcgcccgtggtgg
tgccacgtgaagagctgccgccagtgacgacggctcccagcgtgtcgagcgacccctacg
agccggaagagcccagcatcgatccgctggccgccgccatgccggccggagccgcacctg
cggtgcgcaccgagcgcaacgtccaggtcgaaggtgcgctgaagcacaccagctatctca
accgtaccttcaccttcgagaacttcgtcgagggcaagtccaaccagttggcccgcgccg
ccgcctggcaggtggcggacaacctcaagcacggttacaacccgctgttcctctacggtg
gcgtcggtctgggcaagacccacctgatgcatgcggtgggcaaccacctgctgaagaaga
acccgaacgccaaggtggtctacctgcattcggaacgtttcgtcgcggacatggtgaagg
ccttgcagctcaacgccatcaacgaattcaagcgcttctaccgctcggtggacgcactgt
tgatcgacgacatccagttcttcgcccgtaaggagcgctcccaggaggagttcttccaca
ccttcaatgccctcctcgaaggcggccagcaggtgatcctcaccagcgaccgctatccga
aggaaatcgaaggcctggaagagcggctgaaatcccgcttcggctggggcctgacggtgg
ccgtcgagccgccggaactggaaacccgggtggcgatcctgatgaagaaggctgagcagg
cgaagatcgagctgccgcacgatgcggccttcttcatcgcccagcgcatccgttccaacg
tgcgcgaactggaaggtgcgctgaagcgggtgatcgcccactcgcacttcatgggccggc
cgatcaccatcgagctgattcgcgagtcgctgaaggacctgttggcccttcaggacaagc
tggtcagcatcgacaacatccagcgcaccgtcgccgagtactacaagatcaagatatccg
atctgttgtccaagcggcgttcgcgctcggtggcgcgcccgcgccaggtggccatggcgc
tctccaaggagctgaccaaccacagcctgccggagatcggcgtagccttcggcggtcggg
atcacaccacggtgttgcacgcctgtcgtaagatcgctcaacttagggaatccgacgcgg
atatccgcgaggactacaagaacctgctgcgtaccctgacaacctgacgcagcccacgag
gcaagggactagaccatgcatttcaccattcaacgcgaagccctgttgaaaccgctgcaa
ctggtcgccggcgtcgtggaacgccgccagacattgccggttctctccaacgtcctgctg
gtggtcgaaggccagcaactgtcgctgaccggcaccgacctcgaggtcgagctggttggt
cgcgtggtactggaagatgccgccgaacccggcgagatcaccgtaccggcgcgcaagctg
atggacatctgcaagagcctgccgaacgacgtgctgatcgacatccgtgtcgaagagcag
aaactcctggtgaaggccgggcgtagccgcttcaccctgtccaccctgccggccaacgat

I want the out the out output as:

Code:

>CP008559 Pseudomonas aeruginosa SRS4, complete genome.
tttaaagagaccggcgattctagtgaaatcgaacgggcaggtcaatttccaaccagcgat
gacgtaatagatagatacaaggaagtcatttttcttttaaaggatagaaacggttaatgc
tcttgggacggcgcttttctgtgcataactcgacgaagcccagcaactgcgtgtttctcc
ggcaggcaaaagNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNgaagccgaaggcgacgaattgcgtg
tgtatgcacccaaccgtttcgtcctcgattgggtgaacgagaaatacctcggtcggcttc
tggaactgctcggtgaacgcggcgagggtcagttgcccgcgctttccttattaataggca
gcaagcgtagccgtacgccgcgcgccgccatcgtcccatcgcagacccacgtggctcccc
cgcctccggttgctccgccgccggcgccagtgcagccggtatcggccgcgcccgtggtgg
tgccacgtgaagagctgccgccagtgacgacggctcccagcgtgtcgagcgacccctacg
agccggaagagcccagcatcgatccgctggccgccgccatNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNtgatcgacgacatccagttcttcgcccgtaaggagcgctcccaggaggagttcttccacaccttcaatgccctcctcgaaggcggccagcaggtgatcctcaccagcgaccgctatccgaaggaaatcgaaggcctggaagagcggctgaaatcccgcttcggctggggcctgacggtggccgtcgagccgccggaactggaaacccgggtggcgatcctgatgaagaaggctgagcaggcgaagatcgagctgccgcacgatgcggccttcttcatcgcccagcgcatccgttccaacg
tgcgcgaactggaaggtgcgctgaagcgggtgatcgcccactcgcacttcatgggccggc
cgatcaccatcgagctgattcgcgagtcgctgaaggacctgttggcccttcaggacaagc
tggtcagcatcgacaacatccagcgcaccgtcgccgagtactacaagatcaagatatccg
atctgttgtccaagcggcgttcgcgctcggtggcgcgcccgcgccaggtggccatggcgc
tctccaaggagctgaccaaccacagcctgccggagatcggcgtagccttcggcggtcggg
atcacaccacggtgttgcacgcctgtcgtaagatcgctcaacttagggaatccgacgcgg
atatccgcgaggactacaagaacctgctgcgtaccctgacaacctgacgcagcccacgag
gcaagggactagaccatgcatttcaccattcaacgcgaagccctgttgaaaccgctgcaa
ctggtcgccggcgtcgtggaacgccgccagacattgccggttctctccaacgtcctgctg
gtggtcgaaggccagcaactgtcgctgaccggcaccgacctcgaggtcgagctggttggt
cgcgtggtactggaagatgccgccgaacccggcgagatcaccgtaccggcgcgcaagctg
atggacatctgcaagagcctgccgaacgacgtgctgatcgacatccgtgtcgaagagcag
aaactcctggtgaaggccgggcgtagccgcttcaccctgtccaccctgccggccaacgat

The N should be based on the list of subranges given as:

Code:

188..250
375..550
etc...

Last edited by Don Cragun; 09-25-2014 at 06:54 AM.. Reason: Add CODE tags.

margarita

View Public Profile for margarita

Find all posts by margarita

Shell Programming and Scripting

Parsing and masking regions from a single fasta file with subsequence

10 More Discussions You Might Find Interesting

1. Shell Programming and Scripting

Help with reformat single-line multi-fasta into multi-line multi-fasta

Discussion started by: patrick87

2. UNIX for Dummies Questions & Answers

Round up -FASTA file

Discussion started by: Xterra

3. Shell Programming and Scripting

Extraction of upstream and downstream regions from long sequence file

Discussion started by: harpreetmanku04

4. Shell Programming and Scripting

Command Line Perl for parsing fasta file

Discussion started by: jdilts

5. Shell Programming and Scripting

Extract sequence from fasta file

Discussion started by: ritakadm

6. UNIX for Dummies Questions & Answers

extract regions of file based on start and end position

Discussion started by: pathunkathunk

7. UNIX for Dummies Questions & Answers

How to change sequence name in along fasta file?

Discussion started by: baika

8. Shell Programming and Scripting

[SED] Parsing to get a single value

Discussion started by: manolain

9. Shell Programming and Scripting

Masking data for different file format

Discussion started by: Alvin123

10. Shell Programming and Scripting

Parsing a fasta sequence with start and end coordinates

Discussion started by: empyrean