Shorten header of protein sequences in fasta file to only organism name

10-26-2019

Registered User

4, 0

Join Date: Oct 2019

Last Activity: 6 November 2019, 6:30 PM EST

Posts: 4

Thanks Given: 1

Thanked 0 Times in 0 Posts

Shorten header of protein sequences in fasta file to only organism name

I have a fasta file as follows

Code:

>sp|Q8WWQ8|STAB2_HUMAN Stabilin-2 OS=Homo sapiens OX=9606 GN=STAB2 PE=1 SV=3
MMLQHLVIFCLGLVVQNFCSPAETTGQARRCDRKSLLTIRTECRSCALNLGVKCPDGYTM
ITSGSVGVRDCRYTFEVRTYSLSLPGCRHICRKDYLQPRCCPGRWGPDCIECPGGAGSPC
NGRGSCAEGMEGNGTCSCQEGFGGTACETCADDNLFGPSCSSVCNCVHGVCNSGLDGDGT
CECYSAYTGPKCDKPIPECAALLCPENSRCSPSTEDENKLECKCLPNYRGDGKYCDPINP
CLRKICHPHAHCTYLGPNRHSCTCQEGYRGDGQVCLPVDPCQINFGNCPTKSTVCKYDGP
GQSHCECKEHYQNFVPGVGCSMTDICKSDNPCHRNANCTTVAPGRTECICQKGYVGDGLT
CYGNIMERLRELNTEPRGKWQGRLTSFISLLDKAYAWPLSKLGPFTVLLPTDKGLKGFNV
NELLVDNKAAQYFVKLHIIAGQMNIEYMNNTDMFYTLTGKSGEIFNSDKDNQIKLKLHGG
KKKVKIIQGDIIASNGLLHILDRAMDKLEPTFESNNEQTIMTMLQPRYSKFRSLLEETNL
GHALDEDGVGGPYTIFVPNNEALNNMKDGTLDYLLSPEGSRKLLELVRYHIVPFTQLEVA
TLISTPHIRSMANQLIQFNTTDNGQILANDVAMEEIEITAKNGRIYTLTGVLIPPSIVPI
LPHRCDETKREMKLGTCVSCSLVYWSRCPANSEPTALFTHRCVYSGRFGSLKSGCARYCN
ATVKIPKCCKGFYGPDCNQCPGGFSNPCSGNGQCADSLGGNGTCICEEGFQGSQCQFCSD
PNKYGPRCNKKCLCVHGTCNNRIDSDGACLTGTCRDGSAGRLCDKQTSACGPYVQFCHIH
ATCEYSNGTASCICKAGYEGDGTLCSEMDPCTGLTPGGCSRNAECIKTGTGTHTCVCQQG
WTGNGRDCSEINNCLLPSAGGCHDNASCLYVGPGQNECECKKGFRGNGIDCEPITSCLEQ
TGKCHPLASCQSTSSGVWSCVCQEGYEGDGFLCYGNAAVELSFLSEAAIFNRWINNASLQ
PTLSATSNLTVLVPSQQATEDMDQDEKSFWLSQSNIPALIKYHMLLGTYRVADLQTLSSS
DMLATSLQGNFLHLAKVDGNITIEGASIVDGDNAATNGVIHIINKVLVPQRRLTGSLPNL
LMRLEQMPDYSIFRGYIIQYNLANAIEAADAYTVFAPNNNAIENYIREKKVLSLEEDVLR
YHVVLEEKLLKNDLHNGMHRETMLGFSYFLSFFLHNDQLYVNEAPINYTNVATDKGVIHG
LGKVLEIQKNRCDNNDTTIIRGRCRTCSSELTCPFGTKSLGNEKRRCIYTSYFMGRRTLF
IGCQPKCVRTVITRECCAGFFGPQCQPCPGNAQNVCFGNGICLDGVNGTGVCECGEGFSG
TACETCTEGKYGIHCDQACSCVHGRCNQGPLGDGSCDCDVGWRGVHCDNATTEDNCNGTC
HTSANCLTNSDGTASCKCAAGFQGNGTICTAINACEISNGGCSAKADCKRTTPGRRVCTC
KAGYTGDGIVCLEINPCLENHGGCDKNAECTQTGPNQAACNCLPAYTGDGKVCTLINVCL
TKNGGCSEFAICNHTGQVERTCTCKPNYIGDGFTCRGSIYQELPKNPKTSQYFFQLQEHF
VKDLVGPGPFTVFAPLSAAFDEEARVKDWDKYGLMPQVLRYHVVACHQLLLENLKLISNA
TSLQGEPIVISVSQSTVYINNKAKIISSDIISTNGIVHIIDKLLSPKNLLITPKDNSGRI
LQNLTTLATNNGYIKFSNLIQDSGLLSVITDPIHTPVTLFWPTDQALHALPAEQQDFLFN
QDNKDKLKEYLKFHVIRDAKVLAVDLPTSTAWKTLQGSELSVKCGAGRDIGDLFLNGQTC
RIVQRELLFDLGVAYGIDCLLIDPTLGGRCDTFTTFDASGECGSCVNTPSCPRWSKPKGV
KQKCLYNLPFKRNLEGCRERCSLVIQIPRCCKGYFGRDCQACPGGPDAPCNNRGVCLDQY
SATGECKCNTGFNGTACEMCWPGRFGPDCLPCGCSDHGQCDDGITGSGQCLCETGWTGPS
CDTQAVLPAVCTPPCSAHATCKENNTCECNLDYEGDGITCTVVDFCKQDNGGCAKVARCS
QKGTKVSCSCQKGYKGDGHSCTEIDPCADGLNGGCHEHATCKMTGPGKHKCECKSHYVGD
GLNCEPEQLPIDRCLQDNGQCHADAKCVDLHFQDTTVGVFHLRSPLGQYKLTFDKAREAC
ANEAATMATYNQLSYAQKAKYHLCSAGWLETGRVAYPTAFASQNCGSGVVGIVDYGPRPN
KSEMWDVFCYRMKDVNCTCKVGYVGDGFSCSGNLLQVLMSFPSLTNFLTEVLAYSNSSAR
GRAFLEHLTDLSIRGTLFVPQNSGLGENETLSGRDIEHHLANVSMFFYNDLVNGTTLQTR
LGSKLLITASQDPLQPTETRFVDGRAILQWDIFASNGIIHVISRPLKAPPAPVTLTHTGL
GAGIFFAIILVTGAVALAAYSYFRINRRTIGFQHFESEEDINVAALGKQQPENISNPLYE
STTSAPPEPSYDPFTDSEERQLEGNDPLRTL
>sp|Q9NYQ7|CELR3_HUMAN Cadherin EGF LAG seven-pass G-type receptor 3 OS=Homo sapiens OX=9606 GN=CELSR3 PE=1 SV=2
MMARRPPWRGLGGRSTPILLLLLLSLFPLSQEELGGGGHQGWDPGLAATTGPRAHIGGGA
LALCPESSGVREDGGPGLGVREPIFVGLRGRRQSARNSRGPPEQPNEELGIEHGVQPLGS
RERETGQGPGSVLYWRPEVSSCGRTGPLQRGSLSPGALSSGVPGSGNSSPLPSDFLIRHH
GPKPVSSQRNAGTGSRKRVGTARCCGELWATGSKGQGERATTSGAERTAPRRNCLPGASG
SGPELDSAPRTARTAPASGSAPRESRTAPEPAPKRMRSRGLFRCRFLPQRPGPRPPGLPA
RPEARKVTSANRARFRRAANRHPQFPQYNYQTLVPENEAAGTAVLRVVAQDPDAGEAGRL
VYSLAALMNSRSLELFSIDPQSGLIRTAAALDRESMERHYLRVTAQDHGSPRLSATTMVA
VTVADRNDHSPVFEQAQYRETLRENVEEGYPILQLRATDGDAPPNANLRYRFVGPPAARA
AAAAAFEIDPRSGLISTSGRVDREHMESYELVVEASDQGQEPGPRSATVRVHITVLDEND
NAPQFSEKRYVAQVREDVRPHTVVLRVTATDRDKDANGLVHYNIISGNSRGHFAIDSLTG
EIQVVAPLDFEAEREYALRIRAQDAGRPPLSNNTGLASIQVVDINDHIPIFVSTPFQVSV
LENAPLGHSVIHIQAVDADHGENARLEYSLTGVAPDTPFVINSATGWVSVSGPLDRESVE
HYFFGVEARDHGSPPLSASASVTVTVLDVNDNRPEFTMKEYHLRLNEDAAVGTSVVSVTA
VDRDANSAISYQITGGNTRNRFAISTQGGVGLVTLALPLDYKQERYFKLVLTASDRALHD
HCYVHINITDANTHRPVFQSAHYSVSVNEDRPMGSTIVVISASDDDVGENARITYLLEDN
LPQFRIDADSGAITLQAPLDYEDQVTYTLAITARDNGIPQKADTTYVEVMVNDVNDNAPQ
FVASHYTGLVSEDAPPFTSVLQISATDRDAHANGRVQYTFQNGEDGDGDFTIEPTSGIVR
TVRRLDREAVSVYELTAYAVDRGVPPLRTPVSIQVMVQDVNDNAPVFPAEEFEVRVKENS
IVGSVVAQITAVDPDEGPNAHIMYQIVEGNIPELFQMDIFSGELTALIDLDYEARQEYVI
VVQATSAPLVSRATVHVRLVDQNDNSPVLNNFQILFNNYVSNRSDTFPSGIIGRIPAYDP
DVSDHLFYSFERGNELQLLVVNQTSGELRLSRKLDNNRPLVASMLVTVTDGLHSVTAQCV
LRVVIITEELLANSLTVRLENMWQERFLSPLLGRFLEGVAAVLATPAEDVFIFNIQNDTD
VGGTVLNVSFSALAPRGAGAGAAGPWFSSEELQEQLYVRRAALAARSLLDVLPFDDNVCL
REPCENYMKCVSVLRFDSSAPFLASASTLFRPIQPIAGLRCRCPPGFTGDFCETELDLCY
SNPCRNGGACARREGGYTCVCRPRFTGEDCELDTEAGRCVPGVCRNGGTCTDAPNGGFRC
QCPAGGAFEGPRCEVAARSFPPSSFVMFRGLRQRFHLTLSLSFATVQQSGLLFYNGRLNE
KHDFLALELVAGQVRLTYSTGESNTVVSPTVPGGLSDGQWHTVHLRYYNKPRTDALGGAQ
GPSKDKVAVLSVDDCDVAVALQFGAEIGNYSCAAAGVQTSSKKSLDLTGPLLLGGVPNLP
ENFPVSHKDFIGCMRDLHIDGRRVDMAAFVANNGTMAGCQAKLHFCDSGPCKNSGFCSER
WGSFSCDCPVGFGGKDCQLTMAHPHHFRGNGTLSWNFGSDMAVSVPWYLGLAFRTRATQG
VLMQVQAGPHSTLLCQLDRGLLSVTVTRGSGRASHLLLDQVTVSDGRWHDLRLELQEEPG
GRRGHHVLMVSLDFSLFQDTMAVGSELQGLKVKQLHVGGLPPGSAEEAPQGLVGCIQGVW
LGSTPSGSPALLPPSHRVNAEPGCVVTNACASGPCPPHADCRDLWQTFSCTCQPGYYGPG
CVDACLLNPCQNQGSCRHLPGAPHGYTCDCVGGYFGHHCEHRMDQQCPRGWWGSPTCGPC
NCDVHKGFDPNCNKTNGQCHCKEFHYRPRGSDSCLPCDCYPVGSTSRSCAPHSGQCPCRP
GALGRQCNSCDSPFAEVTASGCRVLYDACPKSLRSGVWWPQTKFGVLATVPCPRGALGAA
VRLCDEAQGWLEPDLFNCTSPAFRELSLLLDGLELNKTALDTMEAKKLAQRLREVTGHTD
HYFSQDVRVTARLLAHLLAFESHQQGFGLTATQDAHFNENLLWAGSALLAPETGDLWAAL
GQRAPGGSPGSAGLVRHLEEYAATLARNMELTYLNPMGLVTPNIMLSIDRMEHPSSPRGA
RRYPRYHSNLFRGQDAWDPHTHVLLPSQSPRPSPSEVLPTSSSIENSTTSSVVPPPAPPE
PEPGISIIILLVYRTLGGLLPAQFQAERRGARLPQNPVMNSPVVSVAVFHGRNFLRGILE
SPISLEFRLLQTANRSKAICVQWDPPGLAEQHGVWTARDCELVHRNGSHARCRCSRTGTF
GVLMDASPRERLEGDLELLAVFTHVVVAVSVAALVLTAAILLSLRSLKSNVRGIHANVAA
ALGVAELLFLLGIHRTHNQLVCTAVAILLHYFFLSTFAWLFVQGLHLYRMQVEPRNVDRG
AMRFYHALGWGVPAVLLGLAVGLDPEGYGNPDFCWISVHEPLIWSFAGPVVLVIVMNGTM
FLLAARTSCSTGQREAKKTSALTLRSSFLLLLLVSASWLFGLLAVNHSILAFHYLHAGLC
GLQGLAVLLLFCVLNADARAAWMPACLGRKAAPEEARPAPGLGPGAYNNTALFEESGLIR
ITLGASTVSSVSSARSGRTQDQDSQRGRSYLRDNVLVRHGSAADHTDHSLQAHAGPTDLD
VAMFHRDAGADSDSDSDLSLEEERSLSIPSSESEDNGRTRGRFQRPLCRAAQSERLLTHP
KDVDGNDLLSYWPALGECEAAPCALQTWGSERRLGLDTSKDAANNNQPDPALTSGDETSL
GRAQRQRKGILKNRLQYPLVPQTRGAPELSWCRAATLGHRAVPAASYGRIYAGGGTGSLS
QPASRYSSREQLDLLLRRQLSRERLEEAPAPVLRPLSRPGSQECMDAAPGRLEPKDRGST
LPRRQPPRDYPGAMAGRFGSRDALDLGAPREWLSTLPPPRRTRDLDPQPPPLPLSPQRQL
SRDPLLPSRPLDSLSRSSNSREQLDQVPSRHPSREALGPLPQLLRAREDSVSGPSHGPST
EQLDILSSILASFNSSALSSVQSSSTPLGPHTTATPSATASVLGPSTPRSATSHSISELS
PDSEVPRSEGHS

I would like to shorten the header of each sequence so the header only contains the organism name e.g.

Code:

>Homo sapiens
MMLQHLVIFCLGLVVQNFCSPAETTGQARRCDRKSLLTIRTECRSCALNLGVKCPDGYTM
ITSGSVGVRDCRYTFEVRTYSLSLPGCRHICRKDYLQPRCCPGRWGPDCIECPGGAGSPC
NGRGSCAEGMEGNGTCSCQEGFGGTACETCADDNLFGPSCSSVCNCVHGVCNSGLDGDGT
CECYSAYTGPKCDKPIPECAALLCPENSRCSPSTEDENKLECKCLPNYRGDGKYCDPINP
CLRKICHPHAHCTYLGPNRHSCTCQEGYRGDGQVCLPVDPCQINFGNCPTKSTVCKYDGP
GQSHCECKEHYQNFVPGVGCSMTDICKSDNPCHRNANCTTVAPGRTECICQKGYVGDGLT
CYGNIMERLRELNTEPRGKWQGRLTSFISLLDKAYAWPLSKLGPFTVLLPTDKGLKGFNV
NELLVDNKAAQYFVKLHIIAGQMNIEYMNNTDMFYTLTGKSGEIFNSDKDNQIKLKLHGG
KKKVKIIQGDIIASNGLLHILDRAMDKLEPTFESNNEQTIMTMLQPRYSKFRSLLEETNL
GHALDEDGVGGPYTIFVPNNEALNNMKDGTLDYLLSPEGSRKLLELVRYHIVPFTQLEVA
TLISTPHIRSMANQLIQFNTTDNGQILANDVAMEEIEITAKNGRIYTLTGVLIPPSIVPI
LPHRCDETKREMKLGTCVSCSLVYWSRCPANSEPTALFTHRCVYSGRFGSLKSGCARYCN
ATVKIPKCCKGFYGPDCNQCPGGFSNPCSGNGQCADSLGGNGTCICEEGFQGSQCQFCSD
PNKYGPRCNKKCLCVHGTCNNRIDSDGACLTGTCRDGSAGRLCDKQTSACGPYVQFCHIH
ATCEYSNGTASCICKAGYEGDGTLCSEMDPCTGLTPGGCSRNAECIKTGTGTHTCVCQQG
WTGNGRDCSEINNCLLPSAGGCHDNASCLYVGPGQNECECKKGFRGNGIDCEPITSCLEQ
TGKCHPLASCQSTSSGVWSCVCQEGYEGDGFLCYGNAAVELSFLSEAAIFNRWINNASLQ
PTLSATSNLTVLVPSQQATEDMDQDEKSFWLSQSNIPALIKYHMLLGTYRVADLQTLSSS
DMLATSLQGNFLHLAKVDGNITIEGASIVDGDNAATNGVIHIINKVLVPQRRLTGSLPNL
LMRLEQMPDYSIFRGYIIQYNLANAIEAADAYTVFAPNNNAIENYIREKKVLSLEEDVLR
YHVVLEEKLLKNDLHNGMHRETMLGFSYFLSFFLHNDQLYVNEAPINYTNVATDKGVIHG
LGKVLEIQKNRCDNNDTTIIRGRCRTCSSELTCPFGTKSLGNEKRRCIYTSYFMGRRTLF
IGCQPKCVRTVITRECCAGFFGPQCQPCPGNAQNVCFGNGICLDGVNGTGVCECGEGFSG
TACETCTEGKYGIHCDQACSCVHGRCNQGPLGDGSCDCDVGWRGVHCDNATTEDNCNGTC
HTSANCLTNSDGTASCKCAAGFQGNGTICTAINACEISNGGCSAKADCKRTTPGRRVCTC
KAGYTGDGIVCLEINPCLENHGGCDKNAECTQTGPNQAACNCLPAYTGDGKVCTLINVCL
TKNGGCSEFAICNHTGQVERTCTCKPNYIGDGFTCRGSIYQELPKNPKTSQYFFQLQEHF
VKDLVGPGPFTVFAPLSAAFDEEARVKDWDKYGLMPQVLRYHVVACHQLLLENLKLISNA
TSLQGEPIVISVSQSTVYINNKAKIISSDIISTNGIVHIIDKLLSPKNLLITPKDNSGRI
LQNLTTLATNNGYIKFSNLIQDSGLLSVITDPIHTPVTLFWPTDQALHALPAEQQDFLFN
QDNKDKLKEYLKFHVIRDAKVLAVDLPTSTAWKTLQGSELSVKCGAGRDIGDLFLNGQTC
RIVQRELLFDLGVAYGIDCLLIDPTLGGRCDTFTTFDASGECGSCVNTPSCPRWSKPKGV
KQKCLYNLPFKRNLEGCRERCSLVIQIPRCCKGYFGRDCQACPGGPDAPCNNRGVCLDQY
SATGECKCNTGFNGTACEMCWPGRFGPDCLPCGCSDHGQCDDGITGSGQCLCETGWTGPS
CDTQAVLPAVCTPPCSAHATCKENNTCECNLDYEGDGITCTVVDFCKQDNGGCAKVARCS
QKGTKVSCSCQKGYKGDGHSCTEIDPCADGLNGGCHEHATCKMTGPGKHKCECKSHYVGD
GLNCEPEQLPIDRCLQDNGQCHADAKCVDLHFQDTTVGVFHLRSPLGQYKLTFDKAREAC
ANEAATMATYNQLSYAQKAKYHLCSAGWLETGRVAYPTAFASQNCGSGVVGIVDYGPRPN
KSEMWDVFCYRMKDVNCTCKVGYVGDGFSCSGNLLQVLMSFPSLTNFLTEVLAYSNSSAR
GRAFLEHLTDLSIRGTLFVPQNSGLGENETLSGRDIEHHLANVSMFFYNDLVNGTTLQTR
LGSKLLITASQDPLQPTETRFVDGRAILQWDIFASNGIIHVISRPLKAPPAPVTLTHTGL
GAGIFFAIILVTGAVALAAYSYFRINRRTIGFQHFESEEDINVAALGKQQPENISNPLYE
STTSAPPEPSYDPFTDSEERQLEGNDPLRTL
>Homo sapiens
MMARRPPWRGLGGRSTPILLLLLLSLFPLSQEELGGGGHQGWDPGLAATTGPRAHIGGGA
LALCPESSGVREDGGPGLGVREPIFVGLRGRRQSARNSRGPPEQPNEELGIEHGVQPLGS
RERETGQGPGSVLYWRPEVSSCGRTGPLQRGSLSPGALSSGVPGSGNSSPLPSDFLIRHH
GPKPVSSQRNAGTGSRKRVGTARCCGELWATGSKGQGERATTSGAERTAPRRNCLPGASG
SGPELDSAPRTARTAPASGSAPRESRTAPEPAPKRMRSRGLFRCRFLPQRPGPRPPGLPA
RPEARKVTSANRARFRRAANRHPQFPQYNYQTLVPENEAAGTAVLRVVAQDPDAGEAGRL
VYSLAALMNSRSLELFSIDPQSGLIRTAAALDRESMERHYLRVTAQDHGSPRLSATTMVA
VTVADRNDHSPVFEQAQYRETLRENVEEGYPILQLRATDGDAPPNANLRYRFVGPPAARA
AAAAAFEIDPRSGLISTSGRVDREHMESYELVVEASDQGQEPGPRSATVRVHITVLDEND
NAPQFSEKRYVAQVREDVRPHTVVLRVTATDRDKDANGLVHYNIISGNSRGHFAIDSLTG
EIQVVAPLDFEAEREYALRIRAQDAGRPPLSNNTGLASIQVVDINDHIPIFVSTPFQVSV
LENAPLGHSVIHIQAVDADHGENARLEYSLTGVAPDTPFVINSATGWVSVSGPLDRESVE
HYFFGVEARDHGSPPLSASASVTVTVLDVNDNRPEFTMKEYHLRLNEDAAVGTSVVSVTA
VDRDANSAISYQITGGNTRNRFAISTQGGVGLVTLALPLDYKQERYFKLVLTASDRALHD
HCYVHINITDANTHRPVFQSAHYSVSVNEDRPMGSTIVVISASDDDVGENARITYLLEDN
LPQFRIDADSGAITLQAPLDYEDQVTYTLAITARDNGIPQKADTTYVEVMVNDVNDNAPQ
FVASHYTGLVSEDAPPFTSVLQISATDRDAHANGRVQYTFQNGEDGDGDFTIEPTSGIVR
TVRRLDREAVSVYELTAYAVDRGVPPLRTPVSIQVMVQDVNDNAPVFPAEEFEVRVKENS
IVGSVVAQITAVDPDEGPNAHIMYQIVEGNIPELFQMDIFSGELTALIDLDYEARQEYVI
VVQATSAPLVSRATVHVRLVDQNDNSPVLNNFQILFNNYVSNRSDTFPSGIIGRIPAYDP
DVSDHLFYSFERGNELQLLVVNQTSGELRLSRKLDNNRPLVASMLVTVTDGLHSVTAQCV
LRVVIITEELLANSLTVRLENMWQERFLSPLLGRFLEGVAAVLATPAEDVFIFNIQNDTD
VGGTVLNVSFSALAPRGAGAGAAGPWFSSEELQEQLYVRRAALAARSLLDVLPFDDNVCL
REPCENYMKCVSVLRFDSSAPFLASASTLFRPIQPIAGLRCRCPPGFTGDFCETELDLCY
SNPCRNGGACARREGGYTCVCRPRFTGEDCELDTEAGRCVPGVCRNGGTCTDAPNGGFRC
QCPAGGAFEGPRCEVAARSFPPSSFVMFRGLRQRFHLTLSLSFATVQQSGLLFYNGRLNE
KHDFLALELVAGQVRLTYSTGESNTVVSPTVPGGLSDGQWHTVHLRYYNKPRTDALGGAQ
GPSKDKVAVLSVDDCDVAVALQFGAEIGNYSCAAAGVQTSSKKSLDLTGPLLLGGVPNLP
ENFPVSHKDFIGCMRDLHIDGRRVDMAAFVANNGTMAGCQAKLHFCDSGPCKNSGFCSER
WGSFSCDCPVGFGGKDCQLTMAHPHHFRGNGTLSWNFGSDMAVSVPWYLGLAFRTRATQG
VLMQVQAGPHSTLLCQLDRGLLSVTVTRGSGRASHLLLDQVTVSDGRWHDLRLELQEEPG
GRRGHHVLMVSLDFSLFQDTMAVGSELQGLKVKQLHVGGLPPGSAEEAPQGLVGCIQGVW
LGSTPSGSPALLPPSHRVNAEPGCVVTNACASGPCPPHADCRDLWQTFSCTCQPGYYGPG
CVDACLLNPCQNQGSCRHLPGAPHGYTCDCVGGYFGHHCEHRMDQQCPRGWWGSPTCGPC
NCDVHKGFDPNCNKTNGQCHCKEFHYRPRGSDSCLPCDCYPVGSTSRSCAPHSGQCPCRP
GALGRQCNSCDSPFAEVTASGCRVLYDACPKSLRSGVWWPQTKFGVLATVPCPRGALGAA
VRLCDEAQGWLEPDLFNCTSPAFRELSLLLDGLELNKTALDTMEAKKLAQRLREVTGHTD
HYFSQDVRVTARLLAHLLAFESHQQGFGLTATQDAHFNENLLWAGSALLAPETGDLWAAL
GQRAPGGSPGSAGLVRHLEEYAATLARNMELTYLNPMGLVTPNIMLSIDRMEHPSSPRGA
RRYPRYHSNLFRGQDAWDPHTHVLLPSQSPRPSPSEVLPTSSSIENSTTSSVVPPPAPPE
PEPGISIIILLVYRTLGGLLPAQFQAERRGARLPQNPVMNSPVVSVAVFHGRNFLRGILE
SPISLEFRLLQTANRSKAICVQWDPPGLAEQHGVWTARDCELVHRNGSHARCRCSRTGTF
GVLMDASPRERLEGDLELLAVFTHVVVAVSVAALVLTAAILLSLRSLKSNVRGIHANVAA
ALGVAELLFLLGIHRTHNQLVCTAVAILLHYFFLSTFAWLFVQGLHLYRMQVEPRNVDRG
AMRFYHALGWGVPAVLLGLAVGLDPEGYGNPDFCWISVHEPLIWSFAGPVVLVIVMNGTM
FLLAARTSCSTGQREAKKTSALTLRSSFLLLLLVSASWLFGLLAVNHSILAFHYLHAGLC
GLQGLAVLLLFCVLNADARAAWMPACLGRKAAPEEARPAPGLGPGAYNNTALFEESGLIR
ITLGASTVSSVSSARSGRTQDQDSQRGRSYLRDNVLVRHGSAADHTDHSLQAHAGPTDLD
VAMFHRDAGADSDSDSDLSLEEERSLSIPSSESEDNGRTRGRFQRPLCRAAQSERLLTHP
KDVDGNDLLSYWPALGECEAAPCALQTWGSERRLGLDTSKDAANNNQPDPALTSGDETSL
GRAQRQRKGILKNRLQYPLVPQTRGAPELSWCRAATLGHRAVPAASYGRIYAGGGTGSLS
QPASRYSSREQLDLLLRRQLSRERLEEAPAPVLRPLSRPGSQECMDAAPGRLEPKDRGST
LPRRQPPRDYPGAMAGRFGSRDALDLGAPREWLSTLPPPRRTRDLDPQPPPLPLSPQRQL
SRDPLLPSRPLDSLSRSSNSREQLDQVPSRHPSREALGPLPQLLRAREDSVSGPSHGPST
EQLDILSSILASFNSSALSSVQSSSTPLGPHTTATPSATASVLGPSTPRSATSHSISELS
PDSEVPRSEGHS

Any suggestions as to go about doing this?

jerrild

View Public Profile for jerrild

Find all posts by jerrild

10-26-2019

Moderator

12,296, 3,792

Join Date: Nov 2008

Last Activity: 1 January 2021, 1:47 AM EST

Location: Amsterdam

Posts: 12,296

Thanks Given: 679

Thanked 3,792 Times in 3,282 Posts

Hi, if the labels are always in that particular order, try:

Code:

sed '/^>/s/.*OS=\(.*\) OX=.*/\1/' file

Or if labels always only have uppercase names, followed by = signs, you could try:

Code:

sed '/^>/s/.*OS=\([^=]*\) [[:upper:]]\{1,\}=.*/\1/' file

Scrutinizer

View Public Profile for Scrutinizer

Find all posts by Scrutinizer

10-26-2019

Registered User

4, 0

Join Date: Oct 2019

Last Activity: 6 November 2019, 6:30 PM EST

Posts: 4

Thanks Given: 1

Thanked 0 Times in 0 Posts

Thanks, would it be possible to retain the '>' at the header of each sequence?

jerrild

View Public Profile for jerrild

Find all posts by jerrild

10-26-2019

Moderator

12,296, 3,792

Join Date: Nov 2008

Last Activity: 1 January 2021, 1:47 AM EST

Location: Amsterdam

Posts: 12,296

Thanks Given: 679

Thanked 3,792 Times in 3,282 Posts

Yes, just put > before the back reference \1:

Code:

sed '/^>/s/.*OS=\(.*\) OX=.*/>\1/' file

These 2 Users Gave Thanks to Scrutinizer For This Post:

Scrutinizer

View Public Profile for Scrutinizer

Find all posts by Scrutinizer

Shell Programming and Scripting

Shorten header of protein sequences in fasta file to only organism name

10 More Discussions You Might Find Interesting

1. UNIX for Beginners Questions & Answers

How to add specific bases at the beginning and ending of all the fasta sequences?

Discussion started by: dineshkumarsrk

2. Shell Programming and Scripting

Find header in a text file and prepend it to all lines until another header is found

Discussion started by: verdepollo

3. UNIX for Beginners Questions & Answers

How to count the length of fasta sequences?

Discussion started by: dineshkumarsrk

4. Shell Programming and Scripting

Getting unique sequences from multiple fasta file

Discussion started by: Ibk

5. UNIX for Dummies Questions & Answers

Fasta header modification

Discussion started by: Lokaps

6. UNIX for Dummies Questions & Answers

Select distinct sequences from fasta file and list

Discussion started by: Marion MPI

7. Shell Programming and Scripting

Shorten header of protein sequences in fasta file

Discussion started by: alexypaul

8. Shell Programming and Scripting

Extract sequences from a FASTA file based on another file

Discussion started by: nelsonfrans

9. Shell Programming and Scripting

Shell script for changing the accession number of DNA sequences in a FASTA file

Discussion started by: margarita

10. Shell Programming and Scripting

script to shorten usernames and output to file

Discussion started by: binary-ninja