Zostavenie transkriptómu De Novo založené na RNA-Seq a objav génu Cistanche Deserticola Fleshy Stem-Ⅰ

Pozadia

Cistanche deserticola je úplne nefotosyntetická parazitická rastlina s veľkou liečivou hodnotou a je rozšírená najmä v púšti severozápadnej Číny. Jeho sušená dužinatá stonka je kľúčovým tonikom vtradičnej čínskej medicínys úlohami najmä zlepšovania mužskej sexuálnej funkcie a posilňovania imunity, ale vykonalo sa len málo mechanistických štúdií čiastočne kvôli nedostatku genómových a transkriptomických zdrojov.

Natural cistanche tubulosa

PRÍRODNÁ CISTANCHE TUBULOSA ČÍNSKA TRADIČNÁ MEDICÍNA PHGS75% ECH 30% ACT 12%

Výsledky

V tejto štúdii sme vykonali hlboké transkriptómové sekvenovanie v mäsitom kmeni C. deserticola a približne 80 miliónov čítaní sa vygenerovalo pomocou párového sekvenovania Illumina na platforme HiSeq2000. Pomocou trojitého assembleru sme získali 95 787 transkriptových sekvencií s dĺžkami transkriptov od 200 bp do 15 698 bp, s priemernou dĺžkou 950 báz a dĺžkou N50 1 519 báz. 63 957 transkriptov bolo identifikovaných ako aktívne exprimovaných s FPKM väčšou alebo rovnou 0,5, v ktorých bolo 30 098 transkriptov anotovaných génovými popismi alebo termínmi génovej ontológie analýzou podobnosti sekvencií proti niekoľkým verejným databázam (Uniprot, NR a Nt v NCBI a KEGG) . Ďalej sme identifikovali kľúčové enzýmové gény zapojené do biosyntézy lignínu a fenyletanoidných glykozidov (PhG), ktoré sú známe ako primárne aktívne zložky. Na základe porovnania sekvencií a fylogenetickej analýzy boli identifikované štyri gény pre fenylalanín amonnú lyázu (PAL), prvý kľúčový enzým v biosyntéze lignínu a PhG. Po prvýkrát boli tiež navrhnuté dve biosyntetické dráhy PhG.

Závery

Celkovo sme dokončili globálnu analýzu transkriptómu mäsitého kmeňa C. deserticola pomocou technológie RNA-seq. Zo zostavených a anotovaných transkriptov bola identifikovaná zbierka enzýmových génov súvisiacich s biosyntézou lignínu a fenyletanoidných glykozidov a bola tiež predpovedaná génová rodina PAL. Sekvenčné údaje z tejto štúdie poskytnú cenný zdroj na vykonávanie budúceho výskumu biosyntézy fenyletanoidných glykozidov a funkčných genómových štúdií v tejto dôležitej liečivej rastline.

Úvod

C. deserticola je celosvetový rod trvácich púštnych rastlín z čeľade Orobanchaceae a je to úplne nefotosyntetický druh a zvyčajne pestuje podzemnú holoparazitickú rastlinu. Parazituje na koreňoch psamofytu Haloxylon ammodendron (Chenopodiaceae), ktorý pre svoju vysokú toleranciu k suchu a zasoleniu obýva najmä púšte a polopúšte. C. deserticola vykazuje silnú odolnosť voči drsným podmienkam prostredia a je rozšírená hlavne v severozápadnej Číne, najmä vo Vnútornom Mongolsku, Gansu a Xinjiangu. V posledných rokoch je považovaný za ohrozený voľne žijúci druh z dôvodu zvýšenej konzumácie ľuďmi. C. deserticola, ktorá sa často nazýva púštny ženšen, je bežne známa ako púštna metla a sušená dužinatá stonka sa v Číne a Japonsku už mnoho rokov vo veľkej miere používa ako tradične dôležité tonikum. Pôvodne bol zaznamenaný v Shen Nong Ben Cao Jing (Slovník čínskej Materia Medica, 1977) približne pred 1800 rokmi a bol považovaný za jeden z hlavných zdrojovČínska liečivá bylina Cistanche.

Chinese cistanche tubulosa

PRÍRODNÁ CISTANCHE TUBULOSA NA ZLEPŠENIE SEXUÁLNEJ FUNKCIE PHGS75% ECH 30% ACT 12%

Extrakty z C. deserticola majú široké spektrum liečivých funkcií, najmä na použitie pri zlepšovaní sexuálnych funkcií, tonizácii obličiek, ochrane pečene, aperitívnej činnosti, zlepšovaní pamäti, imunomodulačnej, antioxidačnej, protizápalovej, antivírusovej aktivite atď. hlavné bioaktívne zložky C. deserticola sú fenyletanoidové glykozidy (PheGs, PhGs). Doposiaľ bolo zo sukulentnej stonky C. deserticola izolovaných viac ako 20 fenyletanoidových glykozidov. Medzi nimiakteozid a echinakozidsú dve hlavné zložky s významnými farmakologickými aktivitami a sú zdokumentované ako štandardy kvality C. deserticola v čínskom liekopise (vydania z roku 2005 a 2010). Tri chemické zložky PhGs sú organická kyselina, sacharid a fenyletanoid, avšak podrobnosti týkajúce sa biosyntetických dráh fenyletanoidov zostávajú v C. deserticola nedostatočne pochopené.

Napriek komerčnému a medicínskemu významu C. deserticola sú genomické a transkriptomické údaje tohto druhu veľmi obmedzené. V databáze NCBI nie sú k dispozícii žiadne EST a úplné informácie o genóme pre tento druh zostávajú nedostupné s výnimkou sekvencie genómu chloroplastov. Obmedzené transkriptomické údaje bránia štúdiu biosyntetických mechanizmov PhG. Technológia RNA-seq môže generovať sekvencie exprimovaných častí cieľového genómu a identifikovať gény [18] pomocou technologických platforiem NGS (ako Applied Biosystems SOLiD, Illumina HiSeq a Roche 454). Stáva sa čoraz populárnejším v zostavovaní transkriptómu de novo, pretože je to nákladovo efektívny a výkonný prístup s vysokým rozlíšením a širokým dynamickým rozsahom, najmä preto, že má výhodu skúmať prepisy s nízkym výskytom. Kvôli rôznym výhodám je RNA-seq špecificky atraktívna pre nemodelové organizmy s obmedzenými genetickými zdrojmi. Neexistuje však podrobný výskum transkriptómu C. deserticola pomocou RNA-seq.

V tejto štúdii sme globálne sekvenovali kmeňový transkriptóm pre C. deserticola pomocou platformy Illumina Hiseq2000 a získali sme 7,9G surové dáta. Zostavením a anotáciou sme vyťažili gény zapojené do biosyntézy PhG a gény zodpovedné za celú biosyntézu lignínu. Naša analýza RNA-seq vytvorila prvý konsenzuálny transkriptóm C. deserticola a poskytla nový pohľad na komplexné pochopenie liečivej hodnoty C. deserticola. Okrem toho sa tu opísaná metóda môže široko aplikovať na profilové transkriptómy, aby sa uľahčilo objavovanie génov zapojených do špecifických dráh biosyntézy liečivých zložiek v inej liečivej rastline s veľmi obmedzenými genómovými zdrojmi.

Materiály a metódy

Zber rastlinného materiálu

Čerstvá sukulentná stonka pre C. deserticola v štádiu vykopávok bola zozbieraná z rastlinnej základne v BayanHot City of Alxa League vo Vnútornom Mongolsku v severozápadnej Číne. Povolenie na zber bolo získané od vlastníka (HongKui CongRong Group) základne závodu. Vzor kupónu bol uložený v zariadení Core Genomic Facility v Pekinskom inštitúte genomiky Čínskej akadémie vied. Po vyčistení boli sukulentné stonkové tkanivá narezané na malé kúsky a okamžite zmrazené v tekutom dusíku a potom uskladnené pri teplote -80 až do ďalšieho spracovania.

Extrakcia RNA, konštrukcia knižnice cDNA a sekvenovanie Illumina

Celková RNA bola extrahovaná zo sukulentného kmeňa pomocou TRIzol Reagent (Invitrogen Inc., Kalifornia, USA) podľa pokynov výrobcu. Výsledné vzorky boli ošetrené DNázou I, aby sa odstránila akákoľvek genómová DNA. Extrahované RNA sa kvantifikovali pomocou bioanalyzátora Agilent 21{10}}0 (Agilent Technologies) a skontrolovala sa integrita pomocou elektroforézy na denaturačnom agarózovom géli s farbením etídiumbromidom. Vzorky RNA s pomermi A260/A280 medzi 1,9 a 2,1, pomermi RNA 28S:18S vyššími ako 1,0 a číslami integrity RNA (RIN) -8,5 sa použili v nasledujúcich analýzach.

Knižnice RNA-seq boli vytvorené pomocou súprav na prípravu vzoriek RNA Illumina Truseq. Poly(A)+ RNA sa izolovala z celkovej RNA pomocou guľôčok Dynal ligo(dT)25 podľa pokynov výrobcu. Po purifikácii sa pridal fragmentačný pufor na rozbitie mRNA na krátke fragmenty. Prvý reťazec cDNA sa syntetizoval s použitím týchto krátkych fragmentov ako templátov spolu s reverznou transkriptázou SuperScript III a náhodným hexamérnym primérom N6. Druhé vlákno cDNA sa potom syntetizovalo pomocou pufra, dNTP, RNázyH a DNA polymerázy I. Výsledná dvojvláknová cDNA sa podrobila koncovej oprave pomocou T4 DNA polymerázy, Klenowovho fragmentu DNA polymerázy I a T4 polynukleotidkinázy a ligovala sa do adaptéry pomocou T4 DNA ligázy. Fragmenty ligované do adaptéra sa purifikovali pomocou extrakčnej súpravy QiaQuick PCR a eluovali sa EB pufrom. Po analýze s použitím elektroforézy na agarózovom géli sa vybrali vhodné fragmenty ako templáty na PCR amplifikáciu. Sekvenovanie výslednej cDNA knižnice sa uskutočnilo systémom Illumina HiSeq 2000.

Zostavenie transkriptov de novo a kvantifikácia génovej expresie

Nespracované čítania generované zo sekvenovania boli vyčistené odstránením adaptorových sekvencií (ATCTCGTATGCCGTC) pomocou internej metódy. Potom sme vykonali prísny proces filtrovania nízkej kvality. Po prvé, bázy so skóre kvality phred nižším ako 20 by boli orezané od 3' konca sekvencie, až kým nenabehnú na jednu bázu s vyššou kvalitou (väčšia alebo rovná 20). Ak by bola dĺžka čítania kratšia ako 50 bp, bola by vyradená. Po druhé, čítania budú ďalej filtrované podľa kritéria, že 70 % základov v jednom čítaní má skóre vysokej kvality (väčšie alebo rovné 20). Po tretie, na ďalšiu montáž sa použili iba párové koncové čítania. De novo zostavenie prepisu sa uskutočnilo pomocou vydania Trinity{10}} [30], ktoré pozostávalo z troch po sebe nasledujúcich softvérových modulov: Inchworm, Chrysalis a Butterfly. Parametre zostavy boli nastavené takto:-seqType fq-JM 300G -min_kontig_dĺžka 200-CPU 20-inchworm_cpu {{21} }bflyCPU 20.

Na kvantifikáciu množstva transkriptov boli sekvenované čítania na konci párov znova zarovnané so zostavenými transkriptmi pomocou skriptu v Trinity. Mapované hodnoty sa použili na kvantifikáciu pomocou softvéru RSEM (RNA-Seq by Expectation Maximization). Množstvo génu alebo izoforiem bolo reprezentované hodnotou fragmentu na kilobázu transkriptu na milión mapovaných fragmentov (FPKM), tie transkripty s hodnotou FPKM rovnou alebo väčšou ako 0,05 boli definované ako vyjadrené.

Funkčná anotácia vyjadrených prepisov

Neexistujú žiadne sady génových anotácií C. deserticola okrem genómu chloroplastov [1]. Vyjadrené transkripty sme anotovali ich porovnaním s Genbank Nt, Genbank Nr a TAIR10_ pep_20101214_aktualizovanými súbormi údajov samostatne pomocou programu BLAST (E< = 1e-20). Meanwhile, all expressed transcripts were translated into potential proteins according to ORF prediction by TransDecoder and predicated for the conserved domains based on the Pfam database.

Anotácia génovej ontológie a KEGG dráhy Zarovnaním podobnosti sekvencií s databázou Uniprot (anotácia génovej ontológie (GO) všetkých zostavených transkriptov bola získaná pomocou asociačného súboru stiahnutého z (ftp://ftp.ebi.ac.uk/pub/ databases/GO/goa/UNIPROT/gene_asociácia goa_uniprot.gz). Kategórie CC, BP a MF samostatne.

Informácie o KEGG dráhe boli priradené pre všetky predpovedané proteínové sekvencie pomocou online nástroja KAAS (KEGG Automatic Annotation Server) [34]. Sekvencie vo formáte fasta boli predložené na žiadosť KAAS a boli stiahnuté výsledné súbory všetkých informácií o dráhach súvisiacich s transkriptómom kmeňa C. deserticola. Na anotáciu pomocou metódy BBH (bi-directional best hit) bolo použitých 13 súborov génových údajov rastlinných organizmov v KEGG.

cistanche tubulosa extract

PRÍRODNÝ EXTRAKT CISTANCHE TUBULOSA CISTANCHE PHGS75% ECH 30% ACT 12%

RT-qPCR analýza

Po štiepení DNázou I sa približne 5 ug celkovej RNA premenilo na prvé vlákno cDNA prostredníctvom reakcie reverznej transkripcie s oligo(dT)15 primérmi a systémom reverznej transkripcie GoScript (Promega). Produkty cDNA sa potom 10-násobne zriedili deionizovanou vodou bez nukleáz pred použitím ako templát v PCR v reálnom čase. Špecifické cDNA boli amplifikované systémom GoTaq 2-Step RT-qPCR (Promega) v objeme 20 ul. PCR amplifikácia sa uskutočnila pri teplote žíhania 60 stupňov s 7500 Real-Time PCR Detection System (Applied Biosystems) podľa pokynov výrobcu. Relatívne množstvo transkriptov sa vypočítalo metódou porovnávacieho prahu cyklu s génom "comp10579_c0" ako interným štandardom pomocou softvéru 7500 Manager.

Páry primérov pre RT-PCR boli navrhnuté na základe online softvéru (http://primer3.ut.ee/) a sú uvedené v súbore údajov S1.

Výsledky

Sekvenovanie RNA a de novo zostavenie transkriptómu mäsitého kmeňa C. deserticola

Stonka C. deserticola sa už mnoho rokov vo veľkej miere používa ako tradične dôležité tonikum v Číne a Japonsku. Na získanie globálneho prehľadu o génovej expresii v mäsitej stonke C. deserticola sme v rokoch 2013 a 2014 zozbierali vzorky stoniek C. deserticola z tej istej rastlinnej základne. Celkové RNA boli extrahované a polyA+ RNA boli purifikované na vytvorenie párových koncových RNA-seq knižníc. 79 433 734 a 86 019 176 párových koncových čítaní zodpovedajúcich takmer 8 miliardám a 8,6 miliardám báz sekvencie sa získalo pomocou sekvenovania Illumina HiSeq 2000

platforma vo vzorkách 2013-rokov a 2014-rokov (tabuľka 1). Po odstránení sekvencií adaptérov a odfiltrovaní nízkokvalitných čítaní (podrobnosti nájdete v časti Metódy) sa na zostavenie transkriptómu de novo použilo 64 831 040 vysokokvalitných čítaní párového konca v 2013-ročnej vzorke. Pomocou zostavovača sekvencií Trinity [30] sa vygenerovalo 51 719 génov a 95 787 transkriptových sekvencií s dĺžkami transkriptov v rozsahu od 200 bp do 15 698 bp. Priemerná dĺžka zostavených transkriptov je 950 báz a dĺžka N50 je 1 519 báz. Počet transkriptov v rôznych dĺžkach odhalil, že 57, 32 % zozbieraných transkriptov malo približne 500 bp alebo dlhšie (obr. 1A). Vysokokvalitné čítania párového konca v 2014-ročnej vzorke boli mapované do zostaveného prepisu. Okrem toho sme zistili, že počet transkriptov pre každý zostavený gén sa líšil a 69% génov s jednou exprimovanou izoformou, zatiaľ čo 31% génov exprimovalo dva alebo viac transkriptov (obr. 1B).

Kvantifikácia expresie a funkčná anotácia zostavených transkriptov

Množstvo génov alebo transkriptov sa kvantifikovalo pomocou balíka RSEM, v ktorom sa sekvenované čítania znova zarovnali so zostavenými génmi alebo sekvenciami transkriptov pomocou Bowtie a tieto zmapované čítania sa použili na kvantifikáciu. Vypočítala sa hodnota FPKM pre každý gén alebo transkript a nakoniec sme identifikovali 63 957 a 52 857 aktívne exprimovaných transkriptov (hodnota FPKM väčšia alebo rovná 0,5) vo vzorkách mäsitých stoniek C. deserticola v 2{{17} }13 a 2014. 44 776 prepisov (70,01 % v 2013-ročnej vzorke, 84,71 % vo 2014-ročnej vzorke) bolo bežne vyjadrených v dvoch replikátoch a korelácia (Pearsonov korelačný koeficient: 0,91979) ich údajov o expresii bola zobrazené na obr. S1. Sekvenčné nespracované údaje boli nahrané do databázy NCBI SRA (prístupové čísla: SRX857402 a SRX858938). Na ďalšiu analýzu sme použili exprimované gény identifikované v 2013-ročnej vzorke. Funkčné anotačné informácie pre všetky exprimované transkripty sa získali pomocou dvoch metód. Po prvé, všetky exprimované transkripty boli porovnané so známymi databázami nukleotidov (GenBank nt) a peptidových sekvencií (GenBank nr a Arabidopsis peptid) oddelene pomocou algoritmu BLAST. Zo 63 957 vyjadrených prepisov,

29 220 (45,7 %) bolo anotovaných a vykazovalo homológiu so sekvenciami v ktorejkoľvek z troch predmetných databáz s medznou hodnotou E 1e-20. Medzitým boli kandidátske kódujúce oblasti pre všetky exprimované transkriptové sekvencie predpovedané pomocou softvéru TransDecoder a najdlhšie ORF pre každý transkript sa použili na vyhľadávanie domény Pfam. Výsledkom bolo, že na základe databázy Pfam bolo anotovaných 21 358 (33,4 %) prepisov. Celkovo sa 30 098 (47,1 %) prepisov významne zhodovalo so známymi génmi vo verejných databázach kombináciou dvoch vyššie uvedených metód. Kompletný zoznam vyjadrených transkriptov s anotáciou funkcie bol zobrazený v doplnkových údajoch (S2 Dataset).

Preskúmali sme 20 najviac exprimovaných transkriptov (tabuľka 2), ktoré zodpovedajú 18,99 % všetkých sekvenčných čítaní, a zistili sme, že väčšina z nich sú gény reagujúce na abiotické

stresový stimul. Dehydrín (DHNs), trieda hydrofilných a termostabilných stresových proteínov s vysokým počtom nabitých aminokyselín, ktoré patria do skupiny LEA (Group II Late Embryogenesis Abundant), je najviac exprimovaný gén. Tri rôzne dehyrínové transkripty (comp28713_c{1}}seq1/2/4) boli detegované ako vysoko exprimované v mäsitých stonkách, ktoré sa môžu podieľať na ochrane buniek pred poškodením spôsobeným stresom zo sucha. Iné gény súvisiace so stresom, ako je proteín tepelného šoku, proteín súvisiaci s patogénom a metalotioneín, boli tiež vysoko exprimované, čo môže súvisieť s jeho ťažkým prostredím prežitia. Okrem toho niektoré konštitutívne gény vrátane génu 26S ribozomálnej RNA (comp22329_c2_seq1), proteínu potláčaného auxínom/dormancie (comp20999_c0_seq1), ADP-ribozylačný faktor (comp20499_c0_seq1) bol tiež vysoko transkribovaný.

Cistanche tubulosa extract

PRÍRODNÁ CISTANCHE TUBULOSA NA ZLEPŠENIE IMUNITY PHGS75% ECH 30% ACT 12%

Účinky čínskych bylinných liekov na energetický metabolizmus pri ischemickej chorobe srdca-Ⅱ

Zostavenie transkriptómu De Novo založené na RNA-Seq a objavenie génu Cistanche Deserticola Fleshy Stem-Ⅱ

Zostavenie transkriptómu De Novo založené na RNA-Seq a objav génu Cistanche Deserticola Fleshy Stem-Ⅰ

Pozadia

Výsledky

Závery

Úvod