Spørsmål:
Hvilket format er dette? Ganske sikker på at det ikke er en BED-fil
ithinkiam
2017-08-29 21:31:13 UTC
view on stackexchange narkive permalink

Tid for å gjette filformatet for bioinformatikk ... :)

Jeg fant denne .bed-filen på GEO ( GSE84660), men den er tydeligvis ikke en BED-fil . Noen som vet hva det kan være? Og hva kan vise det? Det er fra en HiC-utgave.

  # kolonneoverskrifter: bait1_chr, bait1_start, bait1_end, bait2_chr, bait2_start, bait2_end, contact_ID, NA, NA, B1_D0_counts, B1_D3_counts, B1_D6_c_counts, B1_D1_counts, 848168 chr1 850619 874081 b2b_1. . 114 125 127 75 97 92chr1 831895 848168 chr1 889424 903640 b2b_2. . 15 12 16 4 15 20chr1 831895 848168 chr1 903641 927394 b2b_3. . 13 13 10 18 15 8 ...  
Kan du forklare hva du trenger det til? Jeg mener, det er bare en enkel tekstfil, slik at enhver tekstredigerer (eller til og med excel) kan se den. Hvilken informasjon trenger du for å hente ut av den?
Prøver du å visualisere kontaktmatrisen? Disse dataene kommer [fra denne artikkelen] (https://www.nature.com/ng/journal/vaop/ncurrent/full/ng.3935.html).
@DevonRyan ideelt sett ja, men først ville jeg sjekke at dette ikke var noe spesifikt format jeg ikke var klar over. Har du forslag til å visualisere en kontaktmatrise?
@ithinkiam Jeg vil foreslå [HiCExplorer] (https://github.com/maxplanck-ie/HiCExplorer), men jeg er partisk. På det opprinnelige spørsmålet ditt, må du fortsatt munge denne filen, men jeg får se om jeg kan finne på noe kode for det.
@ithinkiam Jeg tar det tilbake, det er ikke 100% klart hva som er riktig måte å gå fra store agnregioner til enkeltposisjoner. Forhåpentligvis har noen andre en bedre ide.
Kanskje det har blitt kalt _.bed_ for å antyde at start / slutt-koordinatene skal tolkes på en BED-stil 0-basert halvåpen (eller tilsvarende 0-basert start, 1-basert slutt) måte? Paret genomiske intervaller per plate minner om [BEDPE-format] (http://bedtools.readthedocs.io/en/latest/content/general-usage.html#bedpe-format), men jeg er ikke kjent med noe Hei, så vil ikke kommentere om dette bare er tilfeldig ...
En svar:
aechchiki
2017-08-29 22:45:47 UTC
view on stackexchange narkive permalink

Det ser ut som en merkelig måte å representere data på. Du har rett, det ser ikke ut som en BED.

Graving i GEO fikk meg til å finne denne informasjonen:

Supplementary_files_format_and_content: Tab-avgrenset fil rapporterer en kontakt per rad. Samspillende HindIII-fragmenter er representert i sengeformat (chr / start / stop) med agn (eller oppstrøms agn, i tilfelle b2b-kontakter) som er oppført først. Følgende felt tilsvarer en unik kontakt-ID, fragment-ID-er for første og andre fragmenter, og råavlesningstall som støtter kontakter i hver replikat.

Så jeg tror forfatterne slo sammen et BED3-format pluss ytterligere BED-ikke-relaterte felt som genererer en fane-separert fil - men ikke tydelig angitt i deres metoder. Det enkleste ville være å kontakte forfatterne kanskje?

Avhengig av dine mål, hvis du bare trenger de tre første feltene (men jeg tviler på det), ville jeg formatere denne "seng" -filen (for å gjøre den behandlingsbar som en BED-fil) i to underfiler:

  cat original.bed | cut -f 1,2,3 > bait1.txtcat bait1.txt | hode -3chr1 831895 848168 chr1 831895 848168 chr1 831895 848168cat original.bed | klipp -f 4,5,6 > bait2.txtcat bait2.txt | head -3chr1 850619 874081 chr1 889424 903640chr1 903641 927394  

Ikke sikker på om det passer til dine mål skjønt.

Også for visualisering av kontaktmatriser, vil du kanskje finne denne artikkelen nyttig.

Du kan forenkle kommandoen din til `cut -f 1-3 original.bed> bait1.txt` hvis du vil. "Katten" er ikke nødvendig, "kutt" kan ta en filsti som inndata og lister over felt kan defineres med "x-y".
Dette er en av de mange måtene man kan tenke seg å representere en kontaktmatrise, og er ganske spesielt spesielt for tilleggsdataene i denne artikkelen (siden det er uvanlig å lagre 6 kontaktmatriser i en enkelt fil). Hvis OP vil visualisere dette, vil det sannsynligvis trenge å munge det i et helt annet format.
Takk for hjelpen, men det er egentlig ikke det jeg er ute etter.
ok, så det kan være lurt å redigere spørsmålet ditt og gjøre målene dine klare, slik at brukerne kan gi mer meningsfylte svar. eller du bare ønsket å bekrefte at det ikke er noe dokumentert format du kanskje har hoppet over?


Denne spørsmålet ble automatisk oversatt fra engelsk.Det opprinnelige innholdet er tilgjengelig på stackexchange, som vi takker for cc by-sa 3.0-lisensen den distribueres under.
Loading...