Jobb gjerne sammen i grupper. Bruk læreboka kapittel 1 og/eller lærebøker fra BIO210 (molekylærbiologi) og KJB200 (biokjemi).
En nukelotid-sekvens beskriver enten et DNA eller et RNA molekyl. Hvilke symboler kan opptre i en nukelotid-sekvens? For å finne ut av dette, prøv å ggogle ‘IUPAC code’. HINT: Det er flere enn 4 symboler…
Sørg for at du er helt sikker på hva som menes med det sentrale dogmet i molekylærbiologien.
Det er ikke bare 1 genetisk kode, og den vi gjerne lærer om kalles the standard code. Bakterier bruker oftest translation table 11. Hva er forskjellen til standard koden?
Vi snakker ofte om genomets GC-innhold. Hvorfor inneholder et genom alltid eksakt like mye G og C?
Hos bakterier kan GC-innhold variere mye. Omtrent hvor ligger ytterpunktene? Er det noen sammenheng mellom bakteriers størrelse og GC-innhold?
Vi har 20 aminosyrer. Eller har vi det? Hva er selenocystein?
Både nukelotid-sekvenser og protein-sekvenser har en definert positiv retning. Hvordan er de definert?
Vi deler gjerne alle levende organismer (genomer) inn i tre domener eller riker (domains or (super)kingdoms). Hva er de tre? Hva er prokaryoter og eukaryoter? Hvis du skulle si noe om forskjellene på genomene til prokaryoter og eukaryoter, hva ville du da peke på?
På side 23 i læreboka er en boks der det sies: “A further warning is required in that even some of the fundamental concepts described in this chapter are much less well defined than might be supposed”. Husk dette! Vi vil nok få se eksempler på dette i BIN210.
Vi regner med at en del av dere har vært innom STIN100, og derfor kjenner bruk av R og RStudio derfra, men siden STIN100 ikke ble obligatorisk før ganske nylig, så antar vi også at en del aldri har kodet i R.
R-lab delen av øvingene i BIN210 er en repetisjon/introduksjon i enkel koding i R og RStudio. Hensikten med dette er dels at alle skal få en viss innsikt i hva koding/programmering er, og dels å vedlikeholde eksisterende ferdigheter. Som med alle ferdigheter må det trenes jevnlig, det hjelper lite med skippertak. Det forutsettes at alle må ha en PC (Windows, Mac eller Linux) og muligheten for å innstallere programmer på denne (admin-rettighet).
Koding er allerede viktig i vårt samfunn. ‘Alle’ bruker moderne IKT verktøy, med langt færre har innsikt i hvordan slike verktøy fungerer og kan bruke de til noe nytt. Stadig sterkere påpekes det at koding bør være et fag i skolen på linje med språk, matematikk og naturfag. Det er også et faktum at kjennskap til programmering går igjen på ønskelistene over hva framtidige jobber krever, spesielt innenfor naturvitenskapelige fag.
R (https://www.r-project.org/) er et verktøy laget for analyse av data. Det betår av et beregnings-miljø som betyr at man får tilgjengelig en stor mengde pakker med mer eller mindre halvferdige løsninger, og så setter man selv sammen programmer (scripts) som kombinerer disse på en måte man selv ønsker for å løse et bestemt problem. Det er utviklet av og for statistikere, men har utviklet seg til et enormt stort bruker-konsortium som strekker seg i mange retninger utover dette. Bioinformatikk er en slik retning. R må sies å være en av standard plattformene som ‘alle’ moderne biologer bør ha en viss kjennskap til.
Den offisielle kilden for R og det meste som finnes av verktøy rundt dette, er samlet i det som kalles The Comprehensive R Archive Network (CRAN, https://cran.r-project.org/). Det er fra denne web-siden du laster ned og innstallerer R på din maskin. Du vil bare trenge enkleste variant av R i BIN210 (ikke noe ekstra for utviklere etc).
Selv om dette skal være relativt rett fram, så vil det alltid være noen som får problemer, så ikke vær redd for å spørre om hjelp (via epost, zoom etc.). Problemer er til for å løses!
Selve R kommer i nye versjoner med ujevne mellomrom, og det kan være lurt å oppdatere seg på dette. Skulle du ha en gammel versjon liggende kan det være lurt å oppdatere seg til en av de siste versjonene nå. Versjon 4 et-eller-annet bør det holde denne våren.
Hvis du har tatt STAT-emner for noenå år siden her på NMBU, så har du trolig brukt R-commander, som gir deg et sett med menyer for statisiske analyser. Vi skal ikke bruke R-commander i BIN210. Tvert i mot, vi kode våre egne løsninger, ikke bare bruke det noen andre har laget for oss! Det er hele poenget med å lære litt koding.
Å kode betyr å skrive programmer, og dette kan i prinsippet gjøres i enhver tekst-behandler. Men, for å gjøre dette på en effektiv måte er det til stor hjelp dersom vi kan bruke det som kalles en IDE (Integrated Development Environment). I en slik IDE kan vi skrive programmer, organisere filer, kjøre og teste programmer, enkelt finne hjelp når vi står fast og installere nye pakker enkelt, samt mye, mye mer. For de som koder i R har RStudio (https://www.rstudio.com/) blitt den dominerende IDE løsningen.
Dersom du søker på nettet (f.eks. YouTube) etter hjelp rundt installasjon av R og RStudio, så finner du raskt masse stoff…
Alle datamaskiner er organisert i et fil-tre. Dette betyr at alle filer ligger i en eller annen mappe (kalles også folder eller directory), og at disse igjen er organisert i et hierarki. Mappe-strukturen er litt ulik mellom de ulike operativ-systemene. En PC som kjører Windows operativ-systemet vil typisk ha en mappe-struktur der C:
er øverste mappe (kan ha flere disker, og dermed flere mappe-strukturer). En Mac eller linux-maskin vil typisk ha /
som øverste mappe (typisk for alle UNIX-systemer).
Når vi skal kode må vi vite eksakt hvor i mappe-strukturen vi til enhver tid befinner oss, og eksakt hvor alle filer vi skal bruke ligger. Hvis du er på en Windows-PC og lagrer en fil under Documents
, eksakt hvor ligger da denne fila egentlig? På min jobb-PC er dette mappen som med fullt navn heter C:\Users\larssn\OneDrive - Norwegian University of Life Sciences\Documents
. Våre moderne operativ-systemer viser ikke uten videre fram hele denne informasjonen, noe som er til besvær når vi skal kode.
Rlab
på din PC, og sørg for at du vet eksakt hvor denne ligger (hele stien fra toppen og ned).TIPS! Lag denne mappen lokalt på din maskin, ikke på en ekstern disk eller sky-tjeneste. For eksempel er stien jeg listet over (den med OneDrive
i seg) en mappe ute i ‘skyen’ et sted. Grunnen er at du da er prisgitt nett-forbindelsen til slike servere. Som regel går det greit, men i starten kan det være lurt å unngå alle slike potensielle ekstra-problemer.
På en windows-PC kan du for eksempel lage mappen slik at stien blir C:\BIN210\Rlab
eller noe slikt. Når jeg heretter skriver $RlabHome
så mener jeg eksakt denne mappen, så du må da bytte ut $RlabHome
med den eksakte stien hos deg.
Ta en titt på filmen How to configure RStudio og konfigurer RStudio etter ditt ønske.
RStudio jobber alltid i en eller annen mappe på din maskin. Sørg for at du alltid starter RStudio i mappen $RlabHome
på din maskin.
Hele R er bygget opp av det vi kaller pakker. En slik pakke er en samling med kode (programmer) for å utføre spesielle jobber. Når du installerer R får du med en del slike pakker, det vi kaller basis-pakkene. Disse inneholder mange standard funksjoner som vi kommer til å bruke mye, men vi vil raskt trenge kode fra andre pakker også.
Ta en titt på filmen installer R pakker som viser hvordan vi kan installere pakken microseq
fra RStudio.
microseq
på din maskin. Denne lille R-pakken har vi laget her på KBM, og den inneholder enkelte funksjoner vi skal gjøre bruk av etterhvert.tidyverse
. Du søker altså etter en ‘pakke’ ved navn tidyverse
akkurat som over, men egentlig blir nå en serie av R-pakker installert, og dette tar litt tid. Disse bruker vi ofte for håndtere og visualisere data.