Vai al contenuto principale
Oggetto:
Oggetto:

Bioinformatica e statistica

Oggetto:

Statistics and bioinformatics

Oggetto:

Anno accademico 2023/2024

Codice attività didattica
SAF0037
Docente
Alberto Acquadro (Affidamento interno)
Corso di studio
[056502] BIOTECNOLOGIE VEGETALI
Anno
1° anno
Periodo
Secondo semestre
Tipologia
B - Caratterizzante
Crediti/Valenza
6
SSD attività didattica
SECS-S/02 - statistica per la ricerca sperimentale e tecnologica
Erogazione
Convenzionale
Lingua
Italiano
Frequenza
Facoltativa
Tipologia esame
Scritto
Prerequisiti

Non vi sono prerequisiti. Il programma proposto consentirà anche a coloro che non hanno precedentemente maturato conoscenze disciplinari di raggiungere gli obiettivi formativi indicati. Potranno essere consigliate letture integrative


There are no prerequisites. The proposed program will also allow students who have not previously achieved knowledge to achieve the specified learning objectives. Supplementary readings may be recommended.

Oggetto:

Sommario insegnamento

Oggetto:

Obiettivi formativi

L'insegnamento si inserisce nel generale obiettivo del corso di studio di fornire conoscenza riguardo agli strumenti necessari per l'elaborazione di dati biologici e molecolari quali quelli generati dagli approcci "omici" (e.g.: genomica e trascrittomica), con particolare riferimento alle specie di interesse agrario, e dei microrganismi, nell'ottica di un loro utilizzo nel settore delle biotecnologie. I contenuti dell'insegnamento rientrano nell'area di formazione generale.

 In particolare l'insegnamento permetterà agli studenti e alle studentesse di:
-conoscere i principali database bioinformatici sede di informazione biologica
-padroneggiare gli strumenti di "Sequence Retrieval" e di base per ricercare informazioni biologiche nei principali database.
-acquisire autonomia nell'utilizzo di algoritmi di ricerca e analisi (genomica, trascrittomica) dell'informazione biologica sia utilizzando strumenti on-line che programmi in locale.

 

This course objectives fit with the general objectives of the Biotechnology Course aimed at providing knowledge on biological and molecular data emerging through "-omics" approaches (eg: genomics and transcriptomics), and the tools necessary for their processing. Particular emphasis will be granted to data from crop species and micro-organisms, in the light of for their biotechnological exploitation.

Aim of the course is:
 -to know the principals sequence databases
-to use sequence retrieval tools
-to became autonomous in handling search algorithm (for genomics, transcriptomics analyses) 

 

Oggetto:

Risultati dell'apprendimento attesi

Conoscenze e capacità di comprensione
- Muoversi in un sistema operativo Linux-based
- Conoscere e consultare database primari e secondari (archival, curated)
- Conoscere le sequenze di DNA dal punto di vista strutturale
- Conoscere i procedimenti per manipolare sequenze NGS
- Conoscere i metodi per assemblare sequenze di DNA
- Conoscere i procedimenti di analisi per il ri-sequenziamento genomico/trascrittomico
- Conoscere i procedimenti di clustering di dati di espressione genica 

Capacità di applicare conoscenze e comprensione
Alla fine dell'insegnamento gli studenti e le studentesse saranno in grado di:
-Utilizzare il sistema operativo Linux e i comandi base di Linux da shell (e.g.: cd, ls, cp, rm, cat, grep, pipe, wc)
-Eseguire il download di file da un terminale, leggere e modificare i permessi di un file
-Installare i piu comuni programmi di bioinformatica (file binari, .sh, .deb)
-Eseguire delle analisi con i software Velvet, BWA, SamTools, Bowtie2, cuffdiff
-Lanciare script Perl (.pl)
-Utilizzare gli operatori Booleiani (AND, OR, NOT) per il sistema genBank
-effettuare una ricerca bibliografica utilizzando le piattaforme: "Web of Science" (WoS), e NCBI (Entrez)
-utilizzare algoritmi di pattern recognition per il riconoscimento di introni/esoni, promotori
-allineare (LOCALE E GLOBALE) sequenze proteiche e nucleotidiche
-Disegnare primer per analisi PCR
-Eseguire una analisi semplificata di assembly di sequenze (genoma/trascrittoma)
-Eseguire una analisi semplificata di SNP mining 
-Eseguire una analisi semplificata di dati RNAseq
-Eseguire una analisi semplificata di clustering (gerarchico e non gerarchico)

Autonomia di giudizio
Alla fine dell'insegnamento gli studenti e le studentesse saranno in grado di:
- Identificare geni coinvolti in un fenomeno biologico
- Identificare forme alleliche e discriminarle da errori di sequenza
- Ipotizzare co-regolazioni geniche
- Valutare l'efficacia di un processo di assemblaggio genomico

Abilità comunicative
Alla fine dell'insegnamento le studentesse e gli studenti saranno in grado di:
- riportare i risultati di un'interrogazione di un database genico/genomico
- riportare i risultati di un'esperimento di assemblaggio genomico o di risequenziamento.

Knowledge and understanding
At the end of the course the student will be able to:
- Moving on a Linux-based operating system
- Learn and consult primary and secondary databases (archival, curated)
- Know DNA sequences from a structural point of view
- Know the procedures for manipulating NGS sequences
- Know the methods for assembling DNA sequences
- Know the analytical procedures for genomic / transcriptional re-sequencing
- Understand gene expression data by clustering algorithms

Ability to apply knowledge and understanding
At the end of the course the student will be able to:
- Use the Linux operating system and basic Linux shell commands (cd, ls, cp, rm, rmd cat, grep, pipes, toilets, etc.)
- Run the download file, read and modify the permissions of a file
- Install the most common bioinformatics programs (binaries. Sh,. Deb)
- Perform the analysis with the software  Velvet, BWA, SamTools, Bowtie2, cuffdiff
- Launch Perl scripts (. pl)
- Analyse primary and secondary sequence databases (archival and curated) using Boolean operator (AND, OR, NOT)
- Analyse DNA and protein sequence and predict protein post-translational modifications
- predict intron, exon and regulatory elements using pattern recognition algorithm
- mine SNPs from sequence alignments
- search repetitive elements from genomic database
- design PCR primers
- Perform a simplified assembly analysis of DNA/RNA sequences (genome / transcriptome)
- Perform a simplified SNP mining analysis.
- Perform a simplified RNAseq data analysis.
- Perform a simplified clustering (hierarchical and non-hierarchical) analysis. 

Making judgments
At the end of the course students will be able to:
- Identify genes involved in a biological phenomenon
- Identify allelic forms and distinguish them from sequence errors
- Hypothesise co-regulations of genes
- Assess the effectiveness of a genomic assembly process 

Communication skills
At the end of the course students will be able to:
- report the results of a genome / genomic database query
- report the results of a genomic assembly or resequencing experiment.

Oggetto:

Programma

Area di formazione generale
L'insegnamento intende illustrare i principali database bioinformatici sede di informazione biologica e gli  strumenti di "Sequence Retrieval" collegatii e gli strumenti di base per ricercare informazioni biologiche. L'insegnamento intende illustrare l'utilizzo dei principali algoritmi di ricerca e analisi genomica, trascrittomica, sia utilizzando strumenti on-line che programmi in locale.
L'insegnamento sarà svolto interamente in Aula informatica.

- Introduzione alla bioinformatica.
- Introduzione al sistema operativo Linux (Ubuntu GUI e shell di comando)
- Comandi di base (cd, ls, cp, rm, rmd cat, grep, pipe, wc, etc), gestione permessi di un file
- Installazione  pacchetti e  programmi di bioinformatica
- Database primari, secondarie, archival, curated. Confrontro tra Refseq e Genbank, database proteici.
- Uso degli operatori Booleiani (AND, OR, NOT); Sistemi di RETRIEVAL (Entrez, SRS). Rudimenti di ricerca bibliografica in Web of Science e "Trova unito"
- Formati sequenze (descrizione e costruzione di file fasta e GBFF); Costruzione manuale di un file multi fasta; Visualizzazione e manipolazione cromatogrammi (sequence scanner e Bioedit); Sottomissione di sequenze (BANKIT); Formati sequenze NGS (illumina, 454 e Solid)
- Analisi delle sequenze di DNA; Traduzione concettuale e caratterizzazione degli elementi di una sequenza di DNA genomico e di cDNA; Utilizzo del pattern recognition per il riconoscimento di introni, esoni, di promotori 
- Analisi delle sequenze proteiche; Identificazione di una proteina da elementi di sequenza;
- Disegno di oligo per mezzo del software Primer3 (single gene, in batch)
- Ricerche per similarità. Allineamento locale (BLAST e le sue varianti). Allineamento globale (ClustalOmega di acidi nucleici e proteine).
- Descrizione ed utilizzo di un genome browser
- Manipolazione di SRA (Sequence Reads Archival) - SRA tools
- Assembly genomico e trascrittomico mediante Velvet
- Annotazione strutturale di una sequenza genomica mediante MAKER e analisi di un file .gff
- Allineamenti di sequenza mediante BWA (Burrel wheeler aligner); Transcodifica di formati (Samtools)
- SNP mining  con dati Sanger e formati NGS (454 e Illumina);  analisi di un file .vcf
- Analisi dati RNAseq mediante Bowtie2 e cuffDiff;  Analisi cluster dei dati di espressione (Genesis): clustering gerarchico e K-means;
- Annotazione funzionale, Gene Ontology e arricchimenti nelle funzioni geniche
- Brevi richiami di statistica descrittiva. Brevi richiami sull'introduzione del calcolo delle probabilità. 
- Popolazioni gaussiane (normali) e loro proprietà. Quantili. Problemi ed esempi di tipo biologico per popolazioni normali, uso dei relativi comandi Excel. Cenni su altre v.a. continue (t-Student, χ2)
- I test statistici: ipotesi nulla, significatività, potenza; il p-value. I test t-Student. I contenuti saranno approfonditi mediante attività pratiche/esercitazioni (e.g.: risoluzione di problemi al PC),

 

General education area
The course aims to illustrate the major bioinformatics databases based on biological information and tools for "Sequence Retrieval" as well as the basic tools to investigate biological information. The course aims to illustrate the use of the main searching/analysing algorithms for genomics, transcriptomics (using both remote web-based tools and local programs).

- Introduction to bioinformatics
- Introduction to Linux (Ubuntu GUI and command shell)
- Basic commands (cd, ls, cp, rm, rmd cat, grep, pipes, toilets, etc.)
- Managing permissions of a file
- Installing packages and programs in bioinformatics
- Primary, secondary, archival and curated databases.
- Refseq vs GenBank, protein database.
- Use of booleian operators (AND, OR, NOT); retrieval systems (Entrez, SRS); literature searching (Web of Science and "TROVA UNITO")
- Sequence format (description and construction of fasta and GBF files) 
- Multi fasta file editing, viewing and manipulating chromatograms (Scan sequence and Bioedit); submission of sequences (via BANKIT)
- Analysis of DNA sequences, conceptual translation; characterization of genomic DNA and cDNA sequence elements; pattern recognition for intron, exon, promoter and mining. 
- Analysis of protein sequences.
- Oligo design Primer3 (single gene and in batch)
- Searches for similarities. Local Alignment (BLAST and its variants) global alignment (ClustalOmega, for nucleic acids and proteins analyses)
- Description and use of a Genome Browser 
- SRA manipulation tools
- Genomic/transcriptomic denovo assembly (Velvet)
- Structural genome sequence annotation using MAKER and analysis of a .gff file
- SNP mining (using Sanger and NGS data), and analysis of a .vcf file
- BWA alignment of sequences (Burrel Wheeler aligner)
- Hierarchical clustering and K-means data analysis (Genesis).
- Functional annotation, Gene Ontology and gene enrichment functions
- Basics on descriptive statistics. 
- Quick reminders on the calculation of probability. 
- Confidence intervals
- Gaussian populations (normal distribution) and their properties. Quantiles.
- Problems and examples of biological populations (use of Excel commands).
- The statistical tests: null hypothesis, significance and p-value. The Student t-test. The contents will be studied in depth through practical activities/exercises (e.g .: PC exercises).

Oggetto:

Modalità di insegnamento

L'insegnamento sarà tenuto completamente in aula informatica utilizzando PC dotati di macchina virtuale con sistema operativo Linux (Ubuntu). Per le lezioni  il docente si avvale di presentazioni e slide che sono  a disposizione degli studenti/studentesse.

The course will be taught entirely in computer room using PCs with Virtual machines running a Linux operating system (Ubuntu). For lectures the teacher makes use of presentations and slides that are available to students.

Oggetto:

Modalità di verifica dell'apprendimento

In itinere
All'inizio di ogni lezione il docente stimolerà la discussione sugli argomenti trattati nelle lezioni precedenti con il fine di chiarire eventuali dubbi e verificare lo stato di apprendimento degli studenti.


Esame finale
L'esame finale sarà scrittosulla piattaforma didattica Moodle, e articolato in due parti (teorica e pratica), che si svolgeranno una di seguito all'altra. La somma delle due parti comporrà il voto finale:
 
1 - Parte teorica - 31 domande (test su Moodle)
Tempo massimo: 35 minuti; Punteggio: 15,5 pt

2 - Parte pratica - 2-3 esercizi da svolgere sulla VM (o su windows) con risultati da riportare su Moodle
Tempo massimo: 100 minuti; Punteggio: 15 pt

 
La prova verrà valutata con un punteggio compreso fra 0 e 30. Tutti i quesiti dell'esame verteranno su tematiche che sono state trattate durante l'insegnamento ed applicate durante le attività esercitative. La durata massima della prova sarà di 2 ore e 15 minuti.

 

  

In itinere
At the beginning of each lesson, the teacher will stimulate discussion with students on the topics covered in previous lessons with the aim to clarify any doubts and verify the state of learning in the class.

Final Examination
The final exam will be written, on the Moodle teaching platform, and divided into two parts (theoretical and practical), which will take place one after the other. The sum of the two parts will compose the final grade:

1 - Theoretical part - 31 questions (test on Moodle).
Maximum time: 35 minutes; Score: 15.5 pts
2 - Practical part - 2-3 exercises to be done on the VM (or Windows) with results to be reported on Moodle
Maximum time: 100 minutes; Score: 15 pts

The test will be scored between 0 and 30. All questions in the exam will be on topics that were covered during the teaching and applied during the exercise activities. The maximum duration of the test will be 2 hours and 15 minutes.

 

Oggetto:

Attività di supporto


-Il corso sarà svolto interamente in Aula informatica
-Ogni persona avrà a disposizione un PC (sistemi operativi: Window e Linux su macchina virtuale)
-Ogni persona avrà a disposizione per il periodo di studio una "Virtual Machine" (Virtual box) come sistema operativo portatile corredata di dati e programmi preinstallati oppure, una USB pendrive con il una versione bootable di Ubuntu 15.04
- Le lezioni saranno registrate (schermo e voce)  e disponibili, insieme a tutto il materiale presentato in aula, sulla piattaforma Moodle

  

-The course will take place entirely in the computer classroom
-Any student will have a PC (operating systems: Window and Linux on virtual machine)
-Any student will received, for the study period, a Virtual Machine as a portable operating system with preinstalled data and programs or a USB flash drive with a bootable version of Ubuntu 15.04
- Lessons will be recorded (screen and voice) and available, along with all the material presented in the classroom, on the Moodle platform.
 

Testi consigliati e bibliografia

Oggetto:

Per lo studio a casa è messo a disposizione il materiale presentato dal docente durante le lezioni (presentazioni pdf e registrazioni audio-video delle lezioni).

 

For home study is made available  the material presented by the teacher during the course (pdf presentations and audio-video recordings of the lectures).



Oggetto:

Note

Le modalità di svolgimento dell'attività didattica potranno subire variazioni in base alle limitazioni imposte dalla crisi sanitaria in corso. 

 

The way in which the teaching activity is carried out may vary according to the limitations imposed by the current health crisis. 

Registrazione
  • Aperta
    Oggetto:
    Ultimo aggiornamento: 28/09/2023 16:52
    Location: https://www.bv.unito.it/robots.html
    Non cliccare qui!