Vai al contenuto principale
Oggetto:
Oggetto:

Bioinformatica e statistica

Oggetto:

Statistics and bioinformatics

Oggetto:

Anno accademico 2024/2025

Codice attività didattica
SAF0037
Docente
Alberto Acquadro (Affidamento interno)
Corso di studio
[056502] BIOTECNOLOGIE VEGETALI
Anno
1° anno
Periodo
Secondo semestre
Tipologia
B - Caratterizzante
Crediti/Valenza
6
SSD attività didattica
SECS-S/02 - statistica per la ricerca sperimentale e tecnologica
Erogazione
Convenzionale
Lingua
Italiano
Frequenza
Facoltativa
Tipologia esame
Scritto
Prerequisiti

Non vi sono prerequisiti. Il programma proposto consentirà anche a coloro che non hanno precedentemente maturato conoscenze disciplinari di raggiungere gli obiettivi formativi indicati. Potranno essere consigliate letture integrative


There are no prerequisites. The proposed program will also allow students who have not previously achieved knowledge to achieve the specified learning objectives. Supplementary readings may be recommended.

Oggetto:

Sommario insegnamento

Oggetto:

Obiettivi formativi

L'insegnamento si inserisce nel generale obiettivo del corso di studio di fornire conoscenza riguardo agli strumenti necessari per l'elaborazione di dati biologici e molecolari quali quelli generati dagli approcci "omici" (e.g.: genomica e trascrittomica), con particolare riferimento alle specie di interesse agrario, e dei microrganismi, nell'ottica di un loro utilizzo nel settore delle biotecnologie. I contenuti dell'insegnamento rientrano nell'area di formazione generale.

 In particolare l'insegnamento permetterà agli studenti e alle studentesse di:
-conoscere i principali database bioinformatici sede di informazione biologica
-padroneggiare gli strumenti di "Sequence Retrieval" e di base per ricercare informazioni biologiche nei principali database.
-acquisire autonomia nell'utilizzo di algoritmi di ricerca e analisi (genomica, trascrittomica) dell'informazione biologica sia utilizzando strumenti on-line che programmi in locale.

 

This course objectives fit with the general objectives of the Biotechnology Course aimed at providing knowledge on biological and molecular data emerging through "-omics" approaches (eg: genomics and transcriptomics), and the tools necessary for their processing. Particular emphasis will be granted to data from crop species and micro-organisms, in the light of for their biotechnological exploitation. The teaching content falls under the general education area.

Aim of the course is:
 -to know the principals sequence databases
-to use sequence retrieval tools
-to became autonomous in handling search algorithm (for genomics, transcriptomics analyses) 

 

Oggetto:

Risultati dell'apprendimento attesi

Conoscenze e capacità di comprensione
- Muoversi in un sistema operativo Linux-based
- Conoscere e consultare database primari e secondari (archival, curated)
- Conoscere le sequenze di DNA dal punto di vista strutturale
- Conoscere i procedimenti per manipolare sequenze NGS
- Conoscere i metodi per assemblare sequenze di DNA
- Conoscere i procedimenti di analisi per il ri-sequenziamento genomico/trascrittomico
- Conoscere i procedimenti di clustering di dati di espressione genica 

Capacità di applicare conoscenze e comprensione
Alla fine dell'insegnamento gli studenti e le studentesse saranno in grado di:
-Utilizzare il sistema operativo Linux e i comandi base di Linux da shell (e.g.: cd, ls, cp, rm, cat, grep, pipe, wc)
-Eseguire il download di file da un terminale, leggere e modificare i permessi di un file
-Installare i piu comuni programmi di bioinformatica (file binari, .sh, .deb)
-Eseguire delle analisi con i software Velvet, BWA, SamTools, Bowtie2
-Lanciare script Perl (.pl)
-Utilizzare gli operatori Booleiani (AND, OR, NOT) per il sistema genBank
-utilizzare algoritmi di pattern recognition per il riconoscimento di introni/esoni, promotori
-allineare (LOCALE E GLOBALE) sequenze proteiche e nucleotidiche
-Disegnare primer per analisi PCR
-Eseguire una analisi semplificata di assembly di sequenze (genoma/trascrittoma)
-Eseguire una analisi semplificata di SNP mining 
-Eseguire una analisi semplificata di dati RNAseq


Autonomia di giudizio
Alla fine dell'insegnamento gli studenti e le studentesse saranno in grado di:
- Identificare geni coinvolti in un fenomeno biologico
- Identificare forme alleliche e discriminarle da errori di sequenza
- Ipotizzare co-regolazioni geniche
- Valutare l'efficacia di un processo di assemblaggio genomico

Abilità comunicative
Alla fine dell'insegnamento le studentesse e gli studenti saranno in grado di:
- riportare i risultati di un'interrogazione di un database genico/genomico
- riportare i risultati di un'esperimento di assemblaggio genomico o di risequenziamento.

Capacità di apprendimento
Alla fine dell'insegnamento gli/le studenti/studentesse saranno in grado di padroneggiare alcuni concetti teorici (e.g.: allineamento di sequenze, assemblaggio genomico, identificazione di varianti, analisi dell'espressione) e di applicarli autonomamente alle specie di interesse. Ciò permetterà loro di intraprendere i percorsi successivi con un buon grado di autonomia

 

Knowledge and understanding
At the end of the course the student will be able to:
- Moving on a Linux-based operating system
- Learn and consult primary and secondary databases (archival, curated)
- Know DNA sequences from a structural point of view
- Know the procedures for manipulating NGS sequences
- Know the methods for assembling DNA sequences
- Know the analytical procedures for genomic / transcriptional re-sequencing
- Understand gene expression data by clustering algorithms

Ability to apply knowledge and understanding
By the end of the course, students will be able to:
- Use the Linux operating system and basic Linux commands from the shell (e.g.: cd, ls, cp, rm, cat, grep, pipe, wc)
- Download files from a terminal, read and change file permissions
- Install the most common bioinformatics programmes (binary files, .sh, .deb)
- Execute analyses with Velvet, BWA, SamTools, Bowtie2 software- Launch Perl scripts (.pl)
- Use Boolean operators (AND, OR, NOT) for the genBank system
- Use pattern recognition algorithms for intron/exon recognition, promoters
- Align (LOCAL AND GLOBAL) protein and nucleotide sequences
- Design primers for PCR analysis
- Perform simplified sequence assembly analysis (genome/transcriptome)
- Perform a simplified analysis of SNP mining 
- Perform a simplified analysis of RNAseq data

 

Making judgments
At the end of the course students will be able to:
- Identify genes involved in a biological phenomenon
- Identify allelic forms and distinguish them from sequence errors
- Hypothesise co-regulations of genes
- Assess the effectiveness of a genomic assembly process 

Communication skills
At the end of the course students will be able to:
- report the results of a genome / genomic database query
- report the results of a genomic assembly or resequencing experiment.

Learning skills
By the end of the teaching, students will be able to master some theoretical concepts (e.g., sequence alignment, genome assembly, variant identification, expression analysis) and apply them independently to the species of interest. This will enable them to embark on subsequent pathways with a good degree of autonomy

Oggetto:

Programma

Area di formazione generale
L'insegnamento intende illustrare i principali database bioinformatici sede di informazione biologica e gli  strumenti di "Sequence Retrieval" collegatii e gli strumenti di base per ricercare informazioni biologiche. L'insegnamento intende illustrare l'utilizzo dei principali algoritmi di ricerca e analisi genomica, trascrittomica, sia utilizzando strumenti on-line che programmi in locale.
L'insegnamento sarà svolto interamente in Aula informatica.

- Introduzione alla bioinformatica.
- Introduzione al sistema operativo Linux (Ubuntu GUI e shell di comando)
- Comandi di base (cd, ls, cp, rm, rmd cat, grep, pipe, wc, etc), gestione permessi di un file
- Installazione  pacchetti e  programmi di bioinformatica
- Database primari, secondarie, archival, curated. Confrontro tra Refseq e Genbank, database proteici.
- Uso degli operatori Booleiani (AND, OR, NOT); Sistemi di RETRIEVAL (Entrez, SRS). 
- Formati sequenze (descrizione e costruzione di file fasta e GBFF); Costruzione manuale di un file multi fasta; Visualizzazione e manipolazione cromatogrammi (sequence scanner e Bioedit); Sottomissione di sequenze (BANKIT); Formati sequenze NGS (illumina, 454 e Solid)
- Analisi delle sequenze di DNA; Traduzione concettuale e caratterizzazione degli elementi di una sequenza di DNA genomico e di cDNA; Utilizzo del pattern recognition per il riconoscimento di introni, esoni, di promotori 
- Analisi delle sequenze proteiche; Identificazione di una proteina da elementi di sequenza;
- Disegno di oligo per mezzo del software Primer3 (single gene, in batch)
- Ricerche per similarità. Allineamento locale (BLAST e le sue varianti). Allineamento globale (ClustalOmega di acidi nucleici e proteine).
- Descrizione ed utilizzo di un genome browser
- Manipolazione di SRA (Sequence Reads Archival) - SRA tools
- Assembly genomico e trascrittomico mediante Velvet
- Annotazione strutturale di una sequenza genomica mediante MAKER e analisi di un file .gff
- Allineamenti di sequenza mediante BWA (Burrel wheeler aligner); Transcodifica di formati (Samtools)
- SNP mining  con dati Sanger e formati NGS (454 e Illumina);  analisi di un file .vcf
- Analisi dati RNAseq mediante Bowtie2 e Gfold;  Analisi cluster dei dati di espressione (Genesis): clustering gerarchico e K-means;
- Annotazione funzionale, Gene Ontology e arricchimenti nelle funzioni geniche
- Brevi richiami di statistica descrittiva. Brevi richiami sull'introduzione del calcolo delle probabilità. 
- Popolazioni gaussiane (normali) e loro proprietà. Quantili. Problemi ed esempi di tipo biologico per popolazioni normali, uso dei relativi comandi Excel. Cenni su altre v.a. continue (t-Student, χ2)
- I test statistici: ipotesi nulla, significatività, potenza; il p-value. I test t-Student. I contenuti saranno approfonditi mediante attività pratiche/esercitazioni (e.g.: risoluzione di problemi al PC).

 

General education area
The course aims to illustrate the major bioinformatics databases based on biological information and tools for "Sequence Retrieval" as well as the basic tools to investigate biological information. The course aims to illustrate the use of the main searching/analysing algorithms for genomics, transcriptomics (using both remote web-based tools and local programs).

- Introduction to bioinformatics
- Introduction to Linux (Ubuntu GUI and command shell)
- Basic commands (cd, ls, cp, rm, rmd cat, grep, pipes, toilets, etc.)
- Managing permissions of a file
- Installing packages and programs in bioinformatics
- Primary, secondary, archival and curated databases.
- Refseq vs GenBank, protein database.
- Use of booleian operators (AND, OR, NOT); retrieval systems (Entrez, SRS).
- Sequence format (description and construction of fasta and GBF files) 
- Multi fasta file editing, viewing and manipulating chromatograms (Scan sequence and Bioedit); submission of sequences (via BANKIT)
- Analysis of DNA sequences, conceptual translation; characterization of genomic DNA and cDNA sequence elements; pattern recognition for intron, exon, promoter and mining. 
- Analysis of protein sequences.
- Oligo design Primer3 (single gene and in batch)
- Searches for similarities. Local Alignment (BLAST and its variants) global alignment (ClustalOmega, for nucleic acids and proteins analyses)
- Description and use of a Genome Browser 
- SRA manipulation tools
- Genomic/transcriptomic denovo assembly (Velvet, Bowtie2 and Gfold)
- Structural genome sequence annotation using MAKER and analysis of a .gff file
- SNP mining (using Sanger and NGS data), and analysis of a .vcf file
- BWA alignment of sequences (Burrel Wheeler aligner)
- Hierarchical clustering and K-means data analysis (Genesis).
- Functional annotation, Gene Ontology and gene enrichment functions
- Basics on descriptive statistics. 
- Quick reminders on the calculation of probability. 
- Confidence intervals
- Gaussian populations (normal distribution) and their properties. Quantiles.
- Problems and examples of biological populations (use of Excel commands).
- The statistical tests: null hypothesis, significance and p-value. The Student t-test. The contents will be studied in depth through practical activities/exercises (e.g .: PC exercises).

Oggetto:

Modalità di insegnamento

L'insegnamento sarà tenuto completamente in aula informatica utilizzando PC dotati di macchina virtuale con sistema operativo Linux (Ubuntu). Per le lezioni  il docente si avvale di presentazioni e slide che sono a disposizione degli studenti/studentesse.

The course will be taught entirely in a computer room using PCs with Virtual machines running a Linux operating system (Ubuntu). For lectures, the teacher uses presentations and slides that are available to students.

Oggetto:

Modalità di verifica dell'apprendimento

In itinere
All'inizio di ogni lezione il docente stimolerà la discussione sugli argomenti trattati nelle lezioni precedenti con il fine di chiarire eventuali dubbi e verificare lo stato di apprendimento degli/delle studenti/studentesse.


Esame finale
L'esame finale sarà scrittosulla piattaforma didattica Moodle, e articolato in due parti (teorica e pratica), che si svolgeranno una di seguito all'altra. La somma delle due parti comporrà il voto finale:
 
1 - Parte teorica - 31 domande (test su Moodle)
Tempo massimo: 35 minuti; Punteggio: 15 pt

2 - Parte pratica - 2-3 esercizi da svolgere sulla VM (o su windows) con risultati da riportare su Moodle
Tempo massimo: 120 minuti; Punteggio: 15 pt

 
La prova verrà valutata con un punteggio compreso fra 0 e 30. Tutti i quesiti dell'esame verteranno su tematiche che sono state trattate durante l'insegnamento ed applicate durante le attività esercitative. La durata massima della prova sarà di 2 ore e 35 minuti.

 

  

In itinere
At the beginning of each lesson, the teacher will stimulate discussion with students on the topics covered in previous lessons with the aim to clarify any doubts and verify the state of learning in the class.

Final Examination
The final exam will be written, on the Moodle teaching platform, and divided into two parts (theoretical and practical), which will take place one after the other. The sum of the two parts will compose the final grade:

1 - Theoretical part - 31 questions (test on Moodle).
Maximum time: 35 minutes; Score: 15 pts
2 - Practical part - 2-3 exercises to be done on the VM (or Windows) with results to be reported on Moodle
Maximum time: 120 minutes; Score: 15 pts

The test will be scored between 0 and 30. All questions in the exam will be on topics that were covered during the teaching and applied during the exercise activities. The maximum duration of the test will be 2 hours and 35 minutes.

 

Oggetto:

Attività di supporto


-L'insegnamento sarà svolto interamente in Aula informatica
-Ogni persona avrà a disposizione un PC (sistemi operativi: Window e Linux su macchina virtuale)
-Ogni persona avrà a disposizione per il periodo di studio una "Virtual Machine" come sistema operativo portatile corredata di dati e programmi preinstallati oppure sarà suggerita l'installazione di WSL su windows corredati dei programmi utili per l'insegnamento (tutto il meteriale necessario arà fornito tramite Moodle). 
- Le lezioni saranno registrate (schermo e voce)  e disponibili, insieme a tutto il materiale presentato in aula, sulla piattaforma Moodle

  

-The course will take place entirely in the computer classroom
-Any student will have a PC (operating systems: Windows and Linux on a virtual machine)
-Each student will be provided with a "Virtual Machine" for the study period as a portable operating system with pre-installed data and programs, or it will be suggested to install WSL on Windows with the useful programs for teaching (all the necessary material will be provided via Moodle).
- Lessons will be recorded (screen and voice) and available, along with all the material presented in the classroom, on the Moodle platform.
 

Testi consigliati e bibliografia

Oggetto:

Per la preparazione all'esame finale, è messo a disposizione il materiale presentato dal docente durante le lezioni (presentazioni pdf e registrazioni audio-video delle lezioni).

 

For final exam preparation, is made available the material presented by the teacher during the course (pdf presentations and audio-video recordings of the lectures).



Registrazione
  • Aperta
    Oggetto:
    Ultimo aggiornamento: 10/09/2024 15:01
    Location: https://www.bv.unito.it/robots.html
    Non cliccare qui!