Vai al contenuto principale
Oggetto:
Oggetto:

Statistica e bioinformatica (Anno Accademico 2014/2015)

Oggetto:

STATISTICS AND BIOINFORMATICS

Oggetto:

Anno accademico 2014/2015

Codice dell'attività didattica
INT0524
Docente
Dott. Alberto ACQUADRO (Affidamento interno)
Corso di studi
[f056-c502] LM - Biotecnologie vegetali
Anno
2° anno
Tipologia
B - Caratterizzante
Crediti/Valenza
6
SSD dell'attività didattica
SECS-S/02 - statistica per la ricerca sperimentale e tecnologica
Modalità di erogazione
Tradizionale
Lingua di insegnamento
Italiano
Modalità di frequenza
Facoltativa
Tipologia d'esame
Prova pratica
Prerequisiti
Nessuno / None
Oggetto:

Sommario insegnamento

Oggetto:

Obiettivi formativi

-conoscere i principali database bioinformatici sede di informazione biologica

-padroneggiare gli strumenti di "Sequence Retrieval" e gli strumenti di base per ricercare informazioni biologiche nei principali database.

-acquisire autonomia nell'utilizzo di algoritmi di ricerca e analisi (genomica, trascrittomica e proteomica) dell'informazione biologica sia utilizzando strumenti on-line che programmi in locale.

 

Aim of the course is:

 -to know the principals sequence databases

-to use sequence retrieval tools

-to became autonomous in handling search algorithm (for genomics, transcriptomics and proteomics analyses) 

Oggetto:

Risultati dell'apprendimento attesi

Al termine del corso lo studente sarà in grado di utilizzare il sistema operativo Linux, analizzare una sequenza genica (“single gene”) e insiemi di sequenze (“whole genome”). Di seguito sono descritti i risultati nello specifico:

Risultati inerenti l'uso del sistema operativo Linux

-Utilizzare il sistema operativo Linux e i comandi base di Linux da shell (cd, ls, cp, rm, rmd cat, grep, pipe, wc, etc)

-Eseguire il download file,  leggere e modificare i permessi di un file

-Installare i piu comuni programmi di bioinformatica (file binari, .sh, .deb)

-Eseguire delle analisi con i software MIRA, BWA, SamTools, Cufflinks

-Lanciare script Perl (.pl)

Risultati inerenti l'analisi “Single gene”

-Analizzare database primari e secondarie (archival, curated)

-Utilizzare gli operatori Booleiani (AND, OR, NOT) per il sistema genBank

-effettuare una ricerca bibliografica utilizzando le piattaforme: "Web of Science" (WoS), e NCBI (Entrez)

-Analizzare sequenze di DNA e proteiche dal punto di vista strutturale (primario e secondario);

-utilizzare algoritmi di pattern recognition per il riconoscimento di introni/esoni, promotori/terminatori

-isolare "in silico" sequenze ripetute (SSR); riconoscere e mascherare elementi ripetuti (CENSOR)

-analizzare/predire le modificazioni post-traduzionali presenti in una proteina

-allineare (LOCALE E GLOBALE) sequenze proteiche e nucleotidiche

-Disegnare primer per analisi PCR (specifici e degenerati)

Risultati inerenti l'analisi “Whole genome”

-Eseguire una analisi semplificata di assembly di sequenze (genoma/trascrittoma)

-Eseguire una analisi semplificata di SNP mining 

-Eseguire una analisi semplificata di dati RNAseq

-Eseguire una analisi semplificata di dati microarray

-Eseguire una analisi dei dati di spettrometria di massa derivati da un analisi proteomica 2-DE

-Eseguire una analisi semplificata di annotazione mediante Blast2Go

 

At the end of the course the student will be able to use the OS Linux, analyse single gene and whole genome features. The specific learning results are reported in details below:

Results on the use of the Linux operating system

-Use the Linux operating system and basic Linux shell commands (cd, ls, cp, rm, rmd cat, grep, pipes, toilets, etc.)

-Run the download file, read and modify the permissions of a file

-Install the most common bioinformatics programs (binaries. Sh,. Deb)

-Perform the analysis with the software MIRA, BWA, SamTools, Cufflinks

-Launch Perl scripts (. Pl)

Results on the use of single gene analyses

- Analyse primary and secondary sequence databases (archival and curated) using Boolean operator (AND, OR, NOT) - Analyse DNA and protein sequence and predict protein post-translational modifications

-predict intron, exon and regulatory elements using pattern recognition algorithm

-mine SNPs from sequence alignments

-search repetitive elements from genomic database

-design PCR primers (normal and degenerate)

Results on the use of whole genome analyses

-Perform a simplified assembly analysis of DNA/RNA sequences (genome / transcriptome)

-Perform a simplified SNP mining analysis.

-Perform a simplified RNAseq data analysis.

-Perform a simplified microarray data analysis.

-Perform an analysis of mass spectrometry derived data from a proteomic analysis 2-DE

-Perform a gene annotation using the Blast2Go suite

Oggetto:

Modalità di verifica dell'apprendimento

All'inizio di ogni lezione il docente stimolerà la discussione con gli studenti sugli argomenti trattati nelle lezioni precedenti con il fine di chiarire eventuali dubbi e verificare lo stato di apprendimento della classe.

 

At the beginning of each lesson the teacher will stimulate discussion with students on the topics covered in previous lessons with the aim to clarify any doubts and verify the state of learning in the class.

scritta (divisa in domande di teoria ed esercizi al PC)

Oggetto:

Attività di supporto

-Il corso sarà svolto interamente in Aula informatica

-Ogni studente avrà a disposizione un PC (sistemi operativi: Window e Linux)

-Ogni studente avrà a disposizione per il periodo di studio una USB pendrive con il una versione bootable di Ubuntu 12.04

Oggetto:

Programma

Area di formazione generale

-     Introduzione alla bioinformatica.

-     Introduzione al sistema operativo Linux (Ubuntu GUI e shell di comando)

-     Comandi di base (cd, ls, cp, rm, rmd cat, grep, pipe, wc, etc), gestione permessi di un file

-     Installazione  pacchetti e  programmi di bioinformatica

 -     Database primari, secondarie, archival, curated. Confrontro tra Refseq e Genbank, database proteici.

-     Uso degli operatori Booleiani (AND, OR, NOT); Sistemi di RETRIEVAL (Entrez, SRS). Rudimenti di ricerca bibliografica in Web of Science e “Trova unito”

 -     Formati sequenze (descrizione e costruzione di file fasta e GBFF); Costruzione manuale di un file multi fasta; Visualizzazione e manipolazione cromatogrammi (sequence scanner e Bioedit); Sottomissione di sequenze (BANKIT); Formati sequenze NGS (illumina, 454 e Solid)

-     Analisi delle sequenze di DNA; Traduzione concettuale e caratterizzazione degli elementi di una sequenza di DNA genomico e di cDNA; Utilizzo del pattern recognition per il riconoscimento di introni, esoni, di promotori e terminatori; Riconoscimento e mascheramento di elementi ripetuti (CENSOR); SSR mining (Sputnik, misa)

-     Analisi delle sequenze proteiche; Identificazione di una proteina da elementi di sequenza; Analisi della sequenza; Modificazioni post-traduzionali; Predizione della struttura secondaria; strutture proteiche (PDB)

-     Disegno di oligo per mezzo del software Primer3 (single gene, in batch)

-     Ricerche per similarità. Allineamento locale (BLAST e le sue varianti). Allineamento globale (ClustalW di acidi nucleici e proteine).

 -     Manipolazione di SRA (Sequence Reads Archival) – SRA tools

-     Assembly genomico e trascrittomico mediante MIRA3

-     SNP mining  con dati Sanger e formati NGS (454 e Illumina)

-     Allineamenti di sequenza mediante BWA (Burrel wheeler aligner); Transcodifica di formati (Samtools)

-     Analisi dati RNAseq mediante la suite Cufflinks;  Analisi microarray (Genesis): clustering gerarchico e K-means;

-     Analisi Proteomica (2DE) e spettrometria di massa; Analisi dei dati massa mediante Mascot

-     Gene Ontology e arricchimenti nelle funzioni geniche:  Blast2Go

 -     Brevi richiami di statistica descrittiva. Brevi richiami sull’introduzione del calcolo delle probabilità. 

-     Popolazioni gaussiane (normali) e loro proprietà. Quantili. Problemi ed esempi di tipo biologico per popolazioni normali, uso dei relativi comandi Excel. Cenni su altre v.a. continue (t-Student, χ2)

-     I test statistici: ipotesi nulla, significatività, potenza; il p-value. I test t-Student. Esempi e uso dei relativi comandi Excel.

 

 - Introduction to bioinformatics

- Introduction to Linux (Ubuntu GUI and command shell)
- Basic commands (cd, ls, cp, rm, rmd cat, grep, pipes, toilets, etc.)
- Managing permissions of a file
- Installing packages and programs in bioinformatics
- Primary, secondary, archival and curated databases.
- Refseq vs GenBank, protein database.
- Use of booleian operators (AND, OR, NOT); retrieval systems (Entrez, SRS); literature searching (Web of Science and "TROVA UNITO")
- Sequence format (description and construction of fasta and GBF files) 
- Multi fasta file editing, viewing and manipulating chromatograms (Scan sequence and Bioedit); submission of sequences (via BANKIT)
- Analysis of DNA sequences, conceptual translation; characterization of genomic DNA and cDNA sequence elements; pattern recognition for intron, exon, promoter and terminator mining. Recognition and masking of repetitive elements (Censor); SSR mining (Sputnik, Misa)
- Analysis of protein sequences, post-translational modifications, secondary structure prediction and protein structures (PDB)
- Oligo design Primer3 (single gene and in batch)
- Searches for similarities. Local Alignment (BLAST and its variants) global alignment (ClustalW, for nucleic acids and proteins analyses)
- SRA manipulation tools
- Genomic/transcriptomic denovo assembly (MIRA3)
- SNP mining (using Sanger and NGS data)
- BWA alignment of sequences (Burrel Wheeler aligner)
- Microarray analysis (Genesis): hierarchical clustering and K-means; 
- Proteomics analysis (2DE) and mass spectrometry: data generation. Data analysis by Mascot
- Gene Ontology and gene enrichment functions (Blast2Go) 
- Basics on descriptive statistics. 
- Quick reminders on the calculation of probability. 
- Confidence intervals
- Gaussian populations (normal distribution) and their properties. Quantiles.
- Problems and examples of biological populations (use of Excel commands).
- The statistical tests: null hypothesis, significance and p-value. The Student t-test. Examples and use of Excel commands.

Il corso intende illustrare i principali database bioinformatici sede di informazione biologica e gli  strumenti di "Sequence Retrieval" collegatii e gli strumenti di base per ricercare informazioni biologiche.

Il corso intende illustrare l'utilizzo dei principali algoritmi di ricerca e analisi genomica, trascrittomica e proteomica sia utilizzando strumenti on-line che programmi in locale.

 

The course aims to illustrate the major bioinformatics databases based on biological information and tools for "Sequence Retrieval" as well as the basic tools to investigate biological information.

The course aims to illustrate the use of the main searching/analysing algorithms for genomics, transcriptomics and proteomics (using both remote web-based tools and local programs).

Testi consigliati e bibliografia

Oggetto:

:: INTRODUZIONE alla BIOINFORMATICA di Giorgio Valle, Manuela Helmer Citterich Marcella Attimonelli, Graziano Pesole (Zanichelli).

:: Per approfondimenti e integrazioni è fortemente consigliato l’utilizzo del materiale messo a disposizione dal docente durante il corso.

 

 :: INTRODUZIONE alla BIOINFORMATICA di Giorgio Valle, Manuela Helmer Citterich Marcella Attimonelli, Graziano Pesole (Zanichelli).

 :: For further details is strongly suggested to use of the material provided by the teacher during the course.



Oggetto:

Note

Il corso sarà tenuto completamente in aula informatica utilizzando PC con sistema operativo linux.
L'esame sarà scritto con due domanda teoriche e quattro esercizi pratici
 
The course will be taught entirely in computer room using PCs with Linux operating system.
The exam will be written with two theoretical question and four practical exercises
 
Oggetto:
Ultimo aggiornamento: 24/03/2015 16:48
Location: https://www.san.unito.it/robots.html
Non cliccare qui!