| Item type | Location | Call number | Copy | Status | Date due |
|---|---|---|---|---|---|
Tese |
IST - Biblioteca Central IST-Biblioteca Central | 17-11.108809 (Browse shelf) | Apenas consulta local | ||
CD-ROM |
IST - Biblioteca Central IST-BC Depositos | 17-11.108809 (Browse shelf) | Apenas consulta local | ||
Tese |
Reitoria - SDP SDP-Teses | TD043 IST EIC6 2014 (Browse shelf) | 3 | Sem empréstimo | |
CD-ROM |
Reitoria - SDP SDP-Teses | RE 2537 (Browse shelf) | 4 | Sem empréstimo |
A Tese faz-se acompanhar por um CD-ROM que contém (resumo, abstract, Tese definitiva e CV)
Thesis approved in public session to obtain the PhD Degree in Information Systems and Computer Engineering
Tese de doutoramento
Bibliografia: pp.95-99
Resumo: Recentemente tem havido uma intensa investigação para pesquisar factores geneticos que infuenciam fenotipos complexos comuns. A metodologia que e normalmente seguida
para descobrir essas associações entre factores geneticos e fenotipos complexos, como as doenças cancergenas, consiste em efectuar um Estudo de Associação Genetico por Todo
o Genoma (normalmente identicado pela sigla em inglês GWAS). Num GWAS, centenas de milhares de polimorsmos de nucleotido simples (SNPs) são investigados se estão associados com a doenca ou não. Estas análises são normalmente efectuadas executando testes estatísticos SNP a SNP e corrigindo para o problema de testes multiplos. Esta abordagem, contudo, não consegue descobrir interacções entre SNPs o que podera constituir um problema dado que tem sido referido que para o desenvolvimento de doencas complexas como a asma, estarão envolvidos muitos genes com efeitos pequenos em vez de poucos genes com grandes efeitos.
Esta tese tem como objectivo o estudo do problema da detecção de interacções entre SNPs e propor novos metodos para detectar dois tipos de interacções: (1) interacções em
que os SNPs podem ter marginais baixos, moderados ou altos e (2) interacções em que os SNPs têm marginais baixos. Para detectar interacções do primeiro tipo, propomos e descrevemos
um metodo baseado em arvores de decisão, teste exacto de Fisher e testes de permutação. Para detectar interacções do segundo tipo, propomos e descrevemos um metodo baseado em interacção da informação que e capaz de detectar interacções epistaticas, quer em dados artificiais quer em dados reais. Apesar de estarem a ser propostos métodos para
detectar interacções epistáticas com marginais baixas, nos nossos resultados no conjunto de dados de Cancro da Mama, descobrimos que todas as interacções (excepto um SNP
envolvido numa interacção) têm marginais moderados ou altos. Mostramos ainda nesta tese como obter estimativas mais eis dos valores-p associados as interacções, mesmo com
um numero reduzido de testes de permutação.
Os métodos desenvolvidos foram aplicados em conjuntos de dados artificiais e ao conjunto de dados de Cancro da Mama do Consorcio de Casos e Controlos do Wellcome Trust.
Abstract: In recent years there has been intense research aimed at nding genetic factors that influence common complex traits. The approach that is commonly followed to discover those
associations between genetic factors and complex traits such as cancer diseases is to perform a Genome-Wide Association Study (GWAS). In a GWAS, hundreds of thousands of
Single Nucleotide Polymorphisms (SNPs) are investigated to nd whether they are associated with the disease. These analyses are usually done performing SNP-by-SNP statistical
tests and correcting for the multiple testing problem. This approach is not able to find interactions between SNPs. This can be a problem since it is known that several genes with
small eects might be involved in the development of complex diseases such as asthma, instead of few genes with high eects.
This thesis aims at studying the problem of nding interactions between SNPs and proposing new methods to detect two types of interactions: (1) interactions in which SNPs can have low, moderate or large marginals and (2) interactions in which SNPs have low marginals. To detect interactions of the former type, we propose and describe a method based on decision trees, Fisher's exact test and permutation testing. To detect interactions with low marginals we present a method based on information interaction that is able tofind epistatic interactions in both articial and real datasets. Even though methods are
being developed to nd epistatic interactions with low marginals, in our results on the Breast Cancer dataset, we found that all interactions (except one SNP in one interacton) have moderate or high marginals. In this thesis we show in addition how to get more reliable p-value estimates associated to interactions, even with a low number of permutation tests.
The developed methods have been applied to simulated datasets and to the Wellcome Trust Case Control Consortium Breast Cancer Dataset.
Referências bibliográficas: Anunciação, Orlando Miguel Cruz da.
Application of data mining techniques to identify disease susceptibility from genotype data.Lisboa:Universidade de Lisboa,Instituto Superior Técnico.2014.Tese de doutoramento.
Inglês.
Click on an image to view it in the image viewer