DSpace Demo
http://demo.dspace.keep.pt:80
O repositório captura, armazena, indexa, preserva e distribui publicações científicas da universidade em formato digital.2024-03-29T11:15:19ZPreservação de longa duração de informação digital no contexto de um arquivo histórico
https://demo.dspace.keep.pt/123456789/213
Título: Preservação de longa duração de informação digital no contexto de um arquivo histórico
Autor: Ferreira, Miguel
Resumo: Ao longo do século XX, a humanidade assistiu à massificação generalizada das tecnologias
digitais. Estas encontram-se presentes em todos os quadrantes do mundo civilizado e
suportam grande parte da actividade humana. Actividades tão dispares como consultar as
horas ou planear uma missão espacial a Marte são, hoje em dia, inteiramente suportadas por
tecnologias digitais.
A expansão das tecnologias digitais conduziu inevitavelmente a um aumento da produção de
informação digital. Este tipo de informação acarreta consigo um problema que coloca em risco
a sua acessibilidade a longo-prazo. Este tipo de material, embora possa ser copiado infinitas
vezes sem perder qualidade, requer a presença de um contexto tecnológico, hardware e/ou
software, para que possa ser interpretado de forma inteligível por um ser humano. Esta
dependência torna-o vulnerável à rápida obsolescência a que a tecnologia está sujeita, dado que
nem sempre os novos desenvolvimentos garantem a compatibilidade com tecnologias
precedentes.
No sentido de mitigar o problema da obsolescência tecnológica e garantir o acesso continuado
à informação digital foram apontadas diversas estratégias de preservação de informação digital,
como por exemplo: a emulação, a migração de formatos e o encapsulamento. Apesar dos
inúmeros progressos verificados neste domínio, continua a existir um vazio assinalável no que
diz respeito à automatização de estratégias de preservação. Paralelamente, questões
relacionadas com a autenticidade dos materiais, a validação de estratégias de preservação e a
necessidade, sempre crescente, de reduzir custos assumem particular destaque na lista de
preocupações dos profissionais da ciência da informação.
Este projecto de investigação visa atenuar o conjunto de problemas previamente enumerados,
dando especial ênfase à automatização de processos de preservação baseados em migração de
formatos. De forma a dar resposta a esta necessidade, foi desenvolvida uma Arquitectura
Orientada ao Serviço (SOA) capaz de auxiliar organizações e/ou indivíduos na implementação
de intervenções de preservação. O sistema desenvolvido é constituído por um conjunto de
componentes, fisicamente distribuídos, que são capazes de realizar o seguinte conjunto de
actividades: executar acções de preservação baseadas em migração de formatos (conversão);
determinar a quantidade de informação, propriedades significativas e funcionalidades perdidas durante uma migração (controlo de qualidade); produzir relatórios que possam ser utilizados
como metainformação de preservação e que documentam a intervenção de preservação
(autenticidade); e fornecer sugestões de formatos de destino e/ou serviços de conversão que
maximizem a satisfação da entidade-cliente (selecção de alternativas de migração).
O sistema desenvolvido foi avaliado no que diz respeito à sua capacidade de produzir
recomendações de alternativas de migração capazes de satisfazer os requisitos de preservação
manifestados por uma entidade-cliente. A avaliação incidiu ainda sobre a capacidade
demonstrada pelo sistema em aferir o nível de degradação incorrido num objecto digital
durante uma migração de formato, especialmente no que toca a propriedades significativas de
carácter subjectivo.
O sistema foi avaliado recorrendo a colecções de teste constituídas por imagens matriciais em
diferentes formatos. Os resultados obtidos demonstram que o sistema é capaz de determinar
eficazmente a similaridade gráfica entre imagens, apresentando valores de correlação
superiores a 0.81 entre as opiniões produzidas por avaliadores humanos e métodos
automáticos de cálculo de similaridade. No que toca à capacidade do sistema em determinar o
nível de deterioração da metainformação embebida nas imagens, este apresentou valores de
correlação acima dos 0.96 entre os valores produzidos pela métrica de Jaccard ’ e os valores
de referência associados à colecção de teste.
As experiências realizadas em torno do sistema de recomendação permitiram concluir que os
serviços de migração sugeridos por este componente (tendo por base informação recolhida a
partir de migrações anteriores) possuem um elevado nível de correlação com as
recomendações ideais calculadas para cada objecto digital pertencente à colecção de teste. Os
testes realizados resultaram em valores de correlação compreendidos entre 0.68 e 0.85 com um
erro de precisão máximo de 34.9%.
Os principais contributos desta investigação são: a capacidade de preservar objectos digitais
recorrendo a conversão de formatos sem que haja necessidade de implementar complexos
sistemas de migração; a capacidade de obter relatórios detalhados sobre a migrações realizadas
permitindo, assim, documentar todo o processo de preservação e deste modo assegurar a
autenticidade dos materiais; e a possibilidade de comparar diferentes alternativas de migração e
identificar de forma objectiva qual destas é a mais adequada para satisfazer as necessidades de
uma organização.; During the second half of the 20th century, mankind has passively witnessed the worldwide
proliferation of digital technologies. These technologies are currently present in every aspect
of today’s civilized life and natively support a great deal of human activities. Distinct actions
such as telling the time or planning a mission to Mars are now entirely supported by digital
technologies. This growth has been accompanied by an overwhelming expansion of digital
information.
Digital information has a lot of advantages over traditional analogue information. However, it
carries a structural problem that may hinder its accessibility in the long run. Digital
information requires the presence of a technological environment (hardware and/or software)
in order to be adequately rendered for human consumption. This technological dependency
makes it vulnerable to the rapid evolution of digital technologies as well as technological
ruptures caused by non-retrocompatible developments.
To insure the continuous access to digital information, several strategies have been proposed:
emulation, format migration, encapsulation, etc. However, there is still a great deal of work to
be done in what concerns making these processes more automatic and user-friendly.
Moreover, issues regarding the authenticity of digital materials have always been a concern for
information science professionals.
This thesis aims at solving the previously outlined issues, focusing especially on the
automation of migration-based preservation strategies. In order to accomplish this goal, we
have developed a Service Oriented Architecture (SOA) specially designed to assist cultural
heritage institutions in the implementation of preservation interventions. The proposed SOA
delivers a recommendation service and a method to carry out complex format migrations. The
recommendation service is supported by three evaluation components that assess the quality
of every migration intervention in terms of its performance, suitability of involved formats and
data loss. The proposed system is also able to produce preservation metadata that can be used
by any client institution to document preservation interventions and retain objects’
authenticity. The system has been evaluated in what concerns its ability to produce suggestions of migration
services that maximize the preservation requirements of any given client institution. The
evaluation process also focused the system’s ability to determine the level of degradation
imposed to a digital object during a migration process, especially in what concerns its
subjective significant properties, i.e., pixel correctness and embedded metadata.
The system was evaluated using datasets of raster images encoded in several formats. The
results of this research show that the proposed system is capable of effectively calculating the
similarity between digital images, revealing a correlation value superior to 0.81 between
automatic similarity algorithms and the mean opinions scores provided by human evaluators.
In what concerns the system’s ability to determine the level of degradation occurred in the
image metadata, the system showed correction values above 0.96 while using a modified
version of the Jaccard similarity metric.
The recommendation system showed a level of correlation of 0.68 to 0.85 (with a maximum
precision of 34.9%) when suggestions based on previously executed migrations were
compared with the ideal rankings of migration services calculated specifically for a given
object.
The main contributions of this research are: the ability to preserve digital information using a
format migration strategy without having to deploy complex migration systems; the ability to
obtain detailed migration reports that document the entire preservation intervention which can
be used as preservation metadata to ensure information authenticity; and the possibility of
comparing and assessing different migration options and objectively choose the one that
maximises the satisfaction of a client institution.
Descrição: Tese de Doutoramento em Tecnologias e Sistemas de Informação (ramo de conhecimento em Sociedade da Informação)2009-07-16T00:00:00ZAutomated watch for digital preservation
https://demo.dspace.keep.pt/123456789/214
Título: Automated watch for digital preservation
Autor: Faria, Luís Francisco da Cunha Cardoso de
Resumo: The current extensive growth of digitally created documents is an obvious effect of the global tendency towards the
digital technology. Replacing paper with digital documents has become a common activity in all kinds of public
institutions and businesses, on which many already completely eradicated the use of paper and other analogue media.
European policies, such as eGovernment, urge for the public administration to cease the use of analogue media and
provide all services and documentation in digital form.
But documents in digital form are much more perishable than their paper counterparts and it is not obvious for the
users that keeping a digital document accessible for several decades is a very different task than safekeeping paperbased
documents. Furthermore, some aspects that a user will consider maintained when keeping the physical form
of the paper do not behave the same way when the information is in digital form. Authenticity is one of these aspects,
and it is crucial in some domains where the information has no value to be kept if the power to serve as evidence is
lost. The digital preservation field tries to tackle all these problems.
The main problem in digital preservation relates with the ever-changing technological environment with which the documents
must be compatible to be accessible by users. Part of the solution must include the detection of these changes
by continuously monitoring the documents, their users, and the technological, organisational, financial, legal, social
and even political environment, to detect preservation threats. However, the volume and heterogeneity of documents
make manual monitoring of all relevant aspects of the world infeasible. Moreover, current practice is limited to monitoring
influencers of a very reduced set of domains, specifically file format obsolescence, ignoring others that might
introduce threats.
This work focuses on creating automatic and systematic ways to monitor the environment on a wide set of domains
and provide a valuable input for digital preservation threat detection and assessment. It does so by inquiring the
community about their view on the preservation threat importance and the methods used to effectively detect and
monitor the threats. Then, an approach for automatic threat detection is laid out and implemented, focusing on the
most important and neglected threats. Finally, the approach is validated against real world problems, proving to be a
successful approach for scalable and automatic preservation watch.; O elevado crescimento do número de documentos criados digitalmente nos últimos anos, é um claro efeito da atual
tendência global para a utilização da tecnologia digital. A substituição do papel pelo formato digital nas instituições e
empresas tornou-se comum, sendo certo que algumas delas erradicaram já a utilização do papel e outros suportes
analógicos do seu quotidiano. As políticas europeias que têm vindo a ser adotadas — tal como o Governo Eletrónico
— incentivam a administração pública a abandonar a utilização de suportes analógicos, substituindo-os pelo formato
digital, tendo as entidades públicas passado a prestar os seus serviços e a disponibilizar a documentação de forma
eletrónica.
Todavia, os documentos em formato digital são mais efémeros que os seus análogos em papel, não sendo, contudo,
óbvio para o utilizador comum que a preservação de um documento digital por dezenas de anos seja uma tarefa
muito diferente da conservação de documentos em papel. Na verdade, algumas características que o utilizador
comum considera implicitamente preservadas ao conservar a forma física do papel, não permanecem do mesmo
modo quando a informação é mantida em formato digital: a autenticidade é uma dessas características, sendo
crucial nos domínios em que o valor da informação é proporcional ao seu valor probatório.
O principal problema da preservação digital prende-se com a volatilidade do ambiente tecnológico e com o qual os
documentos necessitam de manter compatibilidade. Parte da solução deverá passar pela monitorização destas mudanças,
através da vigilância contínua dos documentos, dos seus utilizadores e também do ambiente tecnológico,
organizacional, financeiro, legal, social e até político, de modo a detetar quais as ameaças à preservação dos documentos.
Contudo, o volume e heterogeneidade dos documentos digitais tornam impraticável a monitorização de todos os fatores
externos relevantes para a preservação digital. Aliás, atualmente a monitorização é limitada à análise de influências
pertencentes a um conjunto reduzido de domínios, especialmente ligados à obsolescência de formatos, ignorando
outros que podem revelar ameaças à preservação dos documentos.
O presente trabalho dedica-se ao estudo de mecanismos sistemáticos e automáticos de monitorização do ambiente
num conjunto alargado de domínios e de modo a fornecer a informação necessária para a deteção e avaliação das
ameaças à preservação digital. Primeiramente, a comunidade é inquirida sobre a sua perspetiva quanto à importância
das várias ameaças à preservação digital e quais os métodos utilizados para detetar se tais ameaças afetam o conteúdo
digital. De seguida, é apresentada uma nova abordagem para deteção automática de ameaças à preservação
do conteúdo digital, focalizada nas ameaças mais importantes e negligenciadas. Finalmente, a nova abordagem
é validada perante cenários reais, provando, assim, ser uma proposta viável de monitorização automática para a
preservação digital.
Descrição: Doctorate Thesis (Doctoral Program on Informatics)2017-09-28T00:00:00ZAnotação estrutural de documentos e sua semântica : especificação da sintaxe, semântica e estilo para documentos
https://demo.dspace.keep.pt/123456789/212
Título: Anotação estrutural de documentos e sua semântica : especificação da sintaxe, semântica e estilo para documentos
Autor: Ramalho, José Carlos
Descrição: Tese de doutoramento em informática2000-01-01T00:00:00ZD2.1 : baseline study of stakeholder & stakeholder initiatives
https://demo.dspace.keep.pt/123456789/211
Título: D2.1 : baseline study of stakeholder & stakeholder initiatives
Autor: Ferreira, Miguel; Faria, Luís; Silva, Hélder
Resumo: To initiate the Engagement work package in 4C, a baseline group of stakeholders was identified and an analysis of significant cost modelling and economics-related work in the field of digital curation has been carried out. Also, a small questionnaire has been sent to stakeholders in order to engage them in the project and to better understand their current state of practice in assessing digital curation costs.
As such, this document reports on task 2.1 of the 4C project, i.e. Baseline study of stakeholders and initiatives on the domain of digital curation costs; and includes the results of the following subtasks:
1. A collection of relevant work on cost modelling activities in the context of digital curation;
2. An initial registry of stakeholder groups and contacts;
3. The results of the application of a questionnaire sent to stakeholders to grasp the state of practice
and current needs in the field of digital curation costs.2013-07-31T00:00:00Z