Data Sense - um sistema informático de identificação, categorização e criação de relações entre dados sensíveis
Luís Marques, responsável técnico do projeto |
|
O Data Sense visa criar um sistema informático que permita a identificação, categorização e criação de relações entre dados considerados sensíveis, de forma a possibilitar às organizações o seu entendimento e a poderem conhecer, de modo imediato, o conteúdo de dados que armazenam e processam.
Enquadramento
No contexto da sociedade atual totalmente virada para a informação e para a comunicação de dados gerados a partir de inúmeras fontes e entidades e que geram, múltiplos documentos com diversas origens e finalidades, é normal que uma grande parte destes documentos contenham informação confidencial e/ou sensível. É também natural, que com o passar do tempo, as organizações arquivem um vasto número de documentos, levando a uma perda do controle sobre o conteúdo dos mesmos.
No passado, nos documentos cujo acesso era suposto ser público, eram identificados, manualmente, os dados de natureza sensível que eram relativos a entidades ou indivíduos. Recentemente, foram implementadas ferramentas que auxiliam o processo de identificação de alguns dados sensíveis em especial informação documental estruturada como e-mails, moradas, números de telefone ou cartões de crédito, deixando, no entanto, por identificar, outros dados sensíveis de cariz textual e não estruturado como nomes, informação médica, registos criminais ou preferências religiosas ficando ao cuidado da expertise humana a sua respetiva identificação.
Acresce ainda que o armazenamento da informação pode ser feito de forma estruturada, mantendo uma base de dados que permita identificar dados sensíveis, ou de forma não estruturada, em que a informação sensível está dispersa em documentos de difícil interpretação digital.
O atual processo manual ou semi-automático de preservação documental sofre de vários problemas que afetam especialmente o tratamento da informação confidencial ou sensível, tais como a identificação de dados sensíveis em documentos requerer intervenção humana que é cara e com propensão à geração de erros e a identificação de dados sensíveis em documentos em larga escala não permitir uma abordagem que dependa da expertise humana para a sua identificação e relação.
Nos últimos anos, a criação, processamento e análise de grandes volumetrias de dados, passou a ser uma prática nas organizações de forma a explorar essa informação para fins comerciais e para vantagens competitivas. O problema é que, com essa criação e armazenamento de dados actuais, surgiram novos desafios. Um deles é o de gestão dos dados sensíveis, que podem incluir desde a simples morada ou número de cartão do cidadão, até registos biométricos e médicos guardados nos arquivos das empresas.
Essa gestão de dados sensíveis irá tornar-se cada vez mais uma prioridade para a sociedade, desde logo por imposição legal europeia, mas também por imposição da sociedade civil que pretende ver clarificada a forma como os seus dados são tratados e processados e torná-los sua propriedade em vez de propriedade das organizações.
O Projeto
Face a estes desafios, urge às organizações e empresas europeias cumprir os requisitos legais e respeitar a propriedades dos dados sensíveis que, à luz dos novos regulamentos, passarão a ser propriedade dos cidadãos europeus. Neste entendimento, a solução Data Sense será uma ferramenta que, para além de representar um avanço tecnológico muito relevante em relação do estado da arte, dará uma resposta eficiente a estes novos desafios essenciais para todos os países abrangidos pela nova regulamentação, sendo que a única mudança para aplicação do software em cada país adicional será a necessidade de ajuste da língua, já que o conceito e os pilares tecnológicos onde assenta serão sempre os mesmos para qualquer país da União Europeia.
O Data Sense será um software, altamente exportável, que permitirá dar capacidade às organizações de identificar e entender os dados sensíveis que estão na sua posse em informação textual não estruturada (documentos digitais), de forma a cumprir os desígnios legais, de conformidade e de segurança.
Permitirá a identificação, classificação, categorização e relação dos dados sensíveis (Personal Data) presentes em informação não estruturada em larga escala de forma a permitir às entidades e/ou organizações o seu entendimento sem pôr em causa questões de segurança ou confidencialidade e permitirá, às empresas que se foquem nos seus clientes, entender melhor o perfil dos mesmos a partir de informações recolhidas dos dados sensíveis consentidos ou através dos algoritmos de procura de dados.
O projeto Data Sense assentará em 3 camadas essenciais utilizando o potencial atual das tecnologias PLN (Processamento de Linguagem Natural) e os avanços na área de machine learning [Extração da Informação (NER), Desambiguação e Co-referenciação (ARE) e Aprendizagem Automática e Feedback]. Será também caracterizado pela capacidade de aprender com o feedback humano de forma automática, corrigindo e melhorando iterativamente o modelo de Inteligência Artificial que o suporta.
O Apoio do COMPETE 2020
Promovido Link Consulting, S.A., o projeto conta com o apoio do COMPETE 2020 no âmbito do Sistemas de Incentivos à Investigação e Desenvolvimento Tecnológico, envolvendo um investimento elegível de 713 mil euros o que resultou num incentivo FEDER de cerce de 404 mil euros.