“AGATHA” Sistema inteligente de análise de fontes abertas

 

O projeto “AGATHA” - Sistema inteligente de análise de fontes de informação abertas para vigilância/controlo de criminalidade, é uma plataforma dirigida às polícias de investigação criminal e serviços de inteligência, facilitadora na recolha de indícios de práticas criminosas ao utilizar a informação disponível em fontes abertas, analisando-as automaticamente. Consideram-se fontes de informação: as redes sociais, fóruns, imagens, informação da blogosfera e demais fontes de informação presentes na web, incluindo fontes de áudio e vídeo.

O sistema terá a capacidade de analisar grandes quantidades de informação e extrair dela relações implícitas, padrões e intervenientes, entre outros, através de módulos dedicados à análise de vídeo e imagem, áudio e texto em diversas línguas, compostos por algoritmos de crawling and data mining, para a recolha dos conteúdos de forma seletiva e direcionada.

Esta obtenção de dados - web crawler, criará cópias dos conteúdos a analisar e processar, indexando-os segundo o formato, fonte ou endereço, etc. para otimização das pesquisas. Estes dados obtidos através do crawler serão guardados na sua forma original (dados Brutos) numa base de dados dedicada/repositório. Serão ainda criadas duas bases de dados adicionais, numa das quais será guardada a mesma informação, mas na forma normalizada, e na outra os dados resultantes da análise de conteúdos efetuada aos dados.

Um dos desafios de monta que se coloca neste projeto prende-se com as opções a tomar para a definição destas bases de dados, que terão de operar de forma inter-relacional e homogeneizada para que seja garantida a correspondência entre toda a informação armazenada relativa aos conteúdos recolhidos, ficando garantida a sua rastreabilidade pesquisas e a meta-data associada aos conteúdos.

Este é um projeto de investigação estratégico para a Compta BS, inserido no desenvolvimento de competências na vertente de Segurança da Sociedade em que estamos ativamente envolvidos.

Sob muitos aspetos é um desafio para todos os participantes do consórcio, dada a necessidade de investigação de áreas neste momento ainda pouco exploradas.

Apesar dos desafios, estamos muito motivados e orientados para os resultados, acreditando no potencial de divulgação da investigação e desenvolvimento de tecnologia portuguesa de futuro e, no caso específico, esperando contribuir ativamente com este projeto para a maior compreensão do fenómeno e consequentemente para melhoria deste vetor específico que se encaixa na vertente de “segurança em sociedade”.

Esta realidade, criada por esta parceria entre as Universidades e o Tecido Empresarial Português, potenciando meios e conhecimento únicos, só foi possível através das sinergias do programa COMPETE 2020.

Finalmente, esperamos que esta investigação dê às forças de segurança uma maior capacidade de investigação e permita uma mais rápida obtenção de resultados, usando para o efeito fontes abertas.

de Emanuel Serrano, Compta Business Solutions

 

Descrição do problema

Nos dias de hoje, a prevenção do crime organizado é uma preocupação constante pela ameaça que este tipo de crime representa ao bem-estar, segurança e confiança dos cidadãos.

A “Era” da informação mostra uma sociedade dependente de redes eletrónicas e sistemas de informação, sempre atenta à evolução da tecnologia de informação e comunicação, e que ao mesmo tempo se expõe a atividades criminosas que ameaçam os cidadãos, empresas, governos e infraestruturas críticas de igual forma: o cibercrime – são todos os atos criminosos praticados online através da utilização de redes de comunicações eletrónicas e sistemas de informação.

O cibercrime não tem fronteiras e pode ser classificado em três grandes grupos:

- Crimes específicos da Internet: tais como, ataques contra os sistemas de informação ou phishing (por exemplo, sites bancários falsos de forma a aceder às contas bancárias das vítimas).

- Fraude e Falsificação online: esquemas de fraude em grande escala podem ser cometidos online através de instrumentos como o roubo de identidade, phishing, spam e código malicioso.

- Conteúdo online ilegal: inclui material de abuso sexual de menores, incitação ao ódio racial, incitamento de atos terroristas e glorificação da violência, terrorismo, racismo e xenofobia.

Entre as práticas que suscitam maior preocupação, envolvendo crime organizado, encontram-se o tráfico de mercadorias e animais, ou mesmo a formação de redes complexas e bastante organizadas para tráfico de seres humanos e a distribuição de pornografia ilegal, incluindo a pornografia infantil. Ultimamente, os atos de terrorismo reivindicados por organizações transnacionais, com reconhecido desempenho político, económico e religioso, apresentam uma organização complexa e de muito difícil controlo.

As novas tecnologias de informação e comunicação têm em grande medida facilitado a atuação destas organizações, permitindo que por detrás da elevada informação presente na web e novos meios sociais, e do elevado número de utilizadores envolvidos, possam ser organizadas ações e efetuadas trocas de informação de forma quase despercebida. As polícias de investigação criminal e serviços secretos sentem muita dificuldade em acompanhar a agilidade com que os membros destas organizações adotam novas ferramentas, e o modo como as colocam ao serviço dos seus propósitos. Assim, é fundamental munir as entidades competentes pelo controlo e prevenção do crime organizado, de ferramentas adequadas para lidar com estas realidades recentes.

 

Projeto

O projeto “AGATHA” - Sistema inteligente de análise de fontes de informação abertas para vigilância/controlo de criminalidade, representará deste modo uma mais-valia fundamental para as equipas de investigação criminal ao criar esta plataforma, que deverá:

- Suportar análise multilingue colaborativa de conteúdos audiovisuais e informações biométricas, através da aplicação de metodologias de Visual Analytics e tecnologias de data mining;

- Integrar tecnologias de base de dados ETL (Extract, Transform and Load), modelação semântica e machine learning de forma a explorar os vários dados a serem recolhidos.

De modo a que o seu desenvolvimento se baseie na:

- Aquisição de dados: recolha de informação a partir de fontes abertas, através de algoritmos de crawling, data mining e ferramentas de ETL;

- Análise de vídeo e imagem: extração de características de ficheiros de vídeo, a delimitação automática de momentos e cenas, deteção de padrões e respetiva segmentação;

- Análise de áudio e voz: desenvolvimento de tecnologias com capacidade de obter, automaticamente, informações a partir de fontes de dados de áudio recolhidas pelo módulo de aquisição de dados;

- Análise biométrica: extração de modelos de face 3D de alta qualidade com origem em ficheiros de vídeo de baixa qualidade, que serão depois utilizados para obter imagens 2D desses rostos para aplicações de reconhecimento facial com foco especial para utilização forense. Será explorada a biometria de voz. Conjugados os 2 classificadores (identificação de rosto e de voz) o erro inerente a cada uma das técnicas de identificação é minimizado;

- Análise de texto multilingue: tradução automática para utilização de informação em diferentes línguas, bem como técnicas de processamento de língua natural (NLP) para extrair conhecimento de forma automática.

- Classificação e segmentação semântica: segmentação e indexação dos conteúdos permitirão maior facilidade de navegação no conteúdo e o cruzamento de informação entre as diferentes bases de dados e repositórios.

- Base de Dados e Repositórios: armazenar numa Base de Dados Estruturada toda a informação proveniente dos diferentes módulos (áudio, vídeo, imagem, texto, biometria), devidamente indexada facilitará a sua referenciação e/ou correlação pelas restantes funcionalidades da solução a desenvolver.

- Gestão, organização e visualização de dados: definir regras para o processamento de pedidos de informação do utilizador, para recuperação da informação da base de dados do sistema, utilizando metodologias de pesquisa semântica, implementada através de uma componente de Visual Analytics (VA) que permitirá a análise visual de grandes quantidades de dados.

- Interface com o utilizador: desenvolver a interface de utilização que garanta todas as medidas de segurança que impossibilitem o acesso a utilizadores que não se encontrem devidamente credenciados.

O projeto AGATHA apresentará ao mercado um produto inovador tanto em termos tecnológicos, como em termos funcionais, sendo uma solução inquestionavelmente disruptiva, tanto a nível nacional como internacional.

 

 

Apoio

O projeto Agatha foi apoiado pelo COMPETE 2020 no âmbito do Sistema de Incentivos à Investigação e Desenvolvimento Tecnológico Empresarial na vertente de Co-promoção, com um Investimento elegível de 2.354 mil euros o que resultou num Incentivo FEDER de 1.386 mil euros.

 

Equipa

Para a implementação do projeto estabeleceu-se um consórcio liderado pela

- Compta Business Solutions, S.A. - empresa portuguesa que desenvolve a sua atividade com base na procura constante da inovação tecnológica, tendo por missão selecionar no mercado mundial as melhores tecnologias, adaptando-as aos mercados onde atua. Apresenta uma gama completa e coerente de produtos, soluções e serviços que ajudam as empresas a melhorar o seu desempenho, acrescentando valor à sua atividade -, em conjunto com a

- Voiceinteraction S.A. – uma empresa de base tecnológica, constituída em Abril de 2008, como spin-off do INESC-ID Lisboa, de modo a desenvolver tecnologias na área do processamento da fala -, e a

- Associação C.C.G. – é uma entidade qualificada pelo Sistema Científico e Tecnológico Nacional (SCTN) para a Prestação de Serviços de Investigação e Desenvolvimento Tecnológico e para Consultoria e Serviços de Apoio à Inovação às empresas, constituindo-se ainda, membro cofundador da rede GraphicsMedia.net - Rede Internacional de Cooperação em Investigação Aplicada em Computação Gráfica, Tecnologias Multimodais-Multimédia e Tecnologias Digitais Visuais Interativas; e a

- Universidade de Évora | Centro de Inovação em Tecnologias da Informação (CITI) - unidade interdepartamental da Escola de Ciências e Tecnologia da Universidade de Évora, traz ao consórcio competências na área das Interfaces e Sistemas de Processamento de Língua Natural. É de realçar que os recursos alocados possuem vasta experiencia no desenvolvimento de projetos nas áreas da inteligência artificial, recuperação de informação, análise de sentimentos e web semântica.

 

Artigos relacionados

  1. Ficha projeto – site Compta aqui
  2. Bolsa de Investigação  | Aberto concurso para a atribuição de uma Bolsa de Mestre no âmbito do projeto AGATHA (IDT-COP-18022), financiado pelo programa COMPETE 2020. Candidaturas de 6 a 17 de março de 2017 e os resultados da seleção serão publicados até 24 de março de 2017. 

15/03/2017 , Por Vanda Cardoso Pinheiro