*Allan Rocha de Souza
Encerraram nos dias 12 e 13 de maio as audiências públicas sobre Inteligência Artificial (IA) promovidas pela Comissão de Juristas do Senado Federal, responsável por subsidiar a elaboração de substitutivo sobre IA no Brasil. Ante a desafiadora tarefa de rever o substitutivo ao Projeto de Lei 21/2020, aprovado em tramitação acelerada na Câmara, juristas buscam equilibrar garantia e promoção de direitos ante a necessidade de regular tema de alta complexidade. Não há dúvidas quanto aos potenciais da IA e de seus impactos em todos os aspectos de nossa vida, dentre os quais destacamos o auxílio e aprimoramento de pesquisas científicas. No entanto, para o desenvolvimento de um sistema de IA, e particularmente para seu treinamento, é fundamental o acesso e uso de um grande volume de dados.
Dados, fatos e informações em si não são protegidos por direitos autorais, nem, de fato, por outras formas de propriedade intelectual. Contudo, quando formam um conjunto (de dados) que, pela sua ‘seleção, organização ou disposição’ (Lei 9.610/98, art. 7o, XIII) contenham um mínimo de originalidade que justifique a exclusividade atribuída por direitos autorais. Então, embora os dados não estejam sujeitos à exclusividade justificada pelos direitos autorais, os bancos ou base de dados o são. E o alcance da exclusividade atribuída ao titular das bases de dados pelos direitos autorais, que é de 1998, é extremamente ampla e carece de limitações para compatibilizá-los com outros direitos e políticas públicas essenciais. E é neste sentido que o projeto aprovado na Câmara prevê “não violação do direito de autor pelo uso de dados, de banco de dados e de textos por ele protegidos, para fins de treinamento de sistemas de inteligência artificial, desde que não seja impactada a exploração normal da obra por seu titular”.
A “mineração de textos e dados”, ou “data and text mining” é um processo que permite a análise computacional de um grande volume de dados e de textos para identificar novas informações, relações e correlações. Esta prática é essencial para o desenvolvimento das tecnologias de inteligência artificial e é parte intrínseca e inexorável do ecossistema de inovação. Estabelecermos uma limitação que expressamente permita a mineração de textos e dados irá ampliar as possibilidades de inovação e trazer mais segurança jurídica para todos os negócios intensivos em dados, além de a presença do Brasil no grupo de países que já reconhecem esta necessidade e instituíram este direito em suas legislações, colocando-se na frente do processo de inovação em relação aos demais países.
Além de pensarmos no que a mineração de dados faz ou pode fazer é igualmente importante registrar o que ela não faz. Devemos notar, em primeiro lugar, que a mineração de dados, ainda que extraídos de obras protegidas (como livros, filmes e música) não implica na fruição ou proveitos destas obras, que são em si protegidas por direitos autorais. Também não haverá disponibilização destas obras ao público. Nem tampouco haverá aproveitamento econômico das obras em si. E, muito menos prejuízo aos autores destas obras nem concorrência com a exploração do filme, da música, do livro, do texto científico de onde as informações e dados serão extraídos. Não há, portanto, impacto sobre a utilização das obras protegidas por direitos autorais por parte dos autores e titulares. Isto porque a mineração em bancos de dados de obras protegidas não é uma exploração das obras, mas a simples extração de dados e informações sobre a obra, que não são em si protegidos, pois, afinal, o que se protege pelos direitos autorais é a expressão, a forma expressiva da criação, e não as informações e dados sobre as expressões (obras).
Assim, em síntese, a própria legislação de direitos autorais estabelece claramente que dados e informações, assim como ideias, abstrações, sistemas, não são objeto de proteção por direitos autorais. E o que se protege é a expressão concreta daquela expressão literária, artística, científica e, hoje em dia, também tecnológica, uma vez que o software, interfaces e elementos similares também são alcançados por direitos autorais. Temos, portanto, que afastar a ideia da obra em si – o filme, a música, o texto científico – dos dados gerados a partir dela. Por exemplo, uma pintura de Van Gogh, além da sua beleza intrínseca, dispõe de elementos como suas dimensões, cores, contraste entre as cores e assim por diante. Tudo isso são dados e informações sobre a obra e não fazem parte da expressão em si. A mineração permite extrair algumas dessas informações não protegidas por direitos autorais e analisá-las ou utilizá-las em volume grande suficiente que justifique a necessidade de análise computacional, como por exemplo conectá-las e integrá-las de forma a promover um entendimento melhor sobre a produção artística e cultural
E quando falamos de uma limitação ou exceção aos direitos autorais que possibilite a mineração de textos e dados, seus impactos são unicamente sobre a exclusividade atribuída ao organizador dos dados, do compilador desses dados, ou seja, do titular, dono do banco de dados, e não dos autores, artistas e demais titulares das obras a partir das quais os dados e informações serão extraídos.
Aqui, é importante reforçar que nem todas as bases de dados são protegidas por direitos autorais, mas apenas aquelas que tenham um contributo mínimo de originalidade, criatividade na seleção, organização ou apresentação dos dados e informações. Portanto, além de uma limitação expressa aos direitos autorais sobre os bancos de dados ser fundamental para a inovação, a proposta legal aprovada na Câmara e sobre a qual os juristas agora se debruçam, embora careça de ajustes em sua redação, afasta – como deveria – a exploração das criações artísticas em si.
Diversos países, dentre os quais Japão, Singapura e os membros da União Europeia, além de Canadá, Austrália e Estados Unidos, permitem expressamente a mineração de dados e textos. São países com alta capacidade de pesquisa e desenvolvimento de produtos (P&D) e de inovação. O que isso nos informa, de pronto, é a inexistência de qualquer obstáculo nos Tratados Internacionais da matéria para inclusão desta limitação no âmbito dos direitos autorais. É importante também notar que todas as incorporações desta exceção foram incluídas nos últimos cinco anos. Desde o fim da última década, diversos países fizeram esta modificação no ímpeto de construir um ambiente inovador e competitivo e participando do ‘clube dos países inovadores’. Dentre esses países não está o Brasil, e, por aqui, quem faz essa mineração de textos e dados está, para dizer o mínimo, no limite da legalidade.
Uma limitação expressa aos direitos autorais para mineração de dados e textos, encontra vários fundamentos. Dentre os quais, vale destacar as elencadas pela União Europeia, quando da elaboração da nova Diretiva de Direitos Autorais (Diretiva 2019/790), em 2019: a promoção de um ambiente de inovação tecnológica e de pesquisa; a garantia de segurança jurídica a quem faz uso dessas tecnologias; e, como falado anteriormente, o reconhecimento de que esse ato de análise computacional dos dados e informações de e sobre obras artísticas em nada afeta a exploração regular das mesmas.
Voltando à questão da regulação e desenvolvimento da inteligência artificial no Brasil, vale lembrar que é impossível o treinamento dos sistemas de IA e algoritmos sem o uso substancial de grandes volumes de dados. Um exemplo de IA a partir de uma análise linguística de bancos de dados são os sistemas de tradução automatizada. Eles foram muito aperfeiçoados e nos trazem benefícios significativos. Não seria possível, sem fazer uso da mineração de textos e dados, treiná-los para análise de sintaxe, análise de conversão, e assim por diante. Todas as pesquisas epidemiológicas, médicas, climáticas, de mídias sociais e de tendências, na área de humanidades digitais e outras do gênero carecem da possibilidade de minerar dados e textos. É um conjunto infinito de exemplos crescente a cada dia.
A título de exemplo, existem milhares de artigos publicados sobre Covid-19 produzidos em período de menos de um ano. É impossível qualquer pesquisador fazer uma análise desse conjunto de artigos. Mas, com o auxílio de um sistema de inteligência artificial que possa fazer uma mineração de textos e dados, é possível analisar tendências, focos principais, objetos que vêm sendo discutidos, entre outros. Hoje em dia, parte substancial da pesquisa científica contemporânea – inclusive a médica – depende dessas ferramentas: sem esta possibilidade, não teríamos saído de onde estivemos, no início da pandemia, de forma razoavelmente rápida.
A essencialidade da pesquisa para a inovação e a solução dos grandes desafios da humanidade (sejam pandemias, crises energéticas, aquecimento global, entre outros tópicos) é muito clara e evidente. Há um consenso internacional com relação a isso. No entanto, a pesquisa contemporânea não pode ser feita adequadamente sem que tenhamos na nossa legislação, para fins de segurança jurídica, uma exceção ao direito de autor para a mineração de dados. Há necessidade e urgência de estabelecermos esta limitação na nossa legislação, e uma regulação de princípios de IA pode ser a ocasião para tanto – ainda que este ponto pudesse ser, ele mesmo, objeto de norma legal específica. O atraso em garantir esse direito à mineração de dados e textos, sob pena de colocar na ilegalidade praticamente todas as pesquisas criadas no Brasil, também coloca em risco todo o ecossistema de inovação, em especial no contexto digital.
*Allan Rocha de Souza é professor e pesquisador da UFRRJ, UFRJ/PPED e PUC-RJ, Doutor em Direito pela UERJ e pós-doutor pela Universidade de Oxford com pesquisas voltadas para os direitos autorais e culturais. Diretor científico do Instituto Brasileiro de Direitos Autorais. Consultor Jurídico e Advogado