Introdução aos Dados Estruturados para Conjuntos de Dados
Dados estruturados são informações organizadas em formatos específicos que facilitam a compreensão automática por mecanismos de busca como o Google. No contexto de conjuntos de dados, adicionar dados estruturados permite que esses mecanismos entendam melhor o conteúdo e as características desses dados, favorecendo sua descoberta e apresentação aprimorada nos resultados de pesquisa.
O uso de dados estruturados baseado no vocabulário do schema.org, especialmente com o tipo Dataset, aliado a outros padrões como DCAT (Data Catalog Vocabulary) e CSVW (CSV na Web), possibilita descrever os metadados essenciais de conjuntos de dados, tais como nome, descrição, criador, formato e licença. Isso contribui para aumentar a visibilidade e acessibilidade dos conjuntos de dados em diversos domínios, incluindo ciências biológicas, sociais, aprendizado de máquina, e dados governamentais, entre outros.
O que Qualifica um Conjunto de Dados para Dados Estruturados
Para ser considerado um conjunto de dados que pode se beneficiar da marcação de dados estruturados, ele precisa possuir características específicas que o definam como uma coleção organizada de informações. Alguns exemplos comuns incluem:
- Tabelas ou arquivos CSV contendo dados tabulares simples.
- Conjuntos organizados de várias tabelas ou arquivos relacionados.
- Arquivos em formatos específicos, como XML, JSON, Excel, que armazenem dados.
- Coleções de arquivos que unidos formam um conjunto significativo para análise ou processamento.
- Objetos estruturados em formatos utilizados por ferramentas especializadas para processamento, como modelos ou dados de aprendizado de máquina.
- Imagens que representam ou capturam informações relevantes para análise.
Como Adicionar Dados Estruturados a um Conjunto de Dados
A implementação de dados estruturados requer a inserção de marcação em sua página web para informar os mecanismos de busca sobre detalhes cruciais do conjunto de dados. O processo básico inclui os seguintes passos:
- Adicionar propriedades obrigatórias: São atributos essenciais para o correto entendimento do conjunto, como
name(nome do conjunto),description(descrição do conteúdo) ecreator(criador ou autor). - Inserir a marcação no local adequado da página: Pode ser no cabeçalho, corpo ou utilizando JavaScript para gerar dinamicamente o JSON-LD.
- Seguir as diretrizes de dados estruturados: Garantir que o conteúdo e a marcação estejam em conformidade com as regras recomendadas para evitar problemas na indexação.
- Validar o código: Usar ferramentas como o Teste de Pesquisa Aprimorada do Google para identificar e corrigir erros críticos e avisos.
- Publicar e testar como o Google vê seu conteúdo: Utilizar a Ferramenta de Inspeção de URL no Search Console para verificar se a página está acessível e não bloqueada.
- Enviar sitemaps atualizados: Facilita ao Google a descoberta e rastreamento das páginas contendo conjuntos de dados.
Propriedades Importantes para Dados Estruturados de Dataset
Para garantir que os dados estruturados sejam efetivamente compreendidos e utilizados pelo Google, é fundamental especificar algumas propriedades conforme as definições do schema.org e suas extensões. Entre as principais estão:
description: um texto conciso que descreve o conteúdo do conjunto de dados. Deve conter entre 50 e 5.000 caracteres e pode utilizar sintaxe Markdown para formatação mínima.name: nome único e descritivo do conjunto de dados, facilitando sua identificação e distinção entre conjuntos similares.creator: pode ser uma pessoa ou organização responsável pela criação dos dados. Para identidades únicas, recomenda-se o uso de identificadores padronizados como ORCID para pessoas e ROR para organizações.license: URL ou descrição da licença que rege o uso e distribuição do conjunto de dados, como licenças Creative Commons.distribution: informações que descrevem onde e como o conjunto de dados pode ser obtido, incluindo o formato do arquivo e o URL para download.identifier: identificadores únicos que distinguem o conjunto, como DOI (Digital Object Identifier) ou outros identificadores permanentes.sameAs: link para uma página canônica ou referência externa que confirma a identidade do conjunto de dados.spatialCoverage: detalha a cobertura geográfica do conjunto de dados, podendo ser um ponto específico ou uma área demarcada.temporalCoverage: especifica o intervalo de tempo abrangido pelos dados, podendo ser um ano, uma faixa de datas ou período aberto.hasParteisPartOf: propriedades para indicar hierarquias ou agregações, como sub-conjuntos de dados ou conjuntos maiores que abranjam aquele conteúdo.
Formatos e Vocabulários para Marcação de Dados Estruturados
Existem diferentes opções para representar os dados estruturados em uma página, com destaque para:
- JSON-LD: formato recomendado e mais utilizado para incluir dados estruturados, pois é simples de implementar e não interfere na apresentação da página. Suporta o uso do vocabulario schema.org para descrever conjuntos de dados.
- RDFa: integra dados em atributos HTML existentes, ideal para páginas que já usam essa tecnologia, mas não é compatível com todas as ferramentas de testes de dados estruturados.
- Microdados: outra técnica que adiciona marcações diretamente no código HTML, embora seja menos flexível que JSON-LD.
Além do vocabulario padrão schema.org, o Google também reconhece dados estruturados segundo os padrões do W3C, como DCAT (vocabulário para catálogos de dados) e CSVW (voltado para dados tabulares em CSV com metadados complementares).
Conjuntos de Dados Tabulares e CSVW
Conjuntos de dados organizados em forma de tabelas, muito comuns em arquivos CSV, podem receber uma marcação ainda mais detalhada utilizando o padrão CSVW, que permite descrever o esquema, as colunas, tipos de dados e outras características da tabela. Isso promove uma interpretação precisa dos dados tabulares por parte dos mecanismos de busca e outras aplicações.
Embora essa abordagem esteja em estágio Beta e possa sofrer alterações, ela oferece uma forma avançada de informar a estrutura dos dados para que sejam melhor explorados nas pesquisas.
Como Excluir um Conjunto de Dados dos Resultados de Pesquisa
Caso não deseje que um conjunto de dados seja exibido nos resultados da Pesquisa de Datasets do Google, pode-se usar a tag robots meta apropriada para controlar a indexação e a exibição daquele conteúdo. É importante destacar que, após a aplicação dessa configuração, pode levar dias ou semanas até que a exclusão se reflita nos resultados devido aos ciclos de rastreamento e atualização do índice do Google.
Práticas Recomendadas para Organização e Origem dos Dados
É comum que conjuntos de dados recebam contribuições de diversas fontes ou sejam baseados em dados originais. Para garantir clareza e transparência, recomenda-se:
- Utilizar a propriedade
sameAspara indicar a URL canônica da fonte original do conjunto de dados, quando a página trata de uma simples republicação. - Empregar a propriedade
isBasedOnquando o conjunto for derivado ou modificado significativamente a partir de outra fonte. - Representar agregações ou conjuntos com múltiplos orígens por meio das propriedades apropriadas que definem essas relações.
- Adicionar identificadores digitais como DOI ou outros tipos reconhecidos para garantir a unicidade e rastreabilidade do conjunto de dados.
Essas práticas auxiliam a atribuir corretamente a autoria e procedência dos dados, além de melhorar a confiança e a facilidade de acesso dos usuários.
Monitoramento e Validação com o Google Search Console
Após a implantação dos dados estruturados, é crucial monitorar seu desempenho e status por meio do Search Console, ferramenta gratuita do Google que oferece relatórios detalhados sobre a indexação e eventuais erros encontrados nos dados estruturados.
Aspectos a serem observados incluem:
- Analisar o relatório de status da pesquisa aprimorada para identificar e corrigir itens inválidos ou erros críticos.
- Garantir que as páginas com dados estruturados estejam acessíveis, não bloqueadas por arquivos
robots.txt, tagsnoindexou restrições de login. - Solicitar a reindexação de páginas após atualizações para agilizar a incorporação das mudanças no índice do Google.
- Acompanhar métricas frequentes, como impressões, cliques e posição média, para avaliar a efetividade dos dados estruturados na experiência de pesquisa.
Erros Comuns e Soluções em Dados Estruturados
Problemas com dados estruturados podem impedir que as informações sejam interpretadas corretamente pelo Google, comprometendo os benefícios esperados. Alguns erros frequentes incluem:
- Ausência de propriedades obrigatórias ou informações incompletas.
- Texto de descrição muito curto ou que não respeita a faixa recomendada de caracteres.
- URLs incorretos, bloqueados ou inválidos em propriedades como
contentUrlousameAs. - Problemas técnicos relacionados à estrutura do JSON-LD ou sintaxe errada.
- Uso inadequado ou faltar propriedades que indicam autoria e licença.
Para solucionar esses problemas, recomenda-se:
- Validar a marcação usando ferramentas oficiais de teste de dados estruturados.
- Consultar os relatórios do Search Console para identificar erros reportados.
- Revisar e atualizar o código conforme as diretrizes e exemplos oficiais do vocabulário schema.org.
- Buscar suporte especializado se utilizar sistemas CMS ou serviços terceirizados para implementar os dados estruturados.
Importância da Qualidade e Atualização Contínua
A adoção de dados estruturados para conjuntos de dados deve ser acompanhada por um compromisso constante com a qualidade das informações publicadas. Isso inclui:
- Manter os metadados precisos, claros e atualizados, refletindo possíveis alterações e versões dos conjuntos de dados.
- Respeitar as diretrizes de estanqueidade das propriedades textuais, evitando excessos que possam comprometer a legibilidade ou interpretação.
- Monitorar regularmente o desempenho das páginas e corrigir quaisquer problemas que apareçam após atualizações do Google ou mudanças técnicas no site.
- Enviar sitemaps atualizados para informar rapidamente os mecanismos de busca sobre novos conteúdos ou alterações.
Conclusão
Investir na implementação correta de dados estruturados para conjuntos de dados é uma estratégia essencial para maximizar a visibilidade, alcance e utilidade dos seus dados na web. A adoção das práticas recomendadas contribui para que mecanismos de busca como o Google compreendam melhor o seu conteúdo, apresentando-o de forma aprimorada nos resultados de pesquisa e facilitando a descoberta para pesquisadores, estudantes, profissionais e o público em geral.
Ao entender os tipos de propriedades, os formatos recomendados e o processo de monitoramento, você poderá garantir que seus conjuntos de dados estejam adequadamente representados e acessíveis para uma audiência cada vez maior.

