GitHub libera 3TB de dados sobre projetos open-source

Em:

Em parceria com o Google, o GitHub anunciou o lançamento de uma coleção incrível de dados sobre projetos open-source. Os mais de 3TB (terabytes) contêm dados de mais de 2.8 milhões de projetos, incluindo mais de 145 milhões de commits únicos. E o mais legal, tudo isso está disponível no BigQuery, um serviço de banco de dados do Google que permite lidar com um grande volume de dados.

Ter acesso a esse tipo de dado é muito legal, pois podemos fazer queries dinâmicas, como por exemplo: Projetos mais populares utilizando o framework X ou Y, quais projetos possuem mais contribuidores, e por aí vai. Basta usar a imaginação e a necessidade.

O GitHub já possui o projeto GitHub Archive, lançado em 2012, que já disponibiliza uma série de dados sobre projetos open-source. Essa parceria com o Google agora expande ainda mais o projeto.

Abaixo segue um exemplo retirado do próprio BigQuery, fazendo uma consulta para saber quais são os pacotes Go mais utilizados: SELECT
REGEXP_EXTRACT(line, r'"([^"]+)"') AS url,
COUNT(*) AS count
FROM
FLATTEN( (
SELECT
SPLIT(SPLIT(REGEXP_EXTRACT(content, r'.*import\s*[(]([^)]*)[)]'), '\n'), ';') AS line,
FROM (
SELECT
id,
content
FROM
[bigquery-public-data:github_repos.sample_contents]
WHERE
REGEXP_MATCH(content, r'.*import\s*[(][^)]*[)]')) AS C
JOIN (
SELECT
id
FROM
[bigquery-public-data:github_repos.sample_files]
WHERE
path LIKE '%.go'
GROUP BY
id) AS F
ON
C.id = F.id), line)
GROUP BY
url
HAVING
url IS NOT NULL
ORDER BY
count DESC
LIMIT 10

Mais uma excelente iniciativa do GitHub e do Google fornecendo dados para a comunidade. Agora basta entrar lá no BigQuery para fazer suas pesquisas 🙂

Patrocinadores BrazilJS

Gold

Silver

Bronze

Apoio

BrazilJS® é uma iniciativa NASC.     Hosted by Getup