如何使用Stack Overflow和GitHub尽早发现技术趋势

微wx笑 2019-08-30【前路之思】 22 0关键字： Serverless GraphQL

最近我的一位高管问我，“我们如何验证我们的假设无服务器架构是一种增长趋势？”这是一个开放式问题，没有单一答案。在我的分析师的帽子上露出微笑和灰尘后，我决定要做一些挖掘工作。我很高兴通过以下教程教你如何做到这一点！

如何使用Stack Overflow和GitHub尽早发现技术趋势2sO无知

注：本文为机翻，不当之处请对照原文。2sO无知

Trend tutorial 2sO无知

作为Fauna的产品经理，了解更广泛的技术生态系统中出现的问题非常重要。Fauna是一家数据库公司，通过首先关注开发人员来震撼整个行业。通过我们最近发布的GraphQL API，我们将继续以对我们精通技术的社区至关重要的方式进行创新。2sO无知

最近我的一位高管问我，“我们如何验证我们的假设无服务器架构是一种增长趋势？”这是一个开放式问题，没有单一答案。在我的分析师的帽子上露出微笑和灰尘后，我决定要做一些挖掘工作。我很高兴通过以下教程教你如何做到这一点！2sO无知

什么是实际技术活动的代理，而不仅仅是噪音？2sO无知

我的第一个想法是检查Twitter。不幸的是，Twitter现在只通过付费选项提供对其“Firehose”推文的访问。第三方研究公司也以高额溢价提供标签分析。作为一名开发人员和长期数据分析师，我知道Stack Overflow（SO）问题和GitHub repos指向流行语的真相。凭借这两个来源，我赢得了大奖。我决定随着时间的推移寻找SO问题的数量和GitHub repos来衡量无服务器架构的普及程度。2sO无知

但是“我怎么查询这些来源？”2sO无知

令我高兴的是，Stack Overflow和GitHub都可以免费和公共使用他们的数据。谢谢Stack Overflow和GitHub！2sO无知

Stack Overflow2sO无知

Stack Overflow提供了自己的数据资源管理器。它很简单，适用于简单的查询。我建议花点时间看看他们的热门查询 - 有些人有超过100,000个观看次数！我写的查询是为了分析SO问题的数量：2sO无知

select 
  concat(datepart(year, CreationDate),'-', datepart(month, CreationDate)) as dt,
  count(1) num_serverless_mentions
from 
  Posts 
where 
  Title LIKE '%serverless%'
group by 
  concat(datepart(year, CreationDate),'-', datepart(month, CreationDate))

让我们剖析这个查询正在做什么：2sO无知

concat（）函数将“CreationDate”转换为YYYY-MM日期格式，Google表格可以轻松转换为时间序列图表2sO无知

count（1）计算Posts表中符合条件的每条记录2sO无知

Title LIKE'％serverless％'在帖子标题中的任何位置找到无服务器的所有不同帖子2sO无知

用任何有趣的技术趋势或语言替换无服务器以执行您自己的分析😸2sO无知

group by子句确保所有帖子都按月计算2sO无知

结果数据在这里可视化：2sO无知

2sO无知

哇！随着时间的推移，看看这种增长。向上和向右我们走🚀2sO无知

Github2sO无知

GitHub将其数据的子集作为Google BigQuery上的免费和公共数据集提供（注意：需要Google登录）。提供的表包括有关回购，语言，提交等的数据。我写的查询分析了GitHub repos的数量随着时间的推移：2sO无知

select
    concat(cast(year(created_at) as string),'-',cast(month(created_at) as string)) dt,
    count(1) num_serverless_repos
FROM (TABLE_DATE_RANGE([githubarchive:day.], 
    TIMESTAMP('2017-01-01'), 
    TIMESTAMP('2019-06-01')
  ))
  where repo.name like '%serverless%'
group by 1
order by 1

有点复杂！让我们剖析这个查询正在做什么：2sO无知

与SO查询一样，concat（）函数将“created_at”转换为YYYY-MM日期格式，Google表格可以轻松转换为时间序列图。
2sO无知

FROM（TABLE_DATE_RANGE（[githubarchive：day。] ...需要一些解释。这些数据存储在BigQuery中的方式是在日常表中。要在几天内执行时间序列查询，我们需要按日期选择一系列表。TABLE_DATE_RANGE函数有三个输入：表前缀（即githubarchive：day。），以及开始和结束日期。2sO无知

请注意，BigQuery将日期范围限制为1000天/表。因此，多年来执行此分析需要在结果表之间使用UNION。2sO无知

像'％serverless％'这样的repo.name在回购名称中的任何地方选择“无服务器”的所有不同帖子2sO无知

group by 1和order by 1告诉查询按日期组织查询，即select语句中的第一行。2sO无知

把结果可视化：2sO无知

2sO无知