如何使用Stack Overflow和GitHub尽早发现技术趋势
微wx笑 2019-08-30【前路之思】 22 0关键字: Serverless GraphQL
最近我的一位高管问我,“我们如何验证我们的假设无服务器架构是一种增长趋势?”这是一个开放式问题,没有单一答案。在我的分析师的帽子上露出微笑和灰尘后,我决定要做一些挖掘工作。我很高兴通过以下教程教你如何做到这一点!
如何使用Stack Overflow和GitHub尽早发现技术趋势
注:本文为机翻,不当之处请对照原文。
作为Fauna的产品经理,了解更广泛的技术生态系统中出现的问题非常重要。Fauna是一家数据库公司,通过首先关注开发人员来震撼整个行业。通过我们最近发布的GraphQL API,我们将继续以对我们精通技术的社区至关重要的方式进行创新。
最近我的一位高管问我,“我们如何验证我们的假设无服务器架构是一种增长趋势?”这是一个开放式问题,没有单一答案。在我的分析师的帽子上露出微笑和灰尘后,我决定要做一些挖掘工作。我很高兴通过以下教程教你如何做到这一点!
什么是实际技术活动的代理,而不仅仅是噪音?
我的第一个想法是检查Twitter。不幸的是,Twitter现在只通过付费选项提供对其“Firehose”推文的访问。第三方研究公司也以高额溢价提供标签分析。作为一名开发人员和长期数据分析师,我知道Stack Overflow(SO)问题和GitHub repos指向流行语的真相。凭借这两个来源,我赢得了大奖。我决定随着时间的推移寻找SO问题的数量和GitHub repos来衡量无服务器架构的普及程度。
但是“我怎么查询这些来源?”
令我高兴的是,Stack Overflow和GitHub都可以免费和公共使用他们的数据。谢谢Stack Overflow和GitHub!
Stack Overflow
Stack Overflow提供了自己的数据资源管理器。它很简单,适用于简单的查询。我建议花点时间看看他们的热门查询 - 有些人有超过100,000个观看次数!我写的查询是为了分析SO问题的数量:
select concat(datepart(year, CreationDate),'-', datepart(month, CreationDate)) as dt, count(1) num_serverless_mentions from Posts where Title LIKE '%serverless%' group by concat(datepart(year, CreationDate),'-', datepart(month, CreationDate))
让我们剖析这个查询正在做什么:
concat()函数将“CreationDate”转换为YYYY-MM日期格式,Google表格可以轻松转换为时间序列图表
count(1)计算Posts表中符合条件的每条记录
Title LIKE'%serverless%'在帖子标题中的任何位置找到无服务器的所有不同帖子
用任何有趣的技术趋势或语言替换无服务器以执行您自己的分析😸
group by子句确保所有帖子都按月计算
结果数据在这里可视化:
哇!随着时间的推移,看看这种增长。向上和向右我们走🚀
Github
GitHub将其数据的子集作为Google BigQuery上的免费和公共数据集提供(注意:需要Google登录)。提供的表包括有关回购,语言,提交等的数据。我写的查询分析了GitHub repos的数量随着时间的推移:
select concat(cast(year(created_at) as string),'-',cast(month(created_at) as string)) dt, count(1) num_serverless_repos FROM (TABLE_DATE_RANGE([githubarchive:day.], TIMESTAMP('2017-01-01'), TIMESTAMP('2019-06-01') )) where repo.name like '%serverless%' group by 1 order by 1
有点复杂!让我们剖析这个查询正在做什么:
与SO查询一样,concat()函数将“created_at”转换为YYYY-MM日期格式,Google表格可以轻松转换为时间序列图。
FROM(TABLE_DATE_RANGE([githubarchive:day。] ...需要一些解释。这些数据存储在BigQuery中的方式是在日常表中。要在几天内执行时间序列查询,我们需要按日期选择一系列表。TABLE_DATE_RANGE函数有三个输入:表前缀(即githubarchive:day。),以及开始和结束日期。
请注意,BigQuery将日期范围限制为1000天/表。因此,多年来执行此分析需要在结果表之间使用UNION。
像'%serverless%'这样的repo.name在回购名称中的任何地方选择“无服务器”的所有不同帖子
group by 1和order by 1告诉查询按日期组织查询,即select语句中的第一行。
把结果可视化:
结论
如图所示,无服务器是一种技术趋势,不仅仅是一个流行语。在过去的3年中,已经创建了成千上万的repos,标题中没有服务器,Stack Overflow帖子的数量会随着时间的推移而持续增长。
这项研究再次证实了Fauna的无服务器优先方法。我们的客户已明确表达了价值:无需担心配置和操作,他们能够专注于他们喜欢做的事情:构建有意义的产品。
很明显,到2017年初,无服务器架构正在大踏步前进。您对调查和领先的技术趋势有何兴趣?我邀请您使用自己的关键字运行查询,并与我或Community Slack频道分享结果。
如果您喜欢这个主题,并希望像这样处理系统和挑战,那么Fauna正在招聘!
原文:https://fauna.com/blog/how-to-spot-tech-trends-early
本文由 微wx笑 创作,采用 署名-非商业性使用-相同方式共享 4.0 许可协议,转载请附上原文出处链接及本声明。
原文链接:https://www.ivu4e.cn/windvane/thoughts/2019-08-30/168.html
上一篇:公众人物的言论困境
下一篇:该不该辞职呢?看这张图就够了