来源:Oxylabs 日期:2022-08-24 09:07:55
网络抓取和其他自动数据获取方法通过应用动态定价而备受关注。简而言之,定价数据从友商(有时还有其他来源)收集,并通过使用数学建模相应进行匹配。当然,建模可能很简单,比如就是“降低一点”。
动态定价闪耀登场,大受追捧,因为其原理极易理解,成效十分显著。遗憾的是,如此一来,在动态定价的光环笼罩之下,其他所有网络抓取商业案例都显得黯然失色,这些案例的数量还不少。领先的网络抓取公司 Oxylabs 分享了一些例子。
理解网络抓取
如果抛开所有技术细节来看,网络抓取的过程其实很简单。就是一个自动程序以某种方式(无论是自动还是通过人工输入)获取一些 URL。然后爬取这些 URL,提取网页中包含的数据,然后继续下一个。
随着脚本爬取所有 URL,收集的数据会存储在本地内存中。然后从所有收集的网页搜索特定信息。有时这些脚本可能会接受用户输入的关键词或其他选项。
最后,提取的数据会导出为某种格式,常见的格式是 CSV 和 JSON。如果需要人工分析,中间可能需要进行解析,以便其格式能够被人读懂。例如,动态定价应用实施了完全(或至少在很大程度上)自动化的数据管理解决方案,以缩短调价之间的“停机时间”。
不过,要是有这么简单,也就不会出现包括 Oxylabs 在内的自动数据收集服务提供商了。虽然表面看没什么特别复杂或技术性强的东西,但大规模抓取需要一个十分庞大的基础设施,其中要配备各种各样的工具,例如代理。
技术专长是任何抓取项目长期生存的命脉。从 Oxylabs 的经验来看,即使是高科技企业也感到内部实施网络抓取非常困难,因为这个过程牵涉到非常复杂的细节。事实上,正是这个原因促使该公司开始构建爬虫 API。
数据用例
如果只是用于动态定价,我们的工作基本上就付之东流了。虽然动态定价是一种十分强大而流行的数据提取方法,但它远远不是唯一的方法。数据可以通过许多创造性的方式加以利用。一些公司也许能够从多种数据利用方式中获益。
一个相当简单、却不能自动执行的例子就是市场调研。网络抓取可以用于产品或服务的整个开发过程。列举全部友商是一个很好的开端,因为可以获取关于友商产品的深入数据。
此外,可以在整个互联网中搜索论坛和网站中留下的意见、评论和反馈,以便发现其他商机。产品和服务可能有一些共同的痛点,可以轻松加以解决,然后再进入市场。
另一个用例牵涉到深入得多的分析。风投和金融服务公司是开始慎重考虑网络抓取的第一批尝新者。自从《推特情绪可预测股市》(Twitter mood predicts the stock market)这篇有里程碑意义的论文发表以来,投资大亨们争相利用如今所谓的“替代数据”。
替代数据的得名是源于和传统来源(例如公司财务报表、统计报告中的数据等)的比较。替代数据来自前述推文、搜索趋势甚至是卫星图像这样的不寻常对象等来源。
投资公司和风投资本家会从替代数据中寻找辅助信号。不过,这需要大量的努力和创造力。例如,零售店空缺停车位的变化可以表明生意兴旺或冷清的变化情况。问题在于这两个因素在多大程度上密切相关。计算中稍有失误,就会得出负数投资回报率。
客观数据概览
人们提出了各种观点来解释为什么如今数据这么重要。这些观点充其量都是轻描淡写。能够免费(或者接近于免费)访问数据,就带来了前所未有的崭新商机。
目前在营销中让客户参与的趋势就很好地体现了外部数据如何彻底变革这个过程。大多数情况下,从客户那里获取意见需要派送反馈表,或者试图采集净推荐值(Net Promoter Scores,简称 NPS)等指标。
随便一个统计员都能够清楚指出,以这种方式收集的数据并不能恰当反映企业的真实状况。反馈表通常由忠实或积极参与的客户填写。虽然他们的意见很宝贵,但也有必要听一听普通客户甚至是诋毁者的评判。
极度挑剔的统计员会指出,这种情况存在严重偏颇,因为受众仅包含已经认为产品和服务很有价值(或者在一些情况下,非常烦人)的客户。最后,还有心理层面的因素,客户知道有人会阅读这些表格,因此他们不会完全客观地填写。
通过网络抓取,可以大致了解企业完全客观的一面,以便佐证这些反馈表。如果有人在论坛上发布了与企业完全无关的抱怨,此人很可能不会意识到这些内容会被代表发现。此外,这些不经意间写下的意见可能会揭示反馈表或 NPS 中绝不会出现的信息。
结论
数据并不属于未来。未来却属于数据。大规模自动公开数据获取所带来的商机远未达到成熟。事实上,这些过程将变得无处不在、极其重要,成为商业竞争的主要战场。
作者:Julius Cerniauskas,Oxylabs 首席执行官