对于创投圈的人来说,IT桔子应该算是必备网站之一了,有次听庄明浩Live,他提到一点,自己带投资经理时,就让他们看IT桔子,观察最新的融资信息,然后去思考为什么这些公司会获得融资,这样持续半年,功力大增。
我不但用上了IT桔子,还在IT桔子办起了公,因为北京就我和老范,一老一少,没必要再折腾一个办公室。
所以得空,我便顺手找来内部数据分析师,了解了IT桔子数据的来源,以及加工过程,这是一个很自然的想法,因为使用一个工具,必须要知道它的局限,知道它更新频率如何,信息准确度有多少,数据库信息是否完善,如此才能清楚如何使用它,不然你会像知道一把枪威力很猛,却不知道它是否可以用来切菜一样。
所以这篇文章对于创投圈的朋友,还有很有帮助的,以下为整理信息:
首先,在IT桔子,有4个专栏是更新比较多的:发现新公司、投资速递、投资机构、孵化器。这些信息可分为结构化数据,非结构化数据,UGC(也是蛮大的一份量)三部分。
非结构化数据中50~60%是由人工来编辑加工的,渠道可能有十几个,如36氪、猎云、微博等。之后IT桔子员工会自己贴标签,写简介。更新频率一天2此,上午10点一次,下午5点时一次。这个过程不可避免,但确实有点无聊,我听说一些员工找这些数据从早照到晚,有种生无所恋的感觉。
他们的抓手是事件,比如一条新闻是一个事件,然后他们会从一个个的事件中拆解出信息,再丰富到数据库中。
结构化数据这块是利用爬虫,去爬一些工商信息,或者新闻等。最后,UGC这部分占比并不少,有些创业公司,或者是公关会把自己的公司主动发出来,让IT桔子收录,数量一天约为几百家。
IT桔子的数据库包含市场所有的公司吗?并不是的,它收录的公司大多来自于一级市场,二级市场的信息是没有的,此外,有些公司比较传统,信息太少,那就不收录,所以并不是面面俱到。
而我们查询投资机构时,其主页会显示自己已投过的公司,到哪展示出来的也是不全的,因为有些投资机构并没有把信息展示出来,公开渠道没有的话,IT桔子也不会收录。
引用一句罗振宇2017跨年演讲中的观点:在人工智能上,算法几乎没有什么门槛,真正有门槛的是数据,谁能掌握最丰富、结构化的数据,谁就更有可能成为未来的独角兽,所以,祝福IT桔子。
小插曲:今晚9点左右,我去办公室旁边的健身房回来时,看到空荡荡的办公室只剩文飞翔,她旁若无人,专注地在敲打着什么,不止今天,几乎每天,飞翔都是IT桔子下班最晚的一员。