发起人:董飞 初入职场

关注高科技,在线教育,擅长大数据开源技术,热爱分享。知乎专栏:http://

回复 ( 1 )

  1. 董飞
    理由
    举报 取消

    前面总结了[上],[中],[下],走到这,100家硅谷IT公司技术博客系列终于完了,想象一下,笔者把100多个截屏上传图片粘贴到微信编辑再二次加工配上文字,真是浩大的工程,谁知盘中餐,粒粒皆辛苦啊。这一期的特色是全是数据类技术公司,也可以说是SaaS领域。有一些笔者也没有深入了解,还请多多指教。

    76 AppDynamics

    移动应用监测软件, 这个领域是叫APM(应用性能监控)它提供了一系列对应用程序的容量、扩展性、故障排除和用户体验进行管理和监控的服务,去年一直说要上市的,鉴于股票市场对云计算还不够热枕,又缓一缓了。类似的工具还包括New Relic、ScienceLogic。

    国内APM企业主要是三家公司,即OneAPM、听云和云智慧。笔者推荐OneAPM创始人何晓阳的读书笔记,把量子物理,相对论,宇宙变迁,科幻小说,古希腊哲学,人类文明史,企业级应用融合,波澜壮阔,逻辑缜密,妙趣横生。OneAPM何晓阳读书笔记

    77 Dropbox

    这家公司想必大家都熟悉了,曾经云存储的老大,但日子过得不是太舒心,被各个巨头围剿,Google,苹果,微软,亚马逊都推出更低价容量更大的云存储,它之前估值超过百亿,但最近很多独角兽公司遭到投资者降级,它也被下调估值。笔者找了知乎上“宋一松”对问题 “有哪些估值超过 10 亿美金的「独角兽」公司正在衰落?“的回答,大致说了Dropbox四点问题

    1. 通过企业付费版的盈利路线发展并不顺利

    2. 普通用户的使用情景单一,付费意愿不高

    3. 被巨头拉入价格竞争

    4. 高估值阻碍了公司的进一步成长

    但不得不承认,它们的人才还是挺厉害的,就是喜欢名校背景,很多做系统的高手,MIT出身,也有不少技术开源的东西,这篇文章讲它们如何做全文检索引擎。而为了吸引这些人才,居然请出米其林的大厨,给他们员工提供每日不一样的精品大餐,真是有口福啊。(所以有机会还是要去它们面试一下,至少体验一下米其林水平的食堂)

    78 H2O.AI

    能够让Hadoop做数学,H2O是基于大数据的统计分析机器学习和数学库包,让用户基于核心的数学积木搭建应用块代码,采取类似R语言,使的BigData爱好者和专家可以利用一系列简单的先进算法对数据集进行探索,建模和评估。

    它之前叫Oxdata,改名后更好记了,它打了个比方:当数据砖(databricks公司)遇到水(H2O)就变成苏打水一样。

    笔者查了它家创始人也挺传奇的:

    “物理学家、黑客阿诺•康代尔 从小就生长在一个科研氛围浓厚的环境中。他出生于瑞士一个叫做下锡根塔尔的小村子,这个村子恰好位于拥有欧洲顶级粒子加速实验室的保罗谢尔学院(Paul Scherrer Institute)和欧洲大陆最著名的科技院校苏黎士联邦理工学院(ETH Zürich)之间。在学习粒子物理学和超级计算机学期间,康代尔曾经在电脑上建立过宇宙的模型。后来他搬到美国加利福尼亚州,在斯坦福大学直线加速器中心的全国加速实验室中工作(SLAC National Accelerator Laboratory),后来又开始创业,成为Skytree公司的创始工程师,并且设计了几套高性能的机器学习算法。现在他是Oxdata公司H2O数据分析平台的核心开发者,他开发的这个H2O平台,被编程社区GitHub的成员誉为最优秀的开源Java机器学习项目,而且它还可以兼容流行的统计编程语言——R语言。他在Oxdata公司的头衔是“物理学家兼黑客”

    79 MapR

    MapR作为Hadoop的三巨头之一(cloudera,hortonworks),它自创文件系统比Hadoop快三倍,据说目前在积极寻找买家。最近它们CTO也是创始人之一M.C. Srivas跳槽到Uber,还是挺让人惊讶的。

    这一篇文章说的是数据库从传统到NoSQL进化过程,里面提到在迁移中学到的宝贵经验。

    80 AppNexus

    广告竞价与交易平台,2015年融资额度达到 1 亿美元,每天平台上的实时竞价广告数量高达 300 亿个,覆盖桌面和移动平台。AppNexus 2014年营收达到 1.3 亿美元,平台流水高达 10 亿美元。这种需要对实时数据处理能力强大的技术。

    81 Mesosphere

    Mesos老家,Mesos是Apache下的开源分布式资源管理框架,它被称为是分布式系统的内核。Mesos最初是由加州大学伯克利分校的AMPLab开发的,后在Twitter得到广泛使用。它们家发布全球首个数据中心操作系统。这里提到的Marathon是一个框架,可以通过mesos+marathon管理docker集群。

    82 Zuora

    Zuora诞生于 2007年硅谷,是目前硅谷成长最快的 Saas 公司,由来自 Salesforce 和 Cisco (WebEx) 的资深 SaaS 人士创建,其计费平台通过云计算提供定价、计量、计费服务,为所有具有在线订用业务的公司提供服务,致力于推动各领域 “用多少,付多少” 的订用型商业模式的转型和成长,使其商业潜力达到最大化。2015年1.15 亿美元 F 轮融资。

    83 DataDog

    云端应用监控服务商,帮助企业用户监控应用和底层架构在工作时的各种数据,今年刚融了近一亿美金!就是公司内部的dashboard,这个控制台支持多种主流云服务,把从基础设备和软件采集的数据统一处理并存储,允许用户创建仪表盘和搜索访问已有数据,让用户可以对多服务进行一站式管理。目前已经开放了所有 API,不少创业公司用它的服务。

    84 Sumo logic

    Sumo Logic试图成为Splunk的SaaS版本替代,不过他们走出了自己独有的发展道路。笔者有幸跟这家技术总监Yongxing Wang聊过,这算是是市场上功能最丰富的SaaS版日志管理工具之一,专攻企业市场。2015年E轮融资8000万美金。这篇文章讲“用户是安全的阿喀琉斯之踵吗”。

    85 Pure Storage

    为企业提供基于闪存技术的企业存储方案,意在提供相比硬盘存储技术更高的读写速率同时降低耗电和损耗。跟Quora是邻居都在Mountain View Downtown,已经上市,虽然上市后表现不佳。 笔者记得看过他们一个有意思的视频,有个工程师对服务器吼叫,监控 dashboard上马上显示异常。这是想说服务器也有情感?

    86 Snowplow Analytics

    是做基于AWS pipeline的分析报表,帮你搭建实时的数据仓库,挺有意思的公司,因为它直接把代码开源放到github上,可能是为了展现他们的技术强大自信。严格讲它本部不是在硅谷,而是伦敦,自从笔者不小心邮箱注册它们的试用服务,它们家老是给笔者发邮件电话约谈服务,2B创业真是不容易。

    87 Clari

    有不少企业都希望通过大数据挖掘帮助企业级用户提升工作效率,降低运营成本。其中一个很有意思的方向是预测智能(predictive intelligence)——通过观测组织内外的一切相关数据,预测未来需要采取的举措。

    Clari做B2B预测分析技术的公司。产品是一款智能引擎,通过分析人群的高时效性的行为数据,辨别潜在客户,协助商户优化销售和市场事务,增长销售额。

    88 Amplitude

    移动应用表现分析工具,能够帮助应用开发者更好的理解用户是怎样使用自己的产品。这一家人才还不错,创始人MIT,还有斯坦福一些高手加盟,比如Jeffrey Wang短短两年做到技术VP,之前在Sumo Logic和Palantir做工程师,佩服啊。

    89 Dato

    机器学习平台 GraphLab改名Dato, 提供了一个完整的平台,让客户能够使用可扩展的机器学习系统进行大数据分析。简单来说,就是从别的应用程序或者服务中抓取数据,让机器学习这个模型,并将学到的知识作为基础,自动地进行准确的预测和决策制定。这么讲挺抽象,最好理解的例子就是美国总统选举的民意调查,可以通过社交网络、媒体等提取数据,分析出民众到底在关心什么,分析出哪个候选人竞争力最强。

    90 Altiscale

    服务主要目的是解决Hadoop的抽象性与复杂性,为工程师搭建一个完整的Hadoop环境,并且对其进行维护与管理。让用户可以更专注于他们的数据与应用。

    91 Adaptive Insights

    提供实时分析和异常检测的大数据创业公司,2015年6月获得了7500 万美元。

    92 Pentaho

    技术是将数据集成、业务分析与开源软件结合起来。它的软件收集来自各种专有来源的数据,例如Hadoop(Cloudera、Hortonworks等等)、NoSQL(MongoDB、HBASE、Cassandra等等)以及像Vertica这样的数据仓库,然后过滤并处理数据,转变为带来业务分析的洞察力。人们可以在任何地方得到来自结果的图形显示,自行分析报告,而无需IT开发者编写查询请求。Pentaho的技术可以嵌入到各种终端和应用中。

    93 Datatorrent

    它声称可以将数据处理速度从实时提高到“现在时(Nowtime)”。公司的系统每秒钟可以处理上千万个数据项。持续生成大规模非结构化的数据流,可以利用它来处理、监控、分析并采取行动。

    94 Galvanize

    培养数据人才的培训网站,之前看到新闻“IBM 宣布大规模资助开源大数据项目 Spark”,IBM与UC Berkeley 的 AMPLab、DataCamp、Galvanize 以及 Big Data University 等学术及教育组织合作提供 Spark 教育课程,目标是培养 100 万名数据工程师和数据科学家。

    95 Datameer

    这是一家数据分析工具提供商。利用开源Hadoop 分布式计算框架,帮助客户分析大型数据。

    把酒问青天,Kafka是啥玩意?一般来说在美国公司同事都很喜欢酒精,大家通过喝酒的方式社交,喝点啤酒布道技术,岂不乐哉!

    96 Qubole

    一家托管的Hadoop即服务提供商,Facebook前员工创立,帮你去管理云上Hadoop计算资源,它们一个成功案例是Pinterest,下面来自36kr的介绍

    “Pinterest曾尝试自行通过 Amazon EMR 建立数据处理平台,但是因为其稳定性无法控制和数据量增长过快的原因,最终决定改为使用 Qubole 提供的服务。在 Qubole 这个第三方平台上,Pinterest 有能力处理其 0.7 亿用户每天所产生的海量数据,并且能够完成包括 ETL、搜索、ad hoc query 等不同种类的数据处理方式。尽管 Pinterest 也是一个技术性公司,也有足够优秀的工程师来建立数据处理团队,他们依然选择了 Qubole 这样的专业团队来完成数据处理服务。”

    ------------------

    下面说几个做数据库的明星创业公司。虽然说数据库市场在Oracle的大旗下,它收购了SUN,MySQL,高低组合,软硬通吃,云端发力,短时间很难颠覆,但是人民的智慧是不甘于在垄断下苟活的,向这些勇敢的小而美公司致敬!

    97 Cockroach Labs

    Google最近几年出了个牛逼哄哄的数据库叫Spanner,一款全球级分布式关系数据库管理系统,它是BigTable的继任,但是不开源的,只是发了论文,CockroachDB就是仿作它。个人觉得这篇文章介绍时钟和锁还是很深刻的,如何保持原子性,同步并发,时序的严谨是做数据库系统的基本。

    97 MemSQL

    号称最快的内存数据库。据说它要比市面上现有的内存数据库便宜得多也快得多。他们是从Facebook出去的高手创办,MemSQL在设计时同时针对了两种需求(关系式数据库与非关系式数据库),它提供对大数据的实时分析功能,又能同时支持 SQL 与 JSON 非结构化数据,双管齐下。

    说道这个Lambda架构,其实挺有名的大数据专用词,把实时处理和批处理结合起来取长补短,做到一个混合式数据流架构,具体还得参考(Lambda Architecture

    98 GraphSQL

    高效、大容量的图数据库和实时分析平台,创始人是靳若明博士,应用图形理论存储实体和实体之间的关系信息, 开发出了图形数据库领域中最为领先的数据存储和处理技术,拥有传统关系型数据库以及其他非关系型数据库无可比拟的高效遍历算法、非结构化数据的强大存储与计算能力。让企业用户可以实时获取和分析数据。

    比传统数据库的计算能力提高上千倍。在LinkedIn、阿里巴巴,支付宝、百度、Letv、沃尔玛实验室、奇虎360、携程、国家电网等公司使用,获得Data Collective创投、雅虎创始人杨致远、阿里巴巴、百度、丹华资本、启明创投等投资。

    100 EverString

    压轴公司选这一家吧。这是家在硅谷和北京两边都有组织架构的大数据公司,通过不断地主动挖掘和分析全网在线企业信息,结合每家企业内部的客户关系管理系统,利用机器学习自动建立量化客户模型预测谁是下一个客户。

    笔者与EverString联合创始人汪超交流过,他说A轮前做了很大转型。一开始针对金融高频交易的预测产品失败了,转型后来找到这个方向,他认为大数据不是商业模式,是一个方法论。本质跟搜索引擎很像,百度是对C端的产品,我们用百度获取我们要的信息,而EverString是B端的产品,企业可以用它搜到他们想要的目标客户。

    他们B轮融资(6500万)是企业人工智能领域全球最大一次。提到原因,主要是产品成功销售给微软,zenefits等一线公司,提高了2,3倍到30倍效率,人才方面把Salesforce前VP挖过来,这些都为B轮融资做了很好的铺垫。

    记得笔者刚去望京办公室,引入眼帘就是他们的logo,一位数学家提出用模型去构建节点的关系,(scientific concept of being able to draw connections or relationships between nodes in a model.) 笔者就联想到数学家西蒙斯创建的文艺复兴公司,用心感受那种科技+情怀。笔者也遇到很多创业的国内朋友,但在美国做SaaS创业,还得到一线公司的认可,着实不易,也说明实力非凡,祝他们未来前程更伟大!

    后记

    可能有人会想问为什么没有Google博客,并不是笔者看不上啊,而是它家博客实在太多了,每个产品线都有,技术又特别深,大多不是开源的,只能去”瞻仰”,不过还是可以推荐一下当年在谷歌的吴军老师写的《数学之美》,《浪潮之巅》。

    还有家硅谷公司Palantir,做大数据的,估值超百亿,但它们都是跟政府军方合作,保密程度赶上苹果了,也谈不上窥探技术了。

    1. Code School:

    2. Facebook AI Research:

    3. Flipboard Flipboard Engineering

    4. Groupon: Groupon Engineering Blog

    5. Instacart Instacart Tech Blog

    6. Khan Academy Starting Android at Khan Academy

    7. Kickstarter Backing & Hacking

    8. LINE: LINE Engineers’ Blog

    9. Medium: Medium Engineering

    10. MemSQL: Engineering | MemSQL Blog

    11. Mixpanel:

    12. Okta: Blog | Okta Developer

    13. Parse Parse Blog\

    14. Paypal Engineering | PayPal & Braintree

    15. Polyvore

    16. Prezi: Prezi Engineering

    17. Salesforce: Engineering – A blog from the Platform Engineering team.

    18. Sharethis: ShareThis Engineering

    19. Shopify: Shopify Engineering

    20. Sift Science: Sift Science Blog

    21. Spotify: Labs | Spotify’s Engineering and Technology Blog

    22. Stack Overflow: Stack Overflow Blog – A destination for all things related to development at Stack Overflow

    23. ThoughtWorks: Insights | ThoughtWorks

    24. TrueCar:

    25. Tumblr: Tumblr Engineering

    26. Twilio:

    27. Uber: Uber Engineering Blog

    28. Wealthfront: Wealthfront Engineering Blog

    29. Vine: Vine Engineering Blog

    30. Yahoo: Yahoo Engineering

    31. Zendesk: Zengineering Blog

    32. Zynga: Engineering Blog

    33. ZenPayroll: Gusto Engineering

    34. Udacity: Udacity | Blog

    35. TellApart: TellApart Engineering Blog

    36. Periscopedata: Periscope High-Performance SQL Blog

    37. Pageduty: Blog – PagerDuty

    38. Import.IO: News Feed, Blog and Showcase

    39. Elastic Search: Elastic Blog: Stories, Tutorials, Releases

    40. Bitly:

    41. Elodina: Elodina – Big Data Open Source

    42. SqlStream: Blog | SQLstream Blaze

    43. sematext: Blog

    44. Datastax:

    45. AppNexus: tech blog

    46. RedisLabs:

    47. Hakka Labs: Hakka Labs

    48. Quip: Quip – Blog

    49. Ooyala: Ooyala Engineering |

    50. Slack:

    51. Databricks: Databricks Blog

    52. Quantcase: Quantcast Blog

    53. Docker:

    54. Mesos: Blog – Mesosphere

    55. Snowflake: Blog – Snowflake

    56. Lyft: Lyft Engineering

    57. Wolox: Wolox Engineering

    58. Hubspot: Blog – HubSpot Product Team

    59. Linkedcare: The linkedcare Engineering team

    60. eFounders Unexpected Token

    61. Eharmony The eHarmony Engineering Blog

    62. Glassdoor

    63. Datadog

    64. Sumo Logic

    65. RethinkDB Blog – RethinkDB

    66. Snowplow

    67. Everstring

    68. Amplitude Amplitude Blog

    69. Datarella

    70. Dato

    71. Cask

    72. H2O AI:

    73. SumAll

    74. Platfora

    75. Altiscale

    76. Metamarkets

    77. Pachyderm

    78. Aerospike

    79. Paxata

    80. RocksDB

    81. Premise Data

    82. Lucidworks

    83. Pentaho

    84. Birst

    85. Interana

    86. Datatorrent

    87. Databox

    88. Datagravity

    89. Tamr

    90. Rocana

    91. ZipfianAcademy

    92. Ayasdi

    93. Bloomreach

    94. Datameer

    95. Operasolutions

    96. Ginger IO

    97. Kissmetrics

    98. Clearstory Data

    99. Luminoso

    100. Numenta

    101. TreasureData

    102. Civis Analytics

    103. Xplenty

    104. Actian

    105. Trifacta

    106. MapR

    107. Domo

    108. Airtable

    109. Walmartlabs

    110. Quid

    笔者准备整理一个系列,把最新的硅谷科技公司的技术带给国内朋友,把上面的博客中精华翻译出来,如果感兴趣的,在知乎上关注“科技阅读列表全集[600篇]” 科技阅读列表全集[600篇] – 董老师在硅谷 – 知乎专栏 ,又是个浩大工程。。。欢迎勇者留言联系翻译事宜。

我来回答

Captcha 点击图片更换验证码