回复 ( 7 )

  1. 袁浩瀚
    理由
    举报 取消

    谢邀

    我不是股票方面的专家,但这是一个很有意思的问题。希望更多大牛来展开讨论

    首先这个数据意味着什么。我们可以看看一个金融市场,都有哪几个级别的数据,然后分别获得的难度是怎么样的。

    一、日OHLC数据,这个数据应该是最常见的了,Open、High、Low、Close。一般来说,大部分Python和R的包都提供了访问Yahoo Finance的接口,通过yahoo你就可以拿到这些数据。

    二、Throttled数据,所谓Throttled,就是固定时间更新的数据范式了。比如中金所500ms的盘口数据、大商所250ms的盘口数据。一般来说,Throttled数据包括盘口和之前一个period里面的成交信息(Trade Data)。很多人抱怨中国高频不好做,只有Throttled的数据,但是这不是中国的专利,在美国很多市场,比如CME、BrokerTec,如果你买入门级别的日内数据,就是Throttled。而国外市场也有基于Throttled数据就盈利的交易商。

    三、Per Trade数据,那么Throltted之上是什么呢,就是每次有交易(Trade),就更新对应的数据,由于数据的Trigger从Chrono的时间变成了Trade,所以每次更新里面含有的Trade信息就是精准的逐笔交易信息了。一般而言,有了这个数据,你就可以做一个相当准确的回测系统了。因为结合你的延迟信息,你可以估计在你的单到达交易所的时候和发单之间有没有交易发生,发生的话一般规律是什么。这个数据在国内是没有公开提供的。

    四、Per Quote数据,这个数据精度更加高于Per Trade数据,只要有人挂单撤单,或者整个市场级别有人的报单有变化,就会Trigger数据的发布。因此比如在一个品种上只有人挂单撤单,没有人实际交易(干瞪眼),你也有全面的市场表化情况。基于此数据,回测将十分精准,你也可以判断是否有人在Spoofing了(当然你不知道是谁在spoofing)。这是美国或者一般发达市场提供的公开数据的极限,也是最贵的实盘数据了。同时,由于数据量太大,对于传输方式和你交易系统的负载能力提出了比较高的要求——你会收到交易所撮合机同等数量的信息,系统或者硬件稍微跟不上,轻则丢包,惨则当机,这也是为啥国外引入FPGA等技术来硬件加速tick data的处理的问题。

    五、帐号级别数据:那么再上面一层是什么,就是Per Quote的数据给每一个Quote加上一个Field:帐号。你知道每个Quote都是哪个帐号发出来的。因为你只有帐号ID,你不知道是谁,但是对于做研究来说,这已经足够了。这个数据对于绝大部分交易所来说都是有储存,但是非公开的,一般提供给交易所相关的研究、监管机构做分析用。从2010年开始这部分数据的分析开始在学术界慢慢有出现。如何用,也是这里我们要聊的。

    你可以看到,这个数据已经属于高频数据中的指环王了。2013年我在伯克利的时候,一个教授买了一台96GB的Dell工作站,然后让我帮他Clean一些C++的code,当时就是处理土耳其的一年的帐号级别的数据,由土耳其交易所官方提供。所以从学术界的角度来说,我知道的目前用到了帐号级别的数据的一部分研究有:

    Investor Networks in Stock Markets, Walden, Ozsoylev, Yavuz, and Bildik

    VPIN and the Flash Crash, Easley, Prado and O’Hara

    Very fast money: High-frequency trading on the NASDAQ, Carrion

    The diversity of High-Frequency Traders, Cvitanic and Kirilenko

    还有很多类似的和相关的,大家有兴趣可以Google一下,简而言之,一般的方向有:

    一、定位Informed Trader:什么是Informed Trader,就是当一个固定的事件发生的时候,总是先下单的个体,如果有统计显著的informed trader存在,那说明这个市场存在比较严重的信息不对冲和操纵现象。一般而言,合规的高频交易员是不会lead一个trend的,他们只会follow informed trader,并且很快的follow。按照国内通俗的说法,informed trader是庄家,高频的是快速跟庄的,他们一起赚跟庄比较慢的散户的钱。

    二、市场信息传递链:信息传递链,简而言之,就是一个Event发生后,交易是如何一步步在这个市场发生的。要做这个研究,需要根据长期交易行为先给每个帐号打上标签。比如Informed Trader,High Frequency Trader,Day Trader,Long Team Holder,以及Chaos Trader(就是散户)。然后分析某种事件价格或者资产是如何在不同的团体之间传导的。这方面的研究对于提升市场效率有帮助,比如你要制定熔断或者涨跌停板,科学的办法就是基于这种信息传递链的研究。使得在市场失效的时候市场机制可以稳定信息的传递,不至于出现踩踏现象。

    三、关联帐号分析:其实从监管的角度来说,要查关联帐号,没有必要用这么深度的数据,统计帐号下单的IP或者联系券商客户经理就足够了。但是要从整个市场的层面来分析关联帐号以及关联帐号的作用——比如关联帐号是不是对盈利有帮助。帐号级别的数据是可以帮忙的。通过简单的方法可以定义一些关联帐号的规则——比如两个帐号大量交易在很短的时间间隔里面完成,具有高度的相关性。

    四、获利行为分析:这个研究在美国和韩国的我有看到过,但是中国也许不适合直接套用。简而言之,国外的Research有把短期的交易行为定义成Taker、Market Maker和Passive Trader。如何接地气的来看到这三种交易呢,Taker,就是抢单的,你可以理解为国内的日内炒手,Market Maker,做市商,期权中现在有了这个角色。Passive Trader,被动交易员,这个最迷惑,按国内的说法就是,大量撤单流——他们成交主要靠被动单来获得、退出风险。美国的经验来说,Taker的每单利润一般是Passive Trader的3倍,韩国也有类似的结果。中国这方面的研究可以在期货、期权上进行,股票上面直接套用可能不合适。

    说了这么多,都是从比较宏观的研究、监管的角度来说的,当然如果你是个体户、或者你是一个交易员,突然有一天来了一个人加你QQ,通过了二话不说直接传你一个压缩文件,你下载了发现拿到这么份数据,为了防止查水表请先在获得监管机构批准的情况下你可以考虑做以下事情:

    帐号信息你也不用了,反正也不知道都是谁,直接拿着Per Quote的信息做一个顶级回测吧,有了这个数据基本上你的回测都是极其Realistic了,滚蛋吧假设君。我不觉得这个数据可以让你策略从不赚钱直接变成赚钱,但是一定可以让你从赚钱变成更赚钱。

  2. bh lin
    理由
    举报 取消

    谢邀,这个是很有意思的问题,正好我做的实证研究就是利用类似的数据。我就袁兄答案中提到的账号级别的数据展开讲下。很多行为金融学上面的实证研究其实都是基于这些账号级别的数据,比如我在另外一个答案:股市中有哪些典型的「散户思维」?如何避免? – bh lin 的回答中提到的关于散户行为的研究。袁兄 @袁浩瀚 毕业的学校Berkeley的Odean教授是利用这些数据研究散户行为的先驱。所以学界最早使用账号级别数据的研究可以追溯到Odean的博士论文。 另外一大块的研究领域就是关于市场微结构和高频交易行为的实证研究。

    下面的答案分两个部分,第一部分简单介绍下学术研究中几个常用的数据来源,第二部分从实证行为金融学和市场微结构两块介绍下现有的一些研究成果,最后回到题主的问题,讲下文献中关注的一些measure

    数据来源

    数据集的价值体现在完整程度和详细程度两个方面。这两个象限也在一定程度上面限制你能够研究的内容和研究成果的可拓展性。目前账号级别的获取主要有以下三个来源:中间商,Central Security Depository和交易所。

    1. Brokerage

    就我所知,Barber教授和Odean教授是最早通过brokerage 提供的投资者数据进行相关研究的。他们的数据包括:

    trading records for 66,465 households at a large discount broker and 665,533 investors
    at a large retail broker

    这两个数据适合研究个体投资者,但是他们的数据并不包括机构投资者。据我所知,Odean教授非常慷慨的免费提供这些数据给其他研究学者。

    2. Central Security Depository

    Central securities depository 记录股票所有权的归属和转移情况。所以CSD提供的数据具有高度的完整性,包括了所以涉及所有权变化的数据:交易,M&A,遗产继承等等。由于通常与投资者的social security信息相连,所以能够提供的数据比简单的账号ID还要更加详实点,比如包括投资者类型,使用语言,国籍,所在地(邮编),性别,职业信息等等。目前欧洲几国的数据由Euroclear提供。

    通过和其他的一些数据集关联,还可以获取更多的信息。这方面由于北欧几国的政府很早开始完善国民的数据收集,所以可以获取的数据集,涵盖的范围领先于其他国家。比如瑞典Statistics Sweden提供的瑞典480万家庭的投资状况,涵盖了收入,股票和股票之外的资产状况等等。比如芬兰军方提供的IQ测试数据和芬兰交通部提供的交通处罚信息等。

    这个数据最大的优势是齐全。比如芬兰的数据,它涵盖了市场中超过98%的投资行为。但是这个数据是daily的,通过和order book 比对可以确认部分交易数据的intra-day 的信息(毫秒级的timestamp,成交时候的order book status等等),但是并不能完全1-1对应。另外,未成交的数据并没有包含在内。

    3. Exchange

    交易所可以提供的数据除了标准的trade and quote数据之外,比如Nasdaq OMX还提供HFT专门的交易记录。比如下面的这篇论文http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2619686就采用Nasdaq OMX的数据,研究了包括Optiver,Virtu,Getco等等在内的高频交易公司在瑞典股市的交易状况。

    另外也有一些研究学者获取了大型机构投资者自有的交易数据。当然这些数据的获取难度更高。

    现有的研究成果

    拥有账号级别的数据和投资者分类的数据可以对具体投资者的投资行为,交易类型做分析。那么显然相关的研究领域就是行为金融学。另外,intra-day的账号级别数据则可以方面研究高频交易的行为。

    1. 行为金融学

    这下面可以大致分为三类:

    a. 投资者,特别是个体投资者的psychological bias

    这块的研究在我的回答:股市中有哪些典型的「散户思维」?如何避免? – bh lin 的回答有涉及。

    b. 和行为相关的return anomalies

    最近的几篇文献包括Ron Kaniel和他的合著者的几篇:

    Are Retail Traders Compensated for Providing Liquidity?, forthcoming at the Journal of Financial Economics, 2015 (with Jean-Noël Barrot and David Sraer)

    Individual Investor Trading and Return Patterns around Earnings Announcements, Journal of Finance, 2012, 67, 639-680(with Shuming Liu, Gideon Saar and Sheridan Titman)

    Individual Investor Trading and Stock Returns, Journal of Finance, 2008, 63 (1), 273-310 (with Gideon Saar and Sheridan Titman)

    c. 各类投资者的交易模式(momentum,contrarian,etc)

    最早引入momentum factor的carhart的文章是基于mutual fund,自然很多的研究就把类似的factor引入到研究各类投资者的交易模式当中。

    2. 市场微结构与高频交易

    这里不得不提到荷兰的Albert J. Menkveld 教授,他们的相关研究做的非常出彩,比如:

    1. HFT和大型机构投资者的关系:

    High-Frequency Trading Around Large Institutional Orders, 2015, with Vincent van Kervel

    2. 交易所延迟和HFT的获利 (Nasdaq又一次提供了很好的自然实验):

    Need for Speed? Exchange Latency and Market Liquidity,

    3 测算内容

    可以测算的内容包括但不限于:

    1. 交易模式相关:

    a. (某个投资群体的)净交易量

    b. 交易频率

    c. 投资周期

    2. 交易动机:

    a. return (momentum/contrarian)

    b. 是否informed

    c. liquidity provider/taker

    3. Financial sophistication

    a. diversification measure (持股种类等等)

    b. 每个投资者的PnL,alpha,beta

    通过测算这些数据,结合其他相关的数据,那么可以研究很多有意思的问题,

    1. 比如投资者在股市中扮演的角色

    2. 比如什么样的股票收到某类投资者的青睐

    3.比如信息优势是否能够转化为投资优势

    4. 比如对于高频交易者,交易所的延迟是否越低越好?

    5. 比如投资经验是否有助于成功的投资?

    6. 比如为什么informed trader倾向于采用odd-lot order?

    。。。。

  3. 小国诸侯
    理由
    举报 取消

    十九世纪,科学家认为,只要掌握了所有实物的初始状态,根据牛顿力学,就能推演出后续所有的变化,然而

    后来产生了混沌、分形和耗散三位天神

  4. 数据哥
    理由
    举报 取消

    谢邀

    我对股票方面的知识确实比较欠缺,目前大数据与股票结合比较紧密的就是量化投资,建议你可以去查询这方面的问题。

  5. 梦想永动机
    理由
    举报 取消

    你的假设里还差一个条件,数据的延时/滞后是多少?

    我会

    找出徐翔然后跟随。

    找出国家队然后逃跑。

    方法是,,

    你真的有数据和我换吗。

  6. jun zhao
    理由
    举报 取消

    已经有人做过,还整出大事了。赵瑜刚,原上证所监察部员工,北大光华管院毕业,被推荐去了上证所,在监察中顺便做了篇学术研究,基金交易行为和风格,结果被国内某杂志在没有上证所和赵本人授权下利用,结果某杂志一炮出名,赵本人黯然离职

  7. Adrian Gao
    理由
    举报 取消

    占坑。Honours时候的导师Joakim Westerholm手上有芬兰的帐号级别的数据,trade买卖双方ID,年龄性别国籍语言…,broker ID & name,….holdings……基于这个数据集已经有一篇Journal of Finance了,现在我们还准备弄个大新闻。。。

    芬兰的数据集就像前面 @bh lin 提到的那样,有着超级多的信息。

    • Euroclear给每一个投资者(retail and institutional)一个唯一的account ID,即使这个投资者使用不同的broker来参与交易。
    • Euroclear会记录每一个投资者(account)每天的shareholdings,并且是整合了该投资者所有brokerage accounts。
    • 结合Nasdaq OMX Helsinki Stock Exchange的trade by trade交易数据,除开正常的price,time,volume,…每一条里都包含买卖双方account ID,account type,legal type,年龄,生日,国籍,语言,…各自使用的broker,transaction reference code,……
    • 强制服兵役前的IQ测试成绩……

    嗯……关于IQ,详见

    GRINBLATT, M., KELOHARJU, M. and LINNAINMAA, J. (2011), IQ and Stock Market Participation. The Journal of Finance, 66: 2121–2164. doi:10.1111/j.1540-6261.2011.01701.x

    以及

我来回答

Captcha 点击图片更换验证码