Banco de Dados, Dados de ultra alta frequência e microestrutura de mercado.
Me perguntaram sobre o tipo de pesquisa que eu realizo que envolve a necessidade de armazenamento tão grande de dados, e vou aproveitar para explicar um pouco a pesquisa. Parte do sistema de banco de dados está relacionado ao armazenamento e processamento de dados conhecidos como de ultra alta frequência.
Dados de ultra alta frequência são basicamente de dois tipos - transactions e quotes. Quote data são as cotações de preços de venda e compra que estão no sistema de transações de alguma bolsa ou sistema eletrônico de compra, e basicamente refletem o processo de "leilão" de preços de compra e venda até que se chegue ao preço de transaction, isto é, o preço que foi efetivamente válido na operação de compra e venda.
Além de preços de compra e venda os dados de transactions e quotes contém informações como o tamanho do lote e a hora específica da transação. Note que além do próprio processo estocástico de preço, o volume e a própria hora de transação são variáveis aleatórias que também são muito importantes.
Por exemplo uma pergunta comum é verificar se o tamanho das ordens afeta o spread entre preço de compra e venda; por exemplo em um mercado mais líquido existem mais transações ocorrendo, e a pergunta relevante é - será que existem um prêmio de mercado pela liquidez? Todas estas questões (e muitas outras) são conhecidas como a literatura de microestrutura de mercado. Microestrutura de mercado é um tema interessante porque em geral efeitos de informação assimétrica e ineficiência de mercado são extremamente relevantes nestes dados, o que não ocorre em dados de frequências mais baixas como dados diários.
O banco de dados é muito grande, já que em um mercado líquido podem existir milhares de cotações e transações em um mesmo dia, por exemplo a minha série de operações de euro/dólar deve ter cerca de 80 milhões de observações, o que requer um bocado de espaço para armazenagem.
A análise econométrica é muito interessante, e para um artigo explicando esta abordagem um clássico é o artigo do Engle. The Econometrics of Ultra-High Frequency Data.
Uma descrição mais detalhada está no livro:
Empirical Market Microstructure: The Institutions, Economics, and Econometrics of Securities Trading by Joel Hasbrouck, que é um dos pesquisadores mais importantes nesta área. Eu já coloquei alguns alguns outros bons livros aqui, então é só dar uma boa busca.
Eu tenho um artigo sobre microestrutura de câmbio, e lá tem boa boa introdução a esse assunto.
Microestrutura Empírica e Mercado - Uma Análise para a Taxa de Câmbio Brl/Us$ Usando Dados de Alta Freqüência.
Uma outra aplicação interessante de dados de alta frequência é a modelagem de volatilidade realizada, que é a construção da volatilidade de um determinado dia através dos retornos intradiários. Um bom survey de volatilidade realizada está aqui, com as vantagens e dificuldades desta abordagem.
Além da necessidade de armazenar os próprios dados, o que já ocupa um tamanho gigante, para poupar tempo eu armazeno as séries de volatilidades realizadas contruídas por vários métodos, séries filtradas de outliers, séries agregadas em várias frequências (os dados são distribuídos de forma desigual durante o dia, por exemplo uma transação pode ocorrer agora e outra daqui a 3 segundos, mas alguns métodos de estimação exigem que os dados sejam agregados em frequências fixas, como por exemplo preços observados de 5 em 5 minutos). Desta forma se gasta espaço adicional para economizar tempo. Eu armazeno aqui dados de taxas de câmbio e mercado de ações, mas também existem dados intradiários para o mercado de derivativos que eu (ainda) não tenho acesso.
Dados de ultra alta frequência são basicamente de dois tipos - transactions e quotes. Quote data são as cotações de preços de venda e compra que estão no sistema de transações de alguma bolsa ou sistema eletrônico de compra, e basicamente refletem o processo de "leilão" de preços de compra e venda até que se chegue ao preço de transaction, isto é, o preço que foi efetivamente válido na operação de compra e venda.
Além de preços de compra e venda os dados de transactions e quotes contém informações como o tamanho do lote e a hora específica da transação. Note que além do próprio processo estocástico de preço, o volume e a própria hora de transação são variáveis aleatórias que também são muito importantes.
Por exemplo uma pergunta comum é verificar se o tamanho das ordens afeta o spread entre preço de compra e venda; por exemplo em um mercado mais líquido existem mais transações ocorrendo, e a pergunta relevante é - será que existem um prêmio de mercado pela liquidez? Todas estas questões (e muitas outras) são conhecidas como a literatura de microestrutura de mercado. Microestrutura de mercado é um tema interessante porque em geral efeitos de informação assimétrica e ineficiência de mercado são extremamente relevantes nestes dados, o que não ocorre em dados de frequências mais baixas como dados diários.
O banco de dados é muito grande, já que em um mercado líquido podem existir milhares de cotações e transações em um mesmo dia, por exemplo a minha série de operações de euro/dólar deve ter cerca de 80 milhões de observações, o que requer um bocado de espaço para armazenagem.
A análise econométrica é muito interessante, e para um artigo explicando esta abordagem um clássico é o artigo do Engle. The Econometrics of Ultra-High Frequency Data.
Uma descrição mais detalhada está no livro:
Eu tenho um artigo sobre microestrutura de câmbio, e lá tem boa boa introdução a esse assunto.
Microestrutura Empírica e Mercado - Uma Análise para a Taxa de Câmbio Brl/Us$ Usando Dados de Alta Freqüência.
Uma outra aplicação interessante de dados de alta frequência é a modelagem de volatilidade realizada, que é a construção da volatilidade de um determinado dia através dos retornos intradiários. Um bom survey de volatilidade realizada está aqui, com as vantagens e dificuldades desta abordagem.
Além da necessidade de armazenar os próprios dados, o que já ocupa um tamanho gigante, para poupar tempo eu armazeno as séries de volatilidades realizadas contruídas por vários métodos, séries filtradas de outliers, séries agregadas em várias frequências (os dados são distribuídos de forma desigual durante o dia, por exemplo uma transação pode ocorrer agora e outra daqui a 3 segundos, mas alguns métodos de estimação exigem que os dados sejam agregados em frequências fixas, como por exemplo preços observados de 5 em 5 minutos). Desta forma se gasta espaço adicional para economizar tempo. Eu armazeno aqui dados de taxas de câmbio e mercado de ações, mas também existem dados intradiários para o mercado de derivativos que eu (ainda) não tenho acesso.
1 Comments:
Obrigado pela resposta Márcio!
Realmente não tinha pensado nesse tipo de análise. É um trabalho muito legal mas que só pode ser feito através do acesso aos dados (privados) de algum sistema como Reuters/Bloomberg certo?
Já tinha visto alguns posts seus sobre microestrutura de mercado...Tinha procurado alguma coisa na internet sobre isso mas não tinha dado muita atenção. É um tema interessante.
Obrigado pela resposta e feliz natal!
Postar um comentário
<< Home