White Paper News Analytics para Estratégias Quantitativas de Negociação
[Cross-posted from Predictive Signals]
O futuro gravado está construindo um produto analítico para a análise em grande escala do fluxo em linha dos meios que se espalha blogs e Twitter às notícias do grosso da população às limas do governo. O white paper que discute nossa abordagem analítica temporal pode ser encontrado aqui.
Embora nosso conteúdo tenha ampla aplicação em muitos domínios, tivemos interesse inicial significativo da área de negociação algorítmica em classes de ativos. Este documento incidirá sobre algumas abordagens analíticas relevantes para esta área.
Notícias Analytics
Gravado Futuro Notícias Analytics
Para definir estratégias de investimento, os investidores quantitativos tomam uma variedade de fluxos de dados, constroem modelos baseados em princípios como negociação de pares, reversão média, etc. Eles avaliam esses modelos com testes de retrocesso e outros métodos de simulação históricos e os implementam em estratégias de negociação .
O conteúdo analítico de notícias gravadas se encaixa diretamente nessa abordagem como um conjunto adicional de fluxos de dados analíticos de notícias que podem ser modelados por conta própria ou em conjunto com outros fluxos de dados.
Em alguns casos, os fluxos de dados do Futuro Gravado podem ser explorados para relações estatisticamente significativas com resultados de mercado de interesse e quando estes forem encontrados, otimizados e incluídos em estratégias de negociação. Outras abordagens podem simplesmente avaliar uma variedade de estratégias de negociação com base nos dados do Futuro Gravado.
O ponto de qualquer análise de apoio ao investimento é motivar uma mudança de posições. No final, qualquer sinal de interesse, contínuo, discreto ou composto será aplicado em uma estratégia de negociação. Antes de mergulhar muito profundamente em questões de modelagem, é importante considerar as classes de sinais disponíveis no conteúdo do Gravado Futuro.
Estes podem ser divididos em tipos de dados discretos e contínuos:
Tipos de dados futuros gravados
Medidas e métricas: Tipos de dados contínuos
Fluxos contínuos, ou seja, momento, sentimento, hedging, volume de entidade, volume de documento, são quantidades medidas ou calculadas que variam ao longo do tempo para eventos e entidades específicos.
Momentum é uma medida do "buzz" em torno de uma entidade específica (pessoa, empresa, lugar) ou tipo de evento (8220, fusão, 8221, 8220, viagens pessoa, 8221, etc). Baseia-se em níveis de curto, médio e longo prazo e mudanças no conteúdo, bem como a credibilidade da fonte e uma série de outros fatores. Pense nisso como um "Google Page Rank" para conteúdo de fluxo de mídia.
Medidas de sentimento incluem métricas da positividade e negatividade da linguagem utilizada no contexto de entidade ou evento, enquanto hedging é uma medida da certeza na linguagem que descreve uma entidade / evento. Por outro lado, as medições mais simples são simplesmente contar o número de instâncias de entidade ou instâncias de evento específicas para uma empresa de interesse.
Esses fatores são essencialmente séries temporais de métricas específicas ao longo do tempo. Essas medidas contínuas podem ser refinadas (subconjuntos) e agregadas (médias sobre superconjuntos) a grupos de interesse específicos conforme desejado. Por exemplo, o volume, o sentimento ea dinâmica da empresa podem ser agrupados por setor, por capitalização de mercado, etc. Essas medidas também podem ser discriminadas; Um poderia examinar o sentimento ou o volume do registro da companhia dos tipos específicos da fonte dos meios, do tópico dos meios, da geografia, etc.
Além disso, essas séries cronológicas podem ser avaliadas em diferentes estruturas. O conteúdo pode ser interpretado de acordo com o momento em que é publicado ou de acordo com o tempo que é disponibilizado no nosso sistema. Normalmente, esta diferença é pequena, embora possa ocasionalmente ser grande, por exemplo, ao adicionar uma nova fonte histórica. Esta escolha pode depender de que tipo de backtesting um está interessado em realizar.
Pode-se também querer concentrar-se no tempo do evento. À medida que novos eventos são adicionados ao nosso sistema, determinamos quando esses eventos são declarados a ocorrer, seja no passado, presente ou futuro. Esses tempos de evento são particularmente úteis para encontrar e analisar eventos futuros previstos.
Dados de Eventos e Temporais: Tipos de Dados Discretos
Os registros principais no banco de dados Futuro Gravado são instâncias de eventos e entidades. Entidades são tipicamente empresas, pessoas ou locais geográficos enquanto existem atualmente
150 tipos de eventos, incluindo 8220; Cotação, 8221; 8220; Aquisição, 8221; 8220; Earnings Call, 8221; para nomear alguns.
Considere um evento como uma cotação de Ben Bernanke sobre a taxa de fundos federais. O banco de dados Futuro Gravado conterá um registro de instâncias de eventos específicos para isso ao longo do tempo. Cada uma dessas instâncias é um evento atômico, derivado de um único evento observado e pode ser usado em modelagem adicional. Também é possível gerar eventos discretos a partir de medidas contínuas, por exemplo, uma empresa específica com uma mudança de momento de X ao longo de uma semana.
Eventos atômicos podem ser agrupados para formar eventos compostos. Por exemplo, três ou mais comunicados de imprensa e dois ou mais eventos de insider trading acontecendo na mesma semana para uma determinada empresa é um evento composto. Podemos criar um único evento a partir de um conjunto de regras aplicadas a eventos atômicos. As regras para a definição de um evento composto podem ser arbitrariamente complexas e podem incluir a ordenação parcial do tempo, bem como a ocorrência de intra-relações específicas entre eventos atômicos (isto é, o comunicado de imprensa e os eventos de insider trading correspondem todos à mesma empresa)
Esses eventos compostos estão intimamente relacionados a eventos complexos e sua detecção e análise está relacionada ao processamento de eventos complexos. Conforme definido aqui, o evento composto é a coleção de eventos atômicos agregados e o evento complexo é um evento de nível superior inferido da existência do evento composto, talvez mudanças significativas ocorrendo em uma empresa que atenda a esses critérios.
Análise do sinal
Modelando Métricas de Mercado com Variáveis Futuras Gravadas Contínuas
A análise de dados contínuos pode ser realizada usando uma variedade de abordagens de regressão examinando o poder explicativo dos dados contínuos contra resultados de interesse, tais como retornos, volume de negociação ou volatilidade. Outros preditores podem ser adicionados para ver se os dados contínuos do Futuro Gravado fornecem poder explicativo depois de compensar outras variáveis como o desempenho do SP.
Em uma dessas análises postadas em nosso blog, nós olhamos para saber se ou não as diferenças de impulso para uma empresa foram preditivos de mudanças no volume de mercado após a mudança de impulso. Em uma regressão controlando tanto o volume de dias anteriores como o volume médio nos últimos 20 dias, encontramos uma relação estatisticamente significativa entre o momento inicial dos dias anteriores (ponderado pelo volume médio à direita). O ajuste específico do modelo foi:
DVt = a * DV (t-1) + b * SMA (DV, t-1, t-20) + c * (MOt-1 * SMA
Onde DVx é o Volume de Dólar no momento x, o SMA fornece uma função de média móvel simples em um intervalo de períodos de tempo, MO é a medida de momento de Futuro Gravado e et é o termo de erro no instante t. Realizou-se a análise no ambiente de computação estatística R eo modelo ajustado foi:
Lm (fórmula = Dollarvol.1
0 + lDollarvol.1 + smaDvol. Dollarvol.1 + smaxlMo, data = seriesdf)
Residuais:
Min 1Q Median 3Q Max
-5.039e + 09 -2.215e + 07 -2.284e + 06 1.813e + 07 1.597e + 10
Coeficientes:
Estimativa Std. Erro t valor Pr (& gt; | t |)
LDollarvol.1 0,513193 0,003237 158,54 & lt; 2e-16 ***
SmaxlMo 0,077162 0,015683 4,92 8,67e-07 ***
Signif. 0 Erro padrão residual: 170900000 em 72109 graus de liberdade Quadrado R múltiplo: 0,8539, R ajustado ao quadrado: 0,8539 Estatística F : 1,405e + 05 em 3 e 72109 DF, valor de p:
Erro padrão residual: 170900000 em 72109 graus de liberdade
R-quadrado múltiplo: 0,8539, R ajustado ao quadrado: 0,8539
F-estat�tica: 1,405e + 05 em 3 e 72109 DF, valor de p: & lt; 2.2e-16
O coeficiente positivo para o termo SmaxlMo implica aumento do volume de negociação com o ímpeto crescente. Mais detalhes sobre essa análise de momentum podem ser vistos em nosso blog.
Este exemplo é apenas uma possibilidade de como usar métricas contínuas de Futuros Gravados como um preditor para dados de mercado. Muitas outras abordagens são possíveis.
Talvez mais significativamente, essas métricas podem ser incorporadas em modelos existentes para adicionar mais poder explicativo. Se a "notícia" está contribuindo com ruído para um modelo existente, a incorporação de dados analíticos de notícias pode melhorar o desempenho do modelo. Investidores quantitativos podem considerar as estratégias que estão usando hoje e avaliar a utilidade potencial da adição de métricas analíticas de notícias a modelos existentes.
Modelando Métricas de Mercado com Variáveis Futuras Gravadas Discretas
A avaliação de um sinal discreto para negociação pode envolver a derivação de um conjunto de negociações potenciais (ou não-negociação se avaliar estratégias de hiato de negociação) a partir do sinal e avaliar os retornos obtidos por fazer esses comércios. A direção do comércio eo aumento / queda do preço do ativo concordam com mais freqüência do que o esperado? Qual é o retorno médio dos negócios feitos usando o sinal? Quais são os rácios Sharpe / Sortino de negociações com base no sinal de negociação? Como os retornos ao sinal negociando fazem contra o mercado? Essas abordagens são apropriadas para eventos discretos atômicos e compostos.
Em outro exemplo do nosso blog, nós olhamos para eventos "futuros" para empresas SP500 onde eventos futuros são limitados a eventos "ocorrendo" após a publicação, com duração de um dia ou menos e ocorrendo em um dia de negociação. Então, olhamos para ver se o volume de mercado nestes dias para essas empresas era maior do que a média.
Encontrou-se uma relação estatisticamente significante onde o volume nestes dias "futuros" era em média mais alto do que em outros dias. Também analisamos isso para empresas individuais usando um teste de wilcoxon e observamos que para um número inesperadamente grande de empresas, os dias futuros aumentaram o volume.
Relação entre Eventos Futuros e Valor de Negociação
Histograma de P-Valores para relação entre Eventos Futuros e Volume de Negociação.
Um número desproporcional das relações mostra significância estatística.
Se não houvesse relação entre os eventos futuros eo volume, seria de esperar que este histograma fosse relativamente plano, com cerca de 5% dos testes t tendo um valor p inferior a 5%. Em contraste, vemos cerca de 35% de nossas empresas terem diferenças significativas entre o volume de eventos previstos eo volume não previsto. Este tipo de previsão de volumes pode ser útil se um investidor estiver interessado na mudança na liquidez de um dado estoque ao longo do tempo.
No último exemplo, analisamos métricas de mercado em dias associados a eventos discretos a partir da base de dados do Futuro Gravado e comparamos com métricas de mercado em outros dias para ver se os eventos discretos estão associados a diferenças nesses eventos. No exemplo da seção anterior, analisamos se havia uma relação entre a métrica de momento contínuo eo volume de negociação. Também é possível combinar essas variáveis discretas e contínuas em métricas arbitrariamente complexas também.
Por exemplo, em uma terceira postagem no blog examinamos se havia uma relação entre as menções da empresa em um blog específico de notícias financeiras (FT Alphaville) e os retornos futuros do mercado. Especificamente para dias discretos em que uma empresa foi mencionada nesse blog, calculamos uma métrica baseada no sentimento e no momento para essa empresa e buscamos um relacionamento entre essa métrica e os retornos. Encontramos uma relação estatisticamente significativa e, curiosamente, não encontramos uma relação semelhante entre as menções da mídia como um todo.
Até agora, consideramos eventos atômicos discretos. Os eventos compostos podem ser arbitrariamente complexos e também pode ser útil pensar em classificá-los para relevância potencial. Considere o mundo das fusões e aquisições onde podemos monitorar 15-20 classes diferentes de eventos atômicos e desencadear o evento composto quando uma "massa crítica" dos vários eventos ocorreu. "Massa crítica" pode ser uma pontuação que é construída através da aplicação de critérios de pontuação para os eventos subjacentes. Talvez as fontes mais relatório sobre uma possível fusão, maior a pontuação do evento "fusão" é etc
Sinais como este podem ser avaliados por um ser humano para potencial relevância, em vez de ativar automaticamente um comércio. Um paradigma de detecção de eventos compostos pode fornecer valor acompanhando inúmeros eventos de nível inferior que em si mesmos podem não ser informativos, mas quando combinados com outros fluxos de eventos semelhantes podem levar a um sinal coerente.
Estratégias de Negociação.
Relações estatisticamente significativas são importantes, mas para realmente gerar lucros a partir de um sinal específico, uma estratégia de negociação explícita deve ser especificada. Com base em um dado sinal, haverá um grande número de estratégias disponíveis, variando os tempos de espera e estratégia de portfólio, bem como definir o que as decisões de transações são vinculados a quais os níveis do sinal. Além disso, outros sinais de outras fontes podem ser integrados, tanto na seleção de comércios e também carteiras de ponderação. Claramente, o valor comercial potencial de qualquer sinal dependerá muito da estratégia de negociação empregada que o usa. Especialização em modelagem financeira será necessária para selecionar a estratégia de negociação ideal para qualquer sinal de interesse.
Exploramos uma abordagem para isso em uma postagem no blog. Nesse caso, analisamos uma estratégia de negociação baseada em uma mudança de sentimento em fontes específicas sobre uma empresa.
De acordo com a estratégia selecionada, se sentimento positivo foi aumentando ao longo do tempo que tomou ou manteve uma posição longa, enquanto uma diminuição do sentimento positivo levou a tomar ou manter uma posição curta. A avaliação do desempenho de mercado de uma carteira de papel com base nesses sinais de negociação é exibida abaixo.
Sentimento versus desempenho do SP500
Esta estratégia particular fêz um bom trabalho que responde à crise de mercado em 2008 atrasado mas não fare bem em tempos menos turbulentos. Talvez esse sinal possa ser usado em outras estratégias de negociação para melhorar o desempenho.
Análise independente de negociação
Pode-se querer procurar relacionamentos estatisticamente significativos entre dois tipos de eventos, ou eventos e leituras contínuas que não estão relacionados à negociação. Em geral, temos uma coleção de processos pontuais e fluxos de dados contínuos. Explorar se os processos pontuais são preditivos de processos contínuos pode ser feito de forma semelhante às estratégias de negociação discutidas anteriormente. Examine o conjunto de mudanças na variável contínua após um evento e determine se o comportamento é típico ou não.
Por exemplo, considere um conjunto de mudanças de momento por dia para uma empresa quando o evento não ocorreu. Esta coleção de mudanças terá uma média e uma variação. Consideramos também as mudanças de momentum do conjunto muito menor de dias após ocorrências de eventos específicos.
Podemos usar abordagens paramétricas (ou seja, teste t) ou não paramétricas (isto é, teste wilcoxon) para estabelecer a probabilidade de os dois conjuntos de dados terem a mesma distribuição. Estas abordagens podem estabelecer uma relação estatisticamente significativa entre os dois sinais, embora não atinjam o padrão para determinar a causalidade.
Examinar as relações entre os processos pontuais pode ser realizado de várias maneiras. Uma abordagem simples é observar a taxa de ocorrência em um dos tipos de eventos em períodos de tempo antes ou depois do outro tipo de evento. Compare as taxas observadas nestes períodos de tempo com as taxas globais para avaliar a importância das relações.
10 experimentos de modelagem financeira para você rodar com o Recorded Future's News Analytic Data
Aqui estão algumas sugestões de análises que você pode executar com o Gravado Futuro.
Posso criar uma estratégia de negociação rentável usando métricas baseadas no sentimento e no momento para diferentes tipos de eventos?
Posso detectar momentos em que o sentimento / momento de uma empresa diverge daqueles para uma indústria?
São certos eventos preditivos de retornos anormais?
Posso definir um conjunto de eventos ocorrendo no futuro que são preditivos de métricas de mercado, como retornos anormais, volatilidade ou volume?
Posso incorporar conteúdo do Gravado Futuro (eventos ou métricas da empresa) nos meus modelos existentes para melhorar o poder previsto.
Posso prever os tempos em que meus modelos existentes falham.
Posso encontrar coleções de eventos relacionados que são preditivos de métricas de mercado.
Posso avaliar a credibilidade de uma fonte observando previsões do passado
Posso detectar períodos de silêncio para as empresas?
Existem diferenças entre blog e mainstream sentimento e posso construir um sinal comercial a partir deste.
Introdução à API do Google Analytics
Os usuários acessam o conteúdo do Gravado Futuro por meio de uma Interface de Programação de Aplicativos (API) baseada em Web Services. Usando um formato padrão da indústria JSON, muitos idiomas e ambientes diferentes podem ser usados para acessar o serviço, incluindo Python, Java, R e Matlab.
Mantemos a documentação de nossa API de análise de notícias, bem como exemplos e elaboramos um tutorial mostrando como usá-los. Esses exemplos são hospedados em nosso novo site do Google Code. Que é o nosso repositório central para hospedar esses exemplos.
O usuário da API pode baixar esses exemplos e começar a acessar o conteúdo do Gravado Futuro imediatamente. O acesso a esta documentação não requer uma licença de API e qualquer pessoa interessada em uma investigação mais profunda e mais técnica da API e do conteúdo pode revisar os materiais no site do Google Code.
Interface Analítica Futura da Web Gravada
Gravado Futuro também fornece uma interface de usuário para interagir com o nosso conteúdo. Comerciantes quantitativos podem usar este site para começar a explorar o tipo de dados que organizamos para procurar sinais potenciais e padrões que eles podem usar para fazer comércios em uma base contínua.
O site da interface de usuário da web pode ser usado para suportar uma fase de geração de hipóteses. Uma vez que as hipóteses foram formuladas podem ser testadas através da API e se consideradas valiosas podem ser implementadas como parte de uma estratégia de negociação usando dados futuros obtidos através da API.
Qualquer padrão pesquisado pode ser monitorado sistematicamente através do uso de futuros chamados, onde um padrão é monitorado e os usuários notificados por e-mail se o padrão é correspondido - ou seja, notificar-me assim que há um problema de produto entre as empresas farmacêuticas dentro de uma semana de um produto lançamento.
Os dados analíticos da News Recorded Future contêm entidades e eventos discretos que ocorrem no passado presente e futuro, bem como um (crescente) número de métricas contínuas derivadas geradas a partir desses eventos e entidades. Uma API de serviço da Web está disponível para os investidores extrair conjuntos de dados de interesse em seu ambiente analítico de escolha e dados históricos estão disponíveis para a construção de modelos relevantes.
Uma vez que um investidor determinou um modelo útil, as consultas em tempo real da API podem ser realizadas para extrair os dados mais recentes a serem aplicados no modelo. Este conjunto de dados e ferramentas está atualmente em uso por profissionais de finanças e está disponível para outras pessoas interessadas em adicionar novas estratégias analíticas para suas abordagens de modelagem quantitativa.
No comments:
Post a Comment