Métricas científicas em estudos bibliométricos: detecção de outliers para dados univariados

Em Questão

Endereço:
Rua Ramiro Barcelos 2705, sala 519
Porto Alegre / RS
90035 007
Site: http://seer.ufrgs.br/EmQuestao
Telefone: (51) 3308-2141
ISSN: 1808-5245
Editor Chefe: Samile Andréa de Souza Vanz
Início Publicação: 01/01/1986
Periodicidade: Quinzenal
Área de Estudo: Ciências Sociais Aplicadas, Área de Estudo: Ciência da informação

Métricas científicas em estudos bibliométricos: detecção de outliers para dados univariados

Ano: 2017 | Volume: 23 | Número: Especial
Autores: Luís Fernando Maia Lima, Alexandre Masson Maroldi, Dávilla Vieira Odízio da Silva, Carlos Roberto Massao Hayashi, Maria Cristina Piumbato Innocentini Hayashi
Autor Correspondente: Luís Fernando Maia Lima | [email protected]

Palavras-chave: Outliers, Análise Exploratória de Dados, Assimetria, Bibliometria, Univariado

Resumos Cadastrados

Resumo Português:

Apresenta fórmulas, para dados univariados, de detecção de outliers que
levem em conta a assimetria dos dados, tanto positiva como negativa. A nova
formulação, proveniente da Análise Exploratória de Dados, é simulada
comparando os resultados com a proposta oriunda da Análise Exploratória de
Dados, presente na maioria dos livros-textos de estatística e softwares estatísticos,
mas que se aplica somente para distribuições normais ou gaussianas, ou seja,
simétricas ou com leve assimetria. Para a simulação, são utilizados dados reais
publicados por dois trabalhos na área de métricas científicas. Para assimetrias
positivas (negativas) moderadas ou fortes, a nova formulação detecta menor
(maior) quantidade de outliers superiores que a proposta clássica. É importante
levar em conta a existência de outliers nos dados bibliométricos, pois recomendase
quantificar a influência dos mesmos nos cálculos estatísticos, tais como média e
desvio padrão.



Resumo Inglês:

This study presents formulas for detection of outliers for univariate
data, taking into consideration the positive as well as the negative asymmetry of
data. This new formula is based on the Exploratory Data Analysis and is
simulated through the comparison of the outcome of the Exploratory Data
Analysis found in statistical text books and statistical software. However, only
normal or Gaussian distribution, i.e., symmetric or slightly asymmetric values, are
applied. Real data published in two scientific papers on metrics are used for the
simulation. For moderate or strong positive (negative) asymmetries, the new
formulation detects a lower (higher) quantity of superior outliers. It is important to
take into account the existence of outliers in bibliometric data; it is recommended
to quantify the influence of outliers in statistical calculation, such as mean and
standard deviation.