16 Software para Análisis Estadísticos y Visualización de Datos
Rosa Molina
Analizaremos la oferta de software de análisis estadístico con enfoque científico y particularmente biológico. Tomaremos en cuenta aspectos como el costo, la disponibilidad en diferentes sistemas operativos, la diversidad de métodos, la interfaz, etc.
Si estás pensando en cambiar de software para tus análisis, o estás empezando y te gustaría saber cuál podría ser el mejor para ti, aquí te brindamos información sobre las opciones y nuestra recomendación. Vamos allá.
ADVERTISEMENT
Cuando hablamos de software estadístico nos referimos a aquellos programas y aplicaciones en los que podemos realizar análisis estadísticos, como por ejemplo, pruebas de hipótesis o modelos de regresión. Se les conoce también como "paquetes estadísticos" y desde el principio de la computación se han desarrollado (y se han hecho obsoletos) en gran cantidad.
Dentro de estos programas también podemos realizar los gráficos necesarios para representar nuestros datos. La visualización de datos es una parte importante de estos software.
*En esta entrada usaremos los términos "paquete", "software" y "programa" de manera indistinta.
Comencemos. Para elegir un paquete estadístico, lo mejor es hacernos estas preguntas:
- ¿Me es posible instalarlo? ¿Está disponible para mi sistema operativo (Windows/Mac/Linux)?
- ¿Tengo el presupuesto para pagar la licencia? O en su defecto: ¿es gratuito y de libre acceso?
- ¿Ofrece los métodos y análisis que realizo con cotidianidad?
- ¿Es usado por mis colegas cercanos o por la comunidad científica dentro de mi área del conocimiento?
- ¿Me es intuitiva la interfaz de usuario (Línea de comandos o interfaz gráfica)?
- ¿Tengo el tiempo de aprender a usarlo?
Vayamos más a fondo sobre las respuestas a estas preguntas.
El modelo de pago. Cuando estemos cotizando software, hay que poner mucha atención al modelo de pago. En general existe el pago único (licencia perpetua) y el pago por suscripción (mensual o anual). Ambas tienen sus pros y contras. Mediante pago único frecuentemente no se incluyen las actualizaciones a nuevas versiones. Mientras que el pago por suscripción representa un gasto constante.
Por supuesto, nada de esto tiene relevancia si el software es gratuito.
Los métodos y visualizaciones. Cuando estemos buscando si los métodos que necesitamos están disponibles en algún paquete estadístico, debemos revisar muy bien en el sitio web del desarrollador. Podemos hacerlo en la documentación o en la página del producto. Si no nos proporcionan esta información, podemos buscar en Google o Youtube el método y software.
De la misma manera que con los métodos, hay que revisar si es posible generar (y editar o modificar de acuerdo a nuestras necesidades) los gráficos que requerimos en el programa que buscamos.
La interfaz. La interfaz de usuario se refiere a la forma en la que interactúa el usuario con el software. Muchas personas estamos acostumbradas a usar programas con ventanas, menús desplegables, y herramientas con el mouse. A esto se le llama interfaz gráfica (GUI).
Por otro lado, también existe la interfaz de línea de comandos (CLI), en la que la manera de trabajar es ejecutando funciones y especificando argumentos de acuerdo a la sintaxis de un lenguaje de programación determinado.
Algunas de las preguntas anteriores están muy relacionadas. Si el software es usado dentro de tu área de estudio, probablemente ofrezca los métodos que necesitarás usar. Por otra parte, si no te resulta intuitiva la interfaz, probablemente no tengas el tiempo de aprender a usarla.
Dicho esto, ya sea que estés pensando en cambiarte de software por cualquier razón, o que quieras aprender uno nuevo, a continuación te presentamos una lista con los más populares que encontramos.
Importante
Más abajo escribimos nuestra opinión sobre los paquetes estadísticos. No podemos hablar sobre todos porque no los hemos utilizado. Listamos las características generales de todos; sin embargo, sólo hablaremos de algunos con base en nuestra experiencia.
1. SPSS
Fuente: IBM.
- Desarrollador: IBM.
- Sistema Operativo: Windows / Mac OS / Linux.
- Última Versión: 2020.
- Licencia: Pago.
- Interfaz de usuario: GUI / CLI.
2. R
Fuente: R Foundation.
- Desarrollador: R Foundation.
- Sistema Operativo: Windows / Mac OS / Linux.
- Última Versión: 2020.
- Licencia: Gratuito.
- Interfaz de usuario: CLI / GUI.
3. Prism
Fuente: Graphpad Software, Inc.
- Desarrollador: Graphpad Software, Inc.
- Sistema Operativo: Windows / Mac OS.
- Última Versión: 2021.
- Licencia: Pago.
- Interfaz de usuario: GUI.
4. SAS
Fuente: SAS Institute.
- Desarrollador: SAS Institute.
- Sistema Operativo: Windows / Linux.
- Última Versión: 2020.
- Licencia: Pago.
- Interfaz de usuario: GUI / CLI.
5. Stata
Fuente: StataCorp LLC.
- Desarrollador: StataCorp LLC.
- Sistema Operativo: Windows / Mac OS / Linux.
- Última Versión: 2021.
- Licencia: Pago.
- Interfaz de usuario: GUI / CLI.
6. Excel
Fuente: Microsoft.
- Desarrollador: Microsoft.
- Sistema Operativo: Windows / Mac OS.
- Última Versión: 2021.
- Licencia: Pago.
- Interfaz de usuario: GUI.
7. JMP
Fuente: JMP.
- Desarrollador: SAS Institute.
- Sistema Operativo: Windows / Mac OS.
- Última Versión: 2019.
- Licencia: Pago.
- Interfaz de usuario: GUI / CLI.
8. Minitab
Fuente: Minitab, LLC.
- Desarrollador: Minitab, LLC.
- Sistema Operativo: Windows / Mac OS.
- Última Versión: 2021.
- Licencia: Pago.
- Interfaz de usuario: GUI / CLI.
9. Origin
Fuente: OriginLab.
- Desarrollador: OriginLab.
- Sistema Operativo: Windows.
- Última Versión: 2019.
- Licencia: Pago.
- Interfaz de usuario: GUI.
10. MATLAB
Fuente: MathWorks.
- Desarrollador: MathWorks.
- Sistema Operativo: Windows / Mac OS / Linux.
- Última Versión: 2020.
- Licencia: Pago.
- Interfaz de usuario: CLI / GUI.
11. SYSTAT
Fuente: Systat Software Inc.
- Desarrollador: Systat Software Inc.
- Sistema Operativo: Windows.
- Última Versión: 2018.
- Licencia: Pago.
- Interfaz de usuario: GUI / CLI.
12. Mathematica
Fuente: Wolfram Research.
- Desarrollador: Wolfram Research.
- Sistema Operativo: Windows / Mac OS / Linux.
- Última Versión: 2020.
- Licencia: Pago.
- Interfaz de usuario: CLI / GUI.
13. MedCalc
Fuente: MedCalc Software Ltd.
- Desarrollador: MedCalc Software Ltd.
- Sistema Operativo: Windows.
- Última Versión: 2019.
- Licencia: Pago.
- Interfaz de usuario: GUI.
14. Python
Fuente: Python Software Foundation.
- Desarrollador: Python Software Foundation.
- Sistema Operativo: Windows / Mac OS / Linux.
- Última Versión: 2021.
- Licencia: Gratuito.
- Interfaz de usuario: CLI / GUI.
15. Statistica
Fuente: StatSoft.
- Desarrollador: Tibco Software.
- Sistema Operativo: Windows.
- Última Versión: 2020.
- Licencia: Pago.
- Interfaz de usuario: GUI.
16. JASP
Fuente: The JASP Team.
- Desarrollador: The JASP Team.
- Sistema Operativo: Windows / Mac OS / Linux.
- Última Versión: 2022.
- Licencia: Gratuito.
- Interfaz de usuario: GUI.
*En el apartado de "interfaz de usuario" colocamos la interfaz principal primero, cuando el paquete presenta ambas.
CLI vs GUI
El debate CLI vs GUI tiene mucho tiempo. Existen personas con la opinión de que usar una línea de comandos es la manera más profesional y pura. A lo que los partidarios de las interfaces gráficas responden que no tiene sentido preferirlas si las GUI son más sencillas de usar.
Esto es una simplificación del debate. Lo cierto es que, en nuestra opinión, ambos tienen razón. En Reptantia pensamos que ambas formas de trabajar son válidas si llegas al resultado que quieres. No es complicado, usa la que prefieras.
Sobre los paquetes que se presentan principalmente en forma GUI, SPSS es el más popular en general. Ha estado mucho tiempo en el mercado, mucha gente lo maneja bien y hay mucho contenido en internet sobre cómo usarlo.
Uno de los programas más recientes es Prism. Se ha consolidado muy rápido pues es de muy buena calidad y a nuestro parecer, más amigable e intuitivo que SPSS. Nos atreveríamos a decir que es el software estadístico más usado en algunas áreas específicas.
Excel es algo controversial. Por sí solo es muy básico, y en nuestra opinión entorpece el flujo de trabajo en un análisis. Sin embargo, existen extensiones, como XLStat y SigmaXL, que aumentan su potencial (aunque no arreglan el problema del flujo de trabajo) pero son de terceros y representan un costo adicional.
Respecto a Statistica, Minitab y SYSTAT, podemos decir que son funcionales y de calidad. Debemos aclarar que no tenemos mucha experiencia con ellos pero hemos recibido buenas referencias. (Por cierto, si algún lector sabe cuál es la diferencia entre SYSTAT, SigmaStat y SigmaPlot le agradeceremos su comentario).
En cuanto a los paquetes más enfocados en la línea de comandos (CLI), hay que decirlo, no es fácil usarlos. La curva de aprendizaje es grande. Es similar a aprender otro idioma (se llaman lenguajes de programación despúes de todo). No obstante, éstos son muy poderosos y con capacidad para mejorar/añadir funcionalidades más rápido. Además de que permiten mayor personalización y automatización de procesos.
En concreto, R fue diseñado para hacer estadística. Todo el lenguaje gira en torno a este objetivo. Por esto, R es igual de popular que SPSS, e incluso más utilizado que éste en algunas áreas. Eso sí, no es muy amigable en su versión en solitario, pero RStudio ayuda en este aspecto.
En contraste, Python no fue diseñado con el único propósito de hacer estadística. Python es un lenguaje muy poderoso y ésto lo ha hecho multifuncional. Esto significa que algunas veces tienes que escribir más código del que deberías (comparado con R). Nuestra posición oficial es que si se puede hacer en R, es mejor utilizar R. Pero definitivamente hay una infinidad de cosas en las que Python deja a R muy atrás (pero en estadística no).
Por último hablemos de MATLAB. En términos de modelación numérica está en la cima. No hay duda de eso. Pero para el tema que nos concierne ya entra en el terreno de la exageración. Es caro, poco intuitivo y más complicado de lo que debería ser. Si lo dominas puedes hacer grandes cosas. De otro modo, mejor empieza con R o Python.
Gratuito VS Pago
Es común pensar que lo que cuesta siempre es de mejor calidad que lo que es gratis. No obstante y en nuestra opinión, los paquetes estadísticos son una prueba de que no siempre es el caso.
R y Python son de tan buena calidad como SPSS y Prism. Incluso diríamos que son de mejor calidad que Excel y la mayoría de los programas de nuestra lista. No vienen con una gran interfaz gráfica (GUI) con menús desplegables y ventanas. Sin embargo, se les puede incorporar sin problema (RCommander para R, PyQT/Tkinter/etc. para Python), o usar un ambiente de desarrollo integrado (IDE) como RStudio para R y PyCharm/Spyder para Python.
Además, cuando una funcionalidad no existe en R o Python, desarrolladores externos puede programar librerías que todos podamos descargar e instalar (de forma gratuita). En contraste, cuando algo similar ocurre en software de pago, no se sabe si los desarrolladores de software lo vayan a implementar o no.
Menciones honoríficas
Primer
Fuente: PRIMER-e.
- Desarrollador: PRIMER-e
- Sistema Operativo: Windows.
- Última Versión: 2015.
- Licencia: Pago.
- Interfaz de usuario: GUI.
Past
Fuente: Paleontologia Electronica.
- Desarrollador: Paleontological Association.
- Sistema Operativo: Windows.
- Última Versión: 2013.
- Licencia: Gratuito.
- Interfaz de usuario: GUI / CLI.
En términos de ecología y/o paleobiología, es bastante común usar Past o Primer. Past es gratuito, ofrece un gran variedad de análisis y tiene interfaz gráfica. Primer es de pago, pero ofrece análisis que pocos paquetes tienen.
Comentarios finales
En conclusión, podemos decir que el mejor software estadístico no existe. Si el que usas se adapta a tus necesidades, no hay razón para cambiarse.
Pero si no sabes usar ninguno, te recomendamos aprender R con nosotros.
Eso es todo, ¡gracias por leer!
ADVERTISEMENT
- 0 comentarios
- Categorías:
- Estudiantes
- Investigadores
- Recursos
- Software
← Publicación más antigua Publicación más reciente →