Big Data y Data Science: ¿Cuál es la diferencia?

El acoso en línea y las campañas de troleo e intimidación han contaminado algunas secciones de Internet y plantean amenazas muy reales fuera del mundo virtual, con efectos desproporcionados sobre las mujeres. En el caso más trágico, los mensajes contra la comunidad rohingya de Myanmar precedieron a las violaciones y masacres de 2017. Los investigadores en materia de derechos humanos llegaron a la conclusión de que Facebook, con su caudal de noticias alimentado por algoritmos, contribuyó a difundir el discurso del odio y la incitación a la violencia (Bachelet, 2019, p. 1). Así, las bondades y los riesgos del uso del big data en relación a los derechos humanos son dos caras de la misma moneda.

Por eso, la captura ininterrumpida de la información no solo permite abordar el fenómeno de la opinión pública de manera compleja y fluida, sino también sortear situaciones que son tradicionalmente adversas a las metodologías de encuestas que representan una “toma instantánea” altamente influenciada por la contingencia. Un ejemplo de esto sería la bajada de un candidato presidencial en medio del levantamiento de una encuesta de opinión. Por eso, siguiendo la metáfora, si las encuestas de opinión pueden describirse como una “foto instantánea” de la realidad, el monitoreo de redes es un “video” que captura la opinión pública https://laverdad.com.mx/2023/12/unico-en-mexico-y-el-mundo-el-bootcamp-de-programacion-de-tripleten/ y las conductas en movimiento, distinguiendo entre tendencias instaladas, hechos coyunturales y temas emergentes. La calidad de los datos es otro factor que incide y debe de ser considerado pues hay tres situaciones en las que la pureza de los datos puede afectar los resultados. Esto influye por la manera en que se realiza el análisis de los grandes cúmulos de datos; por ello, es preciso entender que, por un lado, se encuentra quien recoge los datos de manera bruta y los vende. Luego, por medio de esa relación contractual, se reciben los datos que se habrán de analizar y se estipula la calidad de los mismos.

«La IA nos da superpoderes que hay que saber utilizar»

En cuarto lugar, ya que las tecnologías de almacenamiento evolucionan, es cada vez más factible proporcionar a los usuarios, casi en tiempo real, análisis de bases de datos más grandes, lo que acelera las capacidades de toma de decisiones. Cabe notar que una diferencia importante con las encuestas de opinión dice relación con los métodos de recolección de información. Si la encuesta de opinión se basa en el despliegue de encuestadores cara a cara, vía telefónica, y últimamente a través de internet, en el análisis de redes sociales digitales es necesario desplegar otro tipo de conocimientos. Gran parte de los datos sobre redes digitales o internet se obtienen a partir de métodos de programación mediante los cuales se automatiza la recolección de información de sitios web, periódicos o redes sociales, una técnica conocida como “web scraping”. Twitter, por ejemplo, ha desarrollado y puesto a disposición del público un código que sirve como vía de acceso a la información que se produce públicamente en la red, a través de lo que se conoce como “Application Programming Interface” o API.

articulos cientificos de big data

Este estudio es de especial interés porque permite realizar monitoreos epidemiológicos, caracterizando aquella población que se enferma, pero no ingresa a un hospital, o de aquellos que nunca muestran síntomas. Bajo estas circunstancias, es muy difícil rastrear cómo se propaga la enfermedad y cuántas personas realmente mata. Así, con la investigación empleando IA, se logra obtener información predictiva que ayuda a las autoridades sanitarias a tomar cartas sobre el asunto. Por ejemplo, mediante un modelo de ramificación para estimar cuántas personas han sido infectadas, se analiza ADN viral extraído de cada paciente conocido, luego, el modelo utiliza la tasa de mutación para interpolar a cuántas otras personas pasaron el virus en el camino (Li & Ayscue, 2020). Otro tipo de investigación de IA utilizando aprendizaje profundo es mediante el uso del lenguaje natural, que permite crear nuevos medicamentos a partir de la búsqueda de compuestos existentes (Freedman, 2019).

Utilización de Big Data y Machine Learning en la Industria 4.0

Esta disciplina, conocida como Ciencia de Datos (Data Science en inglés) es la segunda componente en la metodología de análisis de datos a gran escala. Otra diferencia fundamental con las encuestas de opinión es que la información y los temas de búsqueda no se definen ex ante en una pauta de encuestador, sino que estos aparecen como una masa de información tremenda que debe ser ordenada y clasificada ex post. Mientras las encuestas y datos administrativos son diseñados para propósitos estadísticos, el big data opera en muchas ocasiones en base a datos que fueron recogidos para otros propósitos. Por eso, el big data más bien parece una forma de “escucha” inductiva más que un levantamiento de datos tradicional. Ahora bien, para llevar a cabo esta tarea es necesario contar con la participación de investigadores y analistas que den sentido a la información a partir de teorías, sin perjuicio de que se puedan usar algoritmos que busquen patrones en la información.

Un hecho significante que señalan Paterson y Maeve es que los programas de inteligencia artificial «aprenden de los datos para poder reconocer inteligentemente nuevos datos y adaptarlos de conformidad a lo aprendido» (2018, p. 3). Los algoritmos que se usan para hacer este análisis de big data generalmente no son transparentes y crean lo que Paterson y Maeve han descrito como el efecto black box. Es aquí, justamente, donde las técnicas de aprendizaje autónomo e inteligencia artificial que permiten que las máquinas logren decidir con base a un código de programación puede representar un riesgo para los derechos humanos (Ureña, 2019, p. 104), pues este tipo de información, puesta en manos de dictadores o potenciales terroristas, puede representar un gran riesgo para las sociedades (Alfaro et al., 2012, p. 111).

IA, Big Data y ciberseguridad, claves en Navidad

Marcos Recio
(2014) plantea una relegación de la primicia porque, cada vez con más
frecuencia, la noticia es captada antes por el lector a través de redes sociales tan
populares como Twitter y Facebook. Incluso esta última genera, a través de FB
Newswire, su propio archivo de informaciones al que recurren frecuentemente los
medios de comunicación, lo que ha convertido Único en México y el mundo: el bootcamp de programación de TripleTen a esta red social en una fuente
primaria de noticias (Mitchell, 2014). En el ámbito de cuidados intensivos pediátricos, se han reportado varios estudios donde se han utilizado herramientas de análisis, tales como redes neuronales y aprendizajes automatizados con el fin de darle uso a los volumen y variabilidad de datos que se producen en las Unidades de Cuidado Intensivo Pediátricas.

Leave a Reply

Your email address will not be published. Required fields are marked *