Con este nombre de referencias orwelianas se denomina al conjunto de técnicas y herramientas que en los últimos años han surgido para procesar y analizar la enorme cantidad de información, estructurada o no, que se genera en el uso de internet y las nuevas tecnologías, algo inabarcable si se utilizaran las bases de datos relacionales convencionales. Las dos características que definen el Big Data son, por lo tanto, el gran volumen de información, del orden del petabyte (1015 bytes) o exabyte (1018 bytes) y su almacenamiento en bases de datos no relacionales(1).
Aparte del volumen, algo característico también de la información recopilada por Big Data es la gran diversidad tanto del origen como del formato. Dispositivos móviles, electrodomésticos, medios de transporte, sistemas de audio y vídeo, localizadores GPS, sensores industriales… Todo aparato o sistema susceptible de ser conectado a la red se convierte de inmediato en un candidato a suministrador de información para Big Data.
Una de las principales fuentes de datos son las redes sociales. Se calcula que solamente Twitter genera diariamente 12 terabytes (1012 bytes) de información. Facebook, por su parte, almacena cerca de 100 petabytes de fotos y vídeos. Y su volumen no deja de crecer: según un estudio realizado por Cisco (2), entre 2011 y 2016 la cantidad de tráfico de datos móviles crecerá a una tasa anual del 78%.