Para começar, um lago de dados contém dados não estruturados, como imagens, PDFs, áudio, registros e assim por diante. Os data warehouses são dados de linhas e colunas altamente estruturados. Em segundo lugar, um data lake não requer hardware ou software especial, ao contrário de um data warehouse. O senhor pode usar qualquer dispositivo que suporte um sistema de arquivos simples, até mesmo um mainframe, se desejar.
A grande diferença, no entanto, é que em um data warehouse, o senhor processa os dados antes de serem armazenados. Com um data lake, o senhor o preenche com o que quer que seja e o processa mais tarde, quando precisar.
E é aí que isso vai contra a borda. A borda deve atuar como um filtro para dados desnecessários. Um sistema de borda que recebe dados de um carro, por exemplo, não quer leituras de sensores que digam que tudo está normal, ele quer o que é incomum ou aberrante. É isso que é enviado para o data center principal. E é assim que um data warehouse funciona.