水刑–分析比喻走得太遠

點滴分析

像水一樣,數據有多種形式。 人類的思想已經進化為可以過濾掉我們收到的大多數數據,因為其中有太多的數據。

當您睜開雙眼時,數據無處不在。 牆壁的顏色,空調的聲音和鄰居的咖啡味都被當作濕度來對待。 水一直在空氣中,但要多加註意是沒有用的。

當水凝結成霧時,它迫使您看到它,並使對周圍世界的了解更加困難。 不完整的數據集,損壞的數據,糟糕的科學,錯誤的結論和認知偏見都使您迷失了方向。

數據像雨一樣落下。 如果只有一點,那簡直令人無法滿足–足以使您的汽車變髒並使對話混亂。 您會發現自己擦掉了眼鏡上的斑點,這是因為有人從一些晦澀的源頭收集了一些隨機數據點。

  • 陳舊的水 在淺水池中是危險的。 從不可靠的供應中收集的數據,既不經過清洗也不經過標準化處理,並且變得停滯不前,很容易導致錯誤的結論。
  • A 穩定滴流 水僅夠填滿食堂或維持林地生態系統。 只有三個數據點(發送,打開,單擊的電子郵件數)可以維持營銷計劃。
  • A 流量更健康 小溪形式的大量數據可用於沐浴。 連續的數據流允許進行基準測試和歷史比較。 著陸頁優化可以通過穩定的轉化數據來完成。
    A 謙虛的河 可以驅動磨機鋸木頭或磨小麥。 推薦引擎只需要少數支流的可靠貢獻就可以增加購物車的價值。
  • A 瀑布 可以推動巨大的水車,而充足的信息流入可以驅動實時的動態內容系統。
  • A 足夠廣泛和深入,可以支持整個運輸行業。 來自廣告網絡,會員卡計劃數據匯總器和數據代理的足夠多的數據以cookie的形式漂浮在駁船和貨船上。

當數據在預期的時間到達預期的數量時,可以對其進行捕獲,傳輸和使用。 灌溉系統,水壩和水庫提供了控制感,並允許建設具有運河,水閘和水壩的不斷擴大的基礎設施。 數據倉庫建立在不那麼值得信賴的流程上。

潔淨僅次於聖潔

清潔水對於生活,灌溉,發電廠等的成功至關重要。“清潔”的定義可能因目的而改變。 如果水中有藻類可以冷卻發電廠,這是可以的,而飲用水中十億分之十以上的砷是不可接受的。

數據是一樣的。 在直接郵件應用程序中,您是否擁有某人的頭銜(先生,太太,女士)是無關緊要的……除非您要郵寄給醫生。 但是,骯髒的數據每次都會使您崩潰。

作為美國首席數據科學家, DJ帕蒂爾,將其放在第一輪CTO峰會上,“如果您從一開始就不考慮如何保持數據整潔,那您肯定會感到困惑。 我保證事實發生後試圖清理至少需要幾個月。”

如果將水加熱到沸點,則可以推動整個工業革命。 數據似乎在做同樣的事情。 從計算機可以存儲和計算的那一刻起,數據的收集速度就與創建存儲設備的速度一樣快。

數據湖

當這些支流的數據流經工廠的引擎時,它們最終都流到了大壩後面的湖中。 由於數據以受控方式發布,因此為數據行業的渦輪機提供了動力。 諸如Google和Facebook之類的巨型數據處理引擎。 這裡不會有乾旱。

最後,還有一個深水潭,等待分析人員潛入水中。潛水員手握水槍和長矛槍,分析人員深入深處,繪製新地面並發現新物種。 成為數據瀏覽器是一個非常令人興奮的時刻。

這就是為什麼其中許多人出現在 電子計量峰會 自2002年以來。下一個機會是在27年1月2015日至XNUMX月XNUMX日在波士頓舉行。

eMetrics峰會註冊

太遠的橋樑

數據雕刻下一個大峽谷的力量是什麼? 關於結構化數據的冰川融化呢? 在一個越來越關注隱私的世界中,我們如何處理廢水?

這些是另一個時間的疑問,是橋下的積水。

你覺得呢?

本網站使用Akismet來減少垃圾郵件。 了解您的評論如何處理.