在《美國國家安全局如何分析手機通話數(shù)據(jù)》一文中我們了解到“圖譜分析”是NSA分析手機用戶通話數(shù)據(jù)最重要的技術手段,據(jù)NSA官員透露的文檔,僅Verizon的用戶通話數(shù)據(jù)的圖譜分析項目,規(guī)模就已經(jīng)超過了Facebook。
除了結構化程度較高的通話數(shù)據(jù)外,NSA代號PRISM的超大規(guī)模數(shù)據(jù)挖掘項目能直接監(jiān)測Google、Facebook、微軟和蘋果等九大互聯(lián)網(wǎng)IT企業(yè)中央服務器中的各種結構化和非結構化用戶數(shù)據(jù),被提取分析的數(shù)據(jù)包括音頻、視頻、圖片、電子郵件、文檔和聯(lián)系日志。
毫無疑問,NSA在分析海量非結構化數(shù)據(jù)時勢必要用到大量大數(shù)據(jù)分析技術,據(jù)《華爾街日報》報道,數(shù)據(jù)庫系統(tǒng)、機器學習和Hadoop基礎架構三大技術在NSA的互聯(lián)網(wǎng)大數(shù)據(jù)分析中發(fā)揮了非常重要的作用。
以下是文章內容全文,由騰訊科技翻譯:
僅僅在五年之前,諸如美國國家安全局(National Security Agency,NSA)這樣的政府機構要想通過關鍵詞的方式高效率地分析數(shù)百萬份電話、文本消息和在線聊天記錄,簡直是不可能完成的任務。不過目前,一系列新技術的使用則讓NSA擁有相對充分的人力和財力做到這一點。尤其考慮到,這些關鍵詞最終有可能避免未來針對美國恐怖襲擊的放生。
這些新技術能夠在一個單獨的數(shù)據(jù)庫里存儲大量不同類型的數(shù)據(jù),而且不需要使用造價昂貴的硬件設備就能夠實現(xiàn)數(shù)據(jù)的高速處理,同時還無需數(shù)據(jù)分析專家提前設定假設條件。
哈佛商學院客座教授、數(shù)據(jù)分析專家湯姆
新聞熱點
新聞爆料