華文網

影響大資料品質的關鍵因素是什麼

大資料時代, 強調對總體資料的處理與分析, 關注事物之間的相關關係, 以及對發展趨勢的分析預測。大資料的規模性、高速性和資料來源及形式上的多樣性, 使資料更可能產生不一致和衝突,

這些都會導致大資料品質問題, 因此需要對大資料進行品質管制。

大資料處理流程主要包括資料收集、資料預處理、資料存儲、資料處理與分析、資料展示 /資料視覺化、資料應用等環節,其中資料品質貫穿於整個大資料流程程, 每一個資料處理環節都會對大資料品質產生影響作用。

通常,一個好的大資料產品要有大量的資料規模、快速的資料處理、 精確的資料分析與預測、優秀的視覺化圖表以及簡練易懂的結果解釋, 基於以上環節分別分析不同階段對大資料品質的影響及其關鍵影響因素。

資料收集環節

資料收集是獲取原始大資料集合的過程。大資料通常由不同資料來源產生,且由機器自動生成,

然後通過網路傳輸到指定的位置, 這是一種大資料生成即收集的方式; 或者由企業或組織根據自身需求,有針對性地從各種來源收集所需資料, 如使用者的各種資料等。總之, 資料收集需從不同資料來源即時地或及時地收集各種類型資料,併發送給存儲系統或資料中介軟體系統進行後續處理。資料收集可分為設備資料收集和 Web 資料爬取兩種,由各種資料收集軟體和網路爬蟲完成。
資料收集環節對大資料品質的真實性、完整性、一致性、準確性、時效性、安全性等維度均產生影響作用。

1、資料來源

在資料收集過程中,資料來源會影響大資料品質的真實性、完整性、一致性、準確性和安全性。大資料的資料來源主要指各種網站、系統、感測器設備等,這些資料來源的安全運行、防止惡意攻擊與篡改是保障大資料真實性、準確性和安全性品質的重要條件。

同時,資料來源運行的穩定性、 無間斷性是保障大資料完整性的重要條件。不同資料來源之間的統一編碼、相互協調是保障同構或異構大資料的一致性品質的重要前提,它要求資料來源之間的同步與協作。故在資料收集環節,資料來源是影響大資料真實性、完整性、 一致性、準確性和安全性品質的重要因素之一。

2、資料收集方式

資料的即時收集方式可有效保障大資料的時效性品質,

確保大資料分析與預測結果的時效性和價值性。設備收集多為即時的資料收集,且以流式資料進行採集、處理與分析,從而確保大資料的時效性品質。對於Web 資料,多採用網路爬蟲方式進行收集,這需要對爬蟲軟體進行時間設置以保障收集到的資料時效性品質。故資料收集方式是影響大資料時效性品質的重要因素之一。

3、資料收集技術

資料收集技術在這一階段是非常重要的技術因素,收集技術的好壞直接決定了資料收集的速度和品質。通常資料收集分為兩種———設備資料收集和互聯網資料爬取,常用的收集軟體有 Splunk、Sqoop、Flume、Logstash、Kettle 以及各種網路爬蟲,如 Heritrix、Nutch 等,這些軟體是大資料發展與應用的重要一環, 也是英特爾、Facebook、 穀歌等公司可以獲取大量資料的直接原因。故資料收集技術是影響大資料原始品質的重要因素之一。

資料預處理與存儲環節

1、資料預處理

大資料獲取過程中通常有一個或多個資料來源, 這些資料來源包括同構或異構的資料庫、檔案系統、服務介面等,易受到雜訊資料、資料值缺失、資料衝突等影響,因此需首先對收集到的大資料集合進行預處理,以保證大資料分析與預測結果的準確性與價值性。

大資料的預處理環節主要包括資料清理、資料集成、資料歸約與資料轉換等內容,可以大大提高大資料的總體品質, 是大資料過程品質的體現。資料清理技術包括對資料的不一致檢測、雜訊資料的識別、資料過濾與修正等方面,有利於提高大資料的一致性、準確性、真實性和可用性等方面的品質; 資料集成則是將多個資料來源的資料進行集成,從而形成集中、統一的資料庫、資料立方體等, 這一過程有利於提高大資料的完整性、一致性、安全性和可用性等方面品質; 資料歸約是在不損害分析結果準確性的前提下降低資料集規模,使之簡化,包括維歸約、資料歸約、資料抽樣等技術, 這一過程有利於提高大資料的價值密度,即提高大資料存儲的價值性。

資料轉換處理包括基於規則或中繼資料的轉換、基於模型與學習的轉換等技術,可通過轉換實現資料統一,這一過程有利於提高大資料的一致性和可用性。

總之, 資料預處理環節有利於提高大資料的一致性、準確性、真實性、可用性、完整性、安全性和價值性等方面品質, 而大資料預處理中的相關技術是影響大資料過程品質的關鍵因素。

2、資料存儲

在大資料存儲中,分散式存儲與訪問是其關鍵技術, 它具有高效、經濟、容錯性好等特點。分散式存儲技術與資料存儲介質的類型和資料的組織管理形式直接相關。資料存儲介質的類型主要有記憶體、磁片、磁帶等,資料組織管理形式主要包括以行、列、鍵值、關係等進行組織,不同的存儲介質和組織管理形式對應於不同的大資料特徵和應用。

分散式檔案系統, 它是大資料領域最基礎、最核心的功能元件之一,其關鍵在於實現分散式存儲的高性能、高擴展和高可用性。文檔存儲,支援對結構化資料的訪問,支援嵌套結構、二級索引,以實現資料的高效查詢。

列式存儲可減少資料存取量、提高資料處理效率。鍵值存儲可有效減少讀寫磁片的次數,但不提供交易處理機制。圖形資料庫可實現事物之間相關關係的存儲,並使用圖模型來映射這些網路關係, 實現對真實世界中各種物件的建模存儲。

記憶體存儲是將資料庫的工作版本放在記憶體中,其設計目標是提高資料庫的效率和存儲空間的利用率。總之,不同的資料存儲技術具有不同的特徵與優勢,它們對於提高大資料的時效性、安全性、可用性和準確性等品質維度具有重要影響。

資料處理與分析環節

1、資料處理

大資料的分散式處理技術與存儲形式、業務資料類型等相關,針對大資料處理的主要計算模型有 MapReduce 分散式運算框架、分散式記憶體計算系統、分散式流計算系統 等。MapReduce 是一個批次處理的分散式運算框架,可對海量資料進行並行分析與處理,它適合對各種結構化、非結構化資料的處理。分散式記憶體計算系統可有效減少資料讀寫和移動的開銷,提高大資料處理性能。分散式流計算系統則是對資料流程進行即時處理,以保障大資料的時效性和價值性。

總之, 無論哪種大資料分散式處理與計算系統,都有利於提高大資料的價值性、可用性、時效性和準確性。大資料的類型和存儲形式決定了其所採用的資料處理系統, 而資料處理系統的性能與優劣直接影響大資料品質的價值性、可用性、時效性和準確性。因此在進行大資料處理時, 要根據大資料類型選擇合適的存儲形式和資料處理系統, 以實現大資料品質的最優化。

2、資料分析

大資料分析技術主要包括已有資料的分散式統計分析技術和未知數據的分散式挖掘、深度學習技術。分散式統計分析可由資料處理技術完成, 分散式挖掘和深度學習技術則在大資料分析階段完成,包括聚類與分類、關聯分析、深度學習等,可挖掘大資料集合中的資料關聯性,形成對事物的描述模式或屬性規則,可通過構建機器學習模型和海量訓練資料提升資料分析與預測的準確性。

資料分析是大資料處理與應用的關鍵環節,它決定了大資料集合的價值性和可用性,以及分析預測結果的準確性。在資料分析環節,應根據大資料應用情境與決策需求,選擇合適的資料分析技術,提高大資料分析結果的可用性、價值性和準確性品質。

資料視覺化與應用環節

資料視覺化是指將大資料分析與預測結果以電腦圖形或圖像的直觀方式顯示給使用者的過程,並可與用戶進行互動式處理。資料視覺化技術有利於發現大量業務資料中隱含的規律性資訊,以支援管理決策。資料視覺化環節可大大提高大資料分析結果的直觀性,便於用戶理解與使用, 故資料視覺化是影響大資料可用性和易於理解性品質的關鍵因素。

大資料應用是指將經過分析處理後挖掘得到的大資料結果應用於管理決策、戰略規劃等的過程, 它是對大資料分析結果的檢驗與驗證, 大資料應用過程直接體現了大資料分析處理結果的價值性和可用性。大資料應用對大資料的分析處理具有引導作用。在大資料收集、處理等一系列操作之前, 通過對應用情境的充分調研、對管理決策需求資訊的深入分析, 可明確大資料處理與分析的 目標,從而為大資料收集、存儲、處理、分析等過程提供明確的方向,並保障大資料分析結果的可用性、價值性和用戶需求的滿足。

資料收集技術在這一階段是非常重要的技術因素,收集技術的好壞直接決定了資料收集的速度和品質。通常資料收集分為兩種———設備資料收集和互聯網資料爬取,常用的收集軟體有 Splunk、Sqoop、Flume、Logstash、Kettle 以及各種網路爬蟲,如 Heritrix、Nutch 等,這些軟體是大資料發展與應用的重要一環, 也是英特爾、Facebook、 穀歌等公司可以獲取大量資料的直接原因。故資料收集技術是影響大資料原始品質的重要因素之一。

資料預處理與存儲環節

1、資料預處理

大資料獲取過程中通常有一個或多個資料來源, 這些資料來源包括同構或異構的資料庫、檔案系統、服務介面等,易受到雜訊資料、資料值缺失、資料衝突等影響,因此需首先對收集到的大資料集合進行預處理,以保證大資料分析與預測結果的準確性與價值性。

大資料的預處理環節主要包括資料清理、資料集成、資料歸約與資料轉換等內容,可以大大提高大資料的總體品質, 是大資料過程品質的體現。資料清理技術包括對資料的不一致檢測、雜訊資料的識別、資料過濾與修正等方面,有利於提高大資料的一致性、準確性、真實性和可用性等方面的品質; 資料集成則是將多個資料來源的資料進行集成,從而形成集中、統一的資料庫、資料立方體等, 這一過程有利於提高大資料的完整性、一致性、安全性和可用性等方面品質; 資料歸約是在不損害分析結果準確性的前提下降低資料集規模,使之簡化,包括維歸約、資料歸約、資料抽樣等技術, 這一過程有利於提高大資料的價值密度,即提高大資料存儲的價值性。

資料轉換處理包括基於規則或中繼資料的轉換、基於模型與學習的轉換等技術,可通過轉換實現資料統一,這一過程有利於提高大資料的一致性和可用性。

總之, 資料預處理環節有利於提高大資料的一致性、準確性、真實性、可用性、完整性、安全性和價值性等方面品質, 而大資料預處理中的相關技術是影響大資料過程品質的關鍵因素。

2、資料存儲

在大資料存儲中,分散式存儲與訪問是其關鍵技術, 它具有高效、經濟、容錯性好等特點。分散式存儲技術與資料存儲介質的類型和資料的組織管理形式直接相關。資料存儲介質的類型主要有記憶體、磁片、磁帶等,資料組織管理形式主要包括以行、列、鍵值、關係等進行組織,不同的存儲介質和組織管理形式對應於不同的大資料特徵和應用。

分散式檔案系統, 它是大資料領域最基礎、最核心的功能元件之一,其關鍵在於實現分散式存儲的高性能、高擴展和高可用性。文檔存儲,支援對結構化資料的訪問,支援嵌套結構、二級索引,以實現資料的高效查詢。

列式存儲可減少資料存取量、提高資料處理效率。鍵值存儲可有效減少讀寫磁片的次數,但不提供交易處理機制。圖形資料庫可實現事物之間相關關係的存儲,並使用圖模型來映射這些網路關係, 實現對真實世界中各種物件的建模存儲。

記憶體存儲是將資料庫的工作版本放在記憶體中,其設計目標是提高資料庫的效率和存儲空間的利用率。總之,不同的資料存儲技術具有不同的特徵與優勢,它們對於提高大資料的時效性、安全性、可用性和準確性等品質維度具有重要影響。

資料處理與分析環節

1、資料處理

大資料的分散式處理技術與存儲形式、業務資料類型等相關,針對大資料處理的主要計算模型有 MapReduce 分散式運算框架、分散式記憶體計算系統、分散式流計算系統 等。MapReduce 是一個批次處理的分散式運算框架,可對海量資料進行並行分析與處理,它適合對各種結構化、非結構化資料的處理。分散式記憶體計算系統可有效減少資料讀寫和移動的開銷,提高大資料處理性能。分散式流計算系統則是對資料流程進行即時處理,以保障大資料的時效性和價值性。

總之, 無論哪種大資料分散式處理與計算系統,都有利於提高大資料的價值性、可用性、時效性和準確性。大資料的類型和存儲形式決定了其所採用的資料處理系統, 而資料處理系統的性能與優劣直接影響大資料品質的價值性、可用性、時效性和準確性。因此在進行大資料處理時, 要根據大資料類型選擇合適的存儲形式和資料處理系統, 以實現大資料品質的最優化。

2、資料分析

大資料分析技術主要包括已有資料的分散式統計分析技術和未知數據的分散式挖掘、深度學習技術。分散式統計分析可由資料處理技術完成, 分散式挖掘和深度學習技術則在大資料分析階段完成,包括聚類與分類、關聯分析、深度學習等,可挖掘大資料集合中的資料關聯性,形成對事物的描述模式或屬性規則,可通過構建機器學習模型和海量訓練資料提升資料分析與預測的準確性。

資料分析是大資料處理與應用的關鍵環節,它決定了大資料集合的價值性和可用性,以及分析預測結果的準確性。在資料分析環節,應根據大資料應用情境與決策需求,選擇合適的資料分析技術,提高大資料分析結果的可用性、價值性和準確性品質。

資料視覺化與應用環節

資料視覺化是指將大資料分析與預測結果以電腦圖形或圖像的直觀方式顯示給使用者的過程,並可與用戶進行互動式處理。資料視覺化技術有利於發現大量業務資料中隱含的規律性資訊,以支援管理決策。資料視覺化環節可大大提高大資料分析結果的直觀性,便於用戶理解與使用, 故資料視覺化是影響大資料可用性和易於理解性品質的關鍵因素。

大資料應用是指將經過分析處理後挖掘得到的大資料結果應用於管理決策、戰略規劃等的過程, 它是對大資料分析結果的檢驗與驗證, 大資料應用過程直接體現了大資料分析處理結果的價值性和可用性。大資料應用對大資料的分析處理具有引導作用。在大資料收集、處理等一系列操作之前, 通過對應用情境的充分調研、對管理決策需求資訊的深入分析, 可明確大資料處理與分析的 目標,從而為大資料收集、存儲、處理、分析等過程提供明確的方向,並保障大資料分析結果的可用性、價值性和用戶需求的滿足。