大數據(Big data或Megadata),或稱巨量資料、海量資料、大資料,指的是所涉 及的資料量規模巨大到無法透過人工,在合理時間內達到擷取、管理、處理、並整理成為人類所能解讀的資訊。在總資料量相同的情況下,與個別分析獨立的小型資料集(data set)相比,將各個小型資料集合併後進行分析可得出許多額外的資訊和資料關聯性,可用來察覺商業趨勢、判定研究品質、避免疾病擴散、打擊犯罪或測定即時 交通路況等;這樣的用途正是大型資料集盛行的原因。
資料探勘(Data mining),它是資料庫知識發現(Knowledge-Discovery in Databases,KDD)中的一個步驟。資料探勘一般是指從大量的資料中自動搜尋隱藏於其中的有著特殊關聯性(association rule learning)的資訊的過程。資料挖掘通常與電腦科學有關,並通過統計、線上分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實 現上述目標。資料探勘有以下這些不同的定義: