巨量資料概論 - 題庫堂

巨量資料概論

26. 下列哪項不是Hadoop之特性？(A)開放原始碼 (Open Source) (B)即時性(Real Time)(C)以Java為其程式基礎 (D)分散式計算 (Distributed Com

27. 下列哪項不是 Apache Spark 2.0 所支援的程式語言？(A) Scala (B) R (C) C++ (D) Python

28. 在類神經網路(Neural Network)分類器中，一個 sigmoid node 的輸出數值是下列何者？(A)沒有限制，可以是任何實數 (B)介於0與1之間(C)沒有限制，可以是任何整數

29. 有關類神經網路(Neural Network)之敘述，下列何者有誤？(A)使用成千上萬個神經元(Neuron)作為處理器(B)其學習過程是一個不斷的嘗試錯誤(Trial and Error)

30. 有關應用卷積神經網路(Convolutional Neural Networks，簡稱CNNs)於影像分析之敘述，下列何者正確？1 較前面的處理層 (Layer) 過濾器通常可包含邊緣偵測器

31. 有關分析巨量社群網路資料之敘述，下列何者有誤？(A)連結預測(Link Prediction) 之技術可用來推薦朋友(B)使用者的朋友個數之分配通常遵從冪次法則(Power-law distr

32. 有關頻繁樣式探勘(Frequent Pattern Mining) 之敘述，下列何者有誤？(A)若一項目集合之所有子集合皆為頻繁，則該項目集合必定也為頻繁(B)所有最大(maximal) 頻繁

33. 巨量資料庫管理最常用的操作包含Selection、Projection、Union與Intersection。對於此4種資料庫操作，若想實作在Hadoop的工作任務中，哪2種操作需要同時使用一

34. 在資料分析中，經常遇到一分類或預測模型產生高或低的偏差(Bias) 與變異性(Variance)。以下有4個關於模型偏差與變異數之敘述，下列何者正確？1過適(Overfitting)的模型通常

35. 下列何種資料格式經常被定義為半結構化資料(Semi-structured Data)？(A)關聯式資料庫中的表格(Table)資料 (B)影音(Video)檔案(C) JSON 檔案 (D)

36. 在巨量資料分析專案中，下列何者比較無助於提升分類模型準確度(Accuracy)？(A)使用交叉驗證(Cross-Validation)(B)增加或減少模型參數(Parameters)以提升或降

37. 下列的統計學習(Statistical Learning)方法經常被用於分析巨量資料，請問何者應用的領域問題與其它不同？(A)隨機森林(Random Forests) (B)主成分分析(Pri

38. 有關隨機森林(Random Forests)之敘述，下列何者正確？ (A)採用 Boosting 方法(B)使用多個淺層決策樹 (Decision Stump) 構建整個森林(C)是一種重抽樣

39. 在統計學習(Statistical Learning)方法論中，有關模型的過適(Overfitting)之敘述，下列何者有誤？(A)此種模型的錯誤(Error)常來自於高的方差(High Va

40. 有關近年來巨量資料處理與分析的發展，下列何者有誤？(A)異質運算(Heterogeneous Computing)的興起 (B)記憶體內運算(In-memory Computing)的普及(C

41. 有關巨量資料分析的平台環境建置之敘述，下列何者正確？(A)傳統的關聯式資料庫管理系統無法處理巨量資料(B)NoSQL資料庫系統已逐漸取代傳統的關聯式資料庫系統(C)Apache Hadoop可

42. 有關 MapReduce程式模型(Programming Model)之敘述，下列何者有誤？(A)比較不適合用來處理疊代式(Iterative) 的資料處理分析過程(B)概念來自於函數式程式語

43. 有關統計學習(Statistical Learning)中的非監督式學習(Unsupervised Learning)方法，下列敘述何者有誤？(A)可以做為維度縮減 (Dimensionali

44. 下列統計學習(Statistical Learning)的方法或過程，何者不易受到變數尺度(Scale)不同的影響？(A)決策樹學習(Decision Tree Induction) (B)

45. 如何降低模型過適(Overfitting)問題？(A)降低資料量(B)在目標函數中加入參數正則化(Regularization) 項(C)對資料作正規化(Normalization)前處理(D

46. 資料前處理在資料探勘是一個非常重要的步驟，下列哪一個步驟不屬於資料前處理？(A)模型解釋 (B)處理遺失值 (C)移除離群值 (D)資料數值正規化

47. 在Hadoop中，下列何者為有效的資料分析流程？(A)Input → Reducer → Mapper → Combiner → Output(B)Input → Mapper → Reduc

48. 資料視覺化是資料處理中一項重要工作，通常資料視覺化需要使用到下列哪種方法？(A)資料維度降維 (B)建立分類模型 (C)建立迴歸模型 (D)調整模型參數

49. 下列何者並非Hadoop與Spark共同擁有的特色？(A)皆為叢集計算環境(B)皆擁有自己的檔案系統(C)皆使用開放原始碼應用程式介面 (API) 來連結其他資料分析工具(D)皆為資料處理平台

50. 下列哪項不是主成分分析(Principal Component Analysis)之特性？(A)屬於非線性降維方法 (B)第一主成分跟第二主成分會正交(C)通常可以提升模型訓練速度 (D)屬於