KNIME Analytics Platform -

KNIME Analytics Platform

直覺、開放與靈活的創建資料科學

概要

KNIME Analytics Platform 是用於創建數據科學的開源軟件。 KNIME 直觀、開放並不斷整合新開發技術，使每個人都可以理解數據並設計數據科學工作流程（workflow）和可重覆使用的功能元件。

KNIME Analytics Platform 的節點涵蓋了數據科學生命週期的所有階段，數千個可隨時運行的範例工作流程，數百個功能元件，廣泛的整合工具以及最多元實用的高階演算法，是創建數據科學的理想平台。它穩定且不受限制的開源代碼，使您可以獲取全球專業知識社群及其貢獻。

產品特色

混合數據與技術 / 工具

融合數據：
結合與匯流文本檔、資料庫、文件檔、圖像、網絡，甚至 Apache Hadoop 的數據在同一視覺工作流程中。

整合 R 和 Python：
在您的 KNIME 工作流程中包含 R 和 Python 程式碼，在數據科學家之間以圖形化記錄和共享專業知識。

融合不同的技術：
輕鬆融合最先進的技術：使用 KNIME Big Data 整合 Apache Hadoop，Spark 和 MLlib。其他技術整合包括深度學習框架和其他機器學習庫（H2O，Weka 等）。

視覺化：
使用易於學習的圖形化界面以視覺化記錄工作流程，並且可選擇性進行編碼。

建立 End to End 數據科學

建立視覺化工作流程：
使用直觀的拖放式圖形化界面創建工作流程 – 無需編碼。

混合任何數據源：
匯入並合併文本格式（CSV，PDF，XLS，JSON，XML等），非結構化數據類型（圖像、文檔、網絡、分子等）或時間序列數據。

從節點和元件中選擇：
建立您分析每個步驟的工作流程與模型，控制數據流程，並確保您的工作流程始終保持最新的功能節點與元件。

使用現成的流程藍圖：
KNIME Hub 可選擇數千種公開實用的工作流程，或使用整合的工作流程教練指導您構建自己的工作流程。

充分實現機器學習與 AI

創建機器學習模型：
關於分類、迴歸、維度縮減或群集，使用高階演算法，包括深度學習，tree-based 方法和邏吉斯迴歸。

易於移轉：
與最佳化模型效能- HyperParameter 優化、boosting , bagging , stacking 及建構整體性（ensembles）模型。

驗證模型：
應用模型績效指標，包括準確性 , R² , AUC 和 ROC。執行交叉驗證以確保模型穩定性。

模型預測： 直接使用經過驗證的模型，或使用行業領先的 PMML，包括 Apache Spark。

支援數據科學生命週期完整功能

支援所有主要檔案格式和數據庫的連接。

本機和資料庫內的數據融合和轉換。

支援全面的數據類型，如 XML，JSON，圖像，文檔，網絡，時間序列等等。

高階預測和機器學習演算法。

與最先進的機器學習庫的整合：H2O，Keras深入學習，Scikit-Learn 等。

使用基於 Web 模式進行交互式數據視覺化和報告。

產品特色

各種 KNIME Extensions 提供複雜數據類型的讀取，以及高階機器學習演算法。 KNIME Analytics Platform 和 KNIME Server 與許多其他開源技術無縫整合。

Access Apache Hadoop 數據以及 Hadoop 數據存儲，如 Hive 和 Impala。在本機 KNIME 環境，模型和執行 Apache Spark Jobs 及存取可擴展分析的能力。在 KNIME 工作流程中使用 R 或 Python 代碼，構建一個預測模型，將該模型應用於新數據源，或者是創建其他類型的視覺化圖報表。讀取、創建、調整、訓練和執行深度神經網絡。Keras 提供存取深度學習框架，如對 TensorFlow，CNTK 等。可從 Amazon Redshift、H2、Hive、Impala、Microsoft SQL、MySQL、Oracle 與 PostgreSQL 等整合各數據源。

社群擴展（Community Extensions）是由其他 KNIME 使用者的開源貢獻，可從 KNIME Analytics Platform 獲取所需各種資訊。合作夥伴擴展（Partner Extensions）提供商業功能套件，從行業特定應用功能到復雜、科學的軟件整合 – 所有擴展套件由 KNIME 值得信賴的合作夥伴創建和維護。使用者亦可使用 KNIME SDK 環境將自己的程式打包為 KNIME 功能節點，並為 KNIME 社群提出貢獻。

KNIME Server：生產數據科學

KNIME Server 有三個版本，適用於所有規模的組織和團隊，並實現以下企業功能：

無需手動介入的一體化部署，以弭平數據科學的創建和生產之間的差距。
自動工作流程執行能夠遠程檢視、編輯和執行工作流程。
導引式分析（Guided Analytics）可建置各應用程序，並提供使用者在數據科學的各階段以互動模式進行報表、視覺化與模型建置。
管理與合規性，可通過模型可解釋性、GDPR 合規性、metadata 映射等。
靈活的雲和混合部署，以滿足運算和預算上的需求 – 也可自動縮放與調整功能。

相關運用案例請參考：

製造業機台IoT案例 – KNIME異常偵測和預測系統

零售業使用購物籃分析或推薦引擎

掃我看更多：