網友評分: 5分
易明建模是一款功能十分強大的智能數據建模軟件,該軟件基于智能AI化建模方案,能夠完全執行自動化建模方案,能夠大大提高用戶的數據建模效率,提供多種智能數據建模算法,滿足用戶的多元化建模需求,提高用戶的工作效率,喜歡的小伙伴千萬不要錯過哦。
【數據源】
1. 本地數據文件
智能建模支持txt、csv等格式的數據文件。
選擇文件后,可以定義數據文件的參數配置。
下一步,可以定義變量類型、日期格式和選出狀態。
2. 數據庫
在數據源窗口中,可以定義JDBC和ODBC兩種數據源連接。
【數據探索】
1. 基本特征
導入數據以后,顯示了數據的基本特征:
目標變量是Survived(需要用戶設置),有12個變量,891條記錄。
自動解析了各個變量的類型和推薦的選出狀態。
2. 離散變量統計
離散變量包括單值變量、二值變量和分類變量。
缺失率:缺失值在全部數據中的占比。
勢:離散變量可取值集合的成員數量。
餅圖直觀顯示了各分類的占比。
【預處理】
1. 自動預處理
智能建模的預處理過程集成在建模的流程中,一鍵式自動預處理。
2. 預處理報告
建模結束后可以導出模型報告,描述了預處理執行了哪些動作。
3. 預處理流程
?。?)檢查變量值域
檢查并記錄所有變量的值域,若測試數據出現訓練數據沒有的分類或者超出數值范圍,進行針對性的處理。
?。?)時間日期變量處理
檢查所有時間日期型變量,創建若干常用的衍生變量。并檢測時間日期變量的關聯性,創建多日期聯動的衍生變量。
?。?)缺失值信息提取
若數據存在缺失值,提取并記錄缺失值模式,將缺失值所表現出的行為特征轉換為衍生變量加以利用。
(4)缺失值填補
若數據存在缺失值,利用簡單或個性化智能算法,填補缺失值。
(5)分類變量降噪
針對分類變量可能存在的噪音,例如極少數分類,異常分類,疑似錯誤分類等情況,進行針對性處理。
?。?)分類變量數值化
將分類變量轉換為可正常進行運算的數值型變量。主要方式是dummy variable和平滑化,由算法智能判斷。
?。?)糾偏
針對部分存在正態性假設的模型,對高偏態變量進行數學變換,使偏度回到0附近,滿足模型假設。
?。?)異常值處理
探測并識別可能存在的異常值,并進行針對性處理。
(9)變量篩選
以較寬松的門檻,剔除掉對建模無用的變量,降低時間成本和模型復雜度。
(10)標準化/歸一化
數據標準化/歸一化,消除口徑差異。有利于神經網絡等模型的尋優求解。
(11)平衡樣本
對于二分類數據,若正負樣本比例嚴重不均衡,會按照指定的比例配平,并智能重采樣建模。
4. 手動預處理
選擇變量
根據變量類型去除一些無關的變量。例如ID和長文本,沒有缺失值的單值變量等。
衍生變量
用變量姐妹、配偶數量"SibSp"和 變量父母、子女數量"Parch"相加得到家庭成員數量"Family"??梢钥吹郊彝コ蓡T在1-3人時幸存率較高。
預處理選項
在模型選項中可以定義是否數據預處理和是否智能填補。
如果數據已經進行過預處理,可以取消數據預處理。
智能填補可以更好的對缺失值進行補缺,但是會消耗更多的硬件資源和時間,當數據量很大時不建議智能填補。不勾選時會進行簡單填補。
python版本升級到3.9
升級依賴包兼容性到最新版
修復ubuntu24.04環境下無法打開建模ide的問題
修復個別模型異常調用cuda的問題
優化性能,修復潛在bug