欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

如何使用python數(shù)據(jù)處理解決數(shù)據(jù)沖突和樣本的選取

 更新時間:2021年08月26日 10:40:10   作者:Mr數(shù)據(jù)楊  
這篇文章主要介紹了如何使用python數(shù)據(jù)處理解決數(shù)據(jù)沖突和樣本的選取,其中主要包括 實際業(yè)務數(shù)據(jù)沖突、樣本選取問題、數(shù)據(jù)共線性等思路

內(nèi)容介紹

將日常工作中遇到的數(shù)數(shù)據(jù)沖突和樣本源的方法進行總結,其中主要包括實際業(yè)務數(shù)據(jù)沖突、樣本選取問題、數(shù)據(jù)共線性 等思路,并且長期更新。

實際業(yè)務數(shù)據(jù)沖突

多業(yè)務數(shù)據(jù)源沖突是指來自多個或具有相同業(yè)務邏輯但結果不同的系統(tǒng),環(huán)境,平臺和工具的數(shù)據(jù)。

沖突的不同特征

一般數(shù)據(jù)沖突類型:

  • 數(shù)據(jù)類型:同字段數(shù)據(jù)的格式不同。例如注冊日期的字段包含字符串。數(shù)
  • 據(jù)結構沖突:同一數(shù)據(jù)主體的描述結構存在沖突。
  • 記錄粒度不同:訂單記錄的粒度可以基于ID存儲在一條數(shù)據(jù)中。
  • 數(shù)據(jù)范圍定義:提取的數(shù)據(jù)字段含義不同發(fā)生沖突。
  • 數(shù)據(jù)值不同:一般發(fā)生情況是格式問題。

一般數(shù)據(jù)沖突原因:

內(nèi)部工具和第三方工具之間的數(shù)據(jù)沖突。

為什么獲得的數(shù)據(jù)與代理商或廣告媒體提供的廣告數(shù)據(jù)之間存在差異,有時差異會特別大?

網(wǎng)站分析工具獲得的數(shù)據(jù)與廣告媒體和代理商提供的數(shù)據(jù)之間不可避免地存在差異。

指標的不同定義,不同的收集邏輯,系統(tǒng)過濾規(guī)則不同,不同的更新時間,不同的監(jiān)控位置等等不同步的原因都會產(chǎn)生這些問題。

一般數(shù)據(jù)處理方法:

目前來說沒有一個統(tǒng)一的標準,根據(jù)實際需要進行處理即可。

  • 形成唯一數(shù)據(jù):如果要進行總體摘要統(tǒng)計,則需要以某種方式消除沖突以便報告一個數(shù)據(jù)。
  • 不消除沖突:而要使用所有沖突的數(shù)據(jù)。如果在進行整體流程統(tǒng)計分析時使用不同業(yè)務流程的不同數(shù)據(jù),則不同的指標將具有更好的渠道轉換效果。要保證處理后的結果差異可解釋,且客觀穩(wěn)定。

樣本的選擇

數(shù)據(jù)抽樣還是全量基于已經(jīng)有的數(shù)據(jù)來說,肯定是數(shù)據(jù)越全越好,但是實際情況并不是那么理想,我們只能利用統(tǒng)計學的方法使用抽樣的方式進行取樣比較理想。

一般數(shù)據(jù)采樣方法:

抽樣方法通常分為非概率抽樣和概率抽樣。非概率采樣不是基于均等概率原理,而是基于人類的主觀經(jīng)驗和狀態(tài)。概率抽樣基于數(shù)學概率論,而抽樣則基于隨機性原理。

  • 簡單隨機抽樣:抽樣方法是根據(jù)等概率原理直接從總數(shù)中抽取n個樣本。這種隨機采樣方法簡單易操作;但這并不能保證樣本可以完美地代表總體。此方法適用于均勻分布的場景。
  • 等距采樣:等距采樣是首先對總體中的每個個體進行編號,然后計算采樣間隔,然后根據(jù)固定的采樣間隔對個體進行采樣。適用于分布均勻或顯示明顯均勻分布規(guī)律,沒有明顯趨勢或周期性規(guī)律的數(shù)據(jù)。
  • 分層抽樣:分層抽樣是根據(jù)某些特征將所有單個樣本劃分為幾個類別,然后從每個類別中使用隨機抽樣或等距抽樣來選擇個體以形成樣本。此方法適用于具有特征(例如屬性和分類邏輯標簽)的數(shù)據(jù)。
  • 整群抽樣:整群抽樣是先將所有樣本分成幾個小組,然后再隨機抽樣幾個小組來代表總體。該方法適用于特征差異相對較小的小組,對劃分小組的要求更高。

注意的幾個問題:

數(shù)據(jù)采樣必須反映操作的背景,不存在業(yè)務隨機性及業(yè)務數(shù)據(jù)可行性問題,最重要的數(shù)據(jù)采樣必須滿足數(shù)據(jù)分析和建模的需求

數(shù)據(jù)的共線性

所謂共線性(也稱為多重共線性)問題是指輸入自變量之間的高線性相關性。共線性問題將大大降低回歸模型的穩(wěn)定性和準確性。例如具有明顯共線性的數(shù)據(jù):訪問和頁面瀏覽量;頁面瀏覽量和訪問時間;訂單數(shù)量和銷售等。

一般產(chǎn)生原因:

  • 數(shù)據(jù)樣本不足,這實際上反映了缺乏數(shù)據(jù)對數(shù)據(jù)建模的影響的一部分。
  • 許多變量具有基于時間的共同或相反的演變趨勢。
  • 多個變量間存在一定的關系但是發(fā)生節(jié)點不一致,總體上變量之間的趨勢是一致的。
  • 多個變量之間存在近似線性關系。簡單理解為一個 y=ax + b 這么一個關系。

檢驗共線性: 共線性通常由公差,方差因子和特征值的特征數(shù)據(jù)確定,做出判斷。

解決共線性的5種常用方法:

增大樣本量:

通過增加樣本消除由于數(shù)據(jù)量不足而出現(xiàn)的偶然共線性現(xiàn)象,也可能無法解決共線性問題,原因是很可能變量間確實存在這個問題。

嶺回歸(Ridge Regression):

嶺回歸分析是專用于共線性問題的有偏估計回歸方法,本質(zhì)上是一種改進的最小二乘估計方法。

逐步回歸:

一次引入一個自變量并進行統(tǒng)計檢驗,然后逐步引入其他變量,同時測試所有變量的回歸系數(shù)。

主成分回歸(Principal Components Regression):

可以基于主成分進行回歸分析在不丟失重要數(shù)據(jù)特征的情況下避免共線性問題。

手動刪除:

覺得麻煩的話直接結合了手動經(jīng)驗刪了就是了。
完全解決共線性問題是不可能的,因為所有事物之間都有一定的聯(lián)系。

在解決共線性問題的相關主題中,我們僅解決嚴重的共線性問題,而不是所有共線性問題。

以上就是如何使用python數(shù)據(jù)處理解決數(shù)據(jù)沖突和樣本的選取的詳細內(nèi)容,更多關于python數(shù)據(jù)處理的資料請關注腳本之家其它相關文章!

相關文章

  • 使用Pyinstaller轉換.py文件為.exe可執(zhí)行程序過程詳解

    使用Pyinstaller轉換.py文件為.exe可執(zhí)行程序過程詳解

    這篇文章主要介紹了使用Pyinstaller轉換.py文件為.exe可執(zhí)行程序過程詳解,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2019-08-08
  • Python3接口性能測試實例代碼

    Python3接口性能測試實例代碼

    在本篇文章里小編給大家整理的是一篇關于Python3實現(xiàn)簡單的接口性能測試的相關實例內(nèi)容,有興趣的朋友們可以跟著學習下。
    2021-06-06
  • Python變量作用域LEGB用法解析

    Python變量作用域LEGB用法解析

    這篇文章主要介紹了Python變量作用域LEGB用法解析,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2020-02-02
  • 詳解python如何引用包package

    詳解python如何引用包package

    在本篇文章里小編給大家整理的是關于python中引用包方法及相關實例,需要的朋友們可以學習下。
    2020-06-06
  • Python任務調(diào)度模塊APScheduler使用

    Python任務調(diào)度模塊APScheduler使用

    這篇文章主要介紹了Python任務調(diào)度模塊APScheduler使用,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2020-04-04
  • Python多進程庫multiprocessing中進程池Pool類的使用詳解

    Python多進程庫multiprocessing中進程池Pool類的使用詳解

    這篇文章主要介紹了Python多進程庫multiprocessing中進程池Pool類的使用詳解,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2017-11-11
  • flask操作數(shù)據(jù)庫相關配置及實現(xiàn)示例步驟全解

    flask操作數(shù)據(jù)庫相關配置及實現(xiàn)示例步驟全解

    這篇文章主要介紹了flask操作數(shù)據(jù)庫相關配置及實現(xiàn)示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪
    2024-01-01
  • Python利用3D引擎寫一個Pong游戲

    Python利用3D引擎寫一個Pong游戲

    之前,我們嘗試過用pygame做了一個2D的Pong游戲。本文將利用強大的3D引擎Ursina制作一個3D版的Pong游戲。文中的示例代碼講解詳細,感興趣的可以了解一下
    2023-01-01
  • Python3進制之間的轉換代碼實例

    Python3進制之間的轉換代碼實例

    這篇文章主要介紹了Python3進制之間的轉換代碼實例,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2019-08-08
  • Python OpenCV學習之圖像濾波詳解

    Python OpenCV學習之圖像濾波詳解

    圖像濾波的作用簡單來說就是將一副圖像通過濾波器得到另一幅圖像;明確一個概念,濾波器又被稱為卷積核,濾波的過程又被稱為卷積;實際上深度學習就是訓練許多適應任務的濾波器,本質(zhì)上就是得到最佳的參數(shù)。下面來跟隨小編一起深入了解一下圖像濾波吧
    2022-01-01

最新評論