亚洲精品区一区二区三区四区五区高,亚洲五月综合缴情在线,夜夜爽一区二区三区精品,天堂草原网在线观看,真人性囗交69视频

信用卡視角下的回歸模型

寫(xiě)在前面:


犬子留學(xué)前在跟我交流中提到,他不想學(xué)信用卡。我對(duì)他說(shuō),我并沒(méi)有指望所謂的“子承父業(yè)”,只是我用了很多信用卡業(yè)務(wù)中的案例給他講了一些問(wèn)題。經(jīng)過(guò)幾年的學(xué)習(xí)后,他發(fā)現(xiàn)在他的專業(yè)課中,越來(lái)越多地接觸到了與信用卡有關(guān)的知識(shí),于是自己主動(dòng)與我探討一些信用卡領(lǐng)域的話題,這讓我既感到驚訝,又感到高興。我不是一個(gè)強(qiáng)求孩子做什么、學(xué)什么的父親,只是希望他學(xué)什么都能找到自己的快樂(lè),并在快樂(lè)中尋找自己未來(lái)的方向。既然他自己對(duì)信用卡產(chǎn)生了濃厚的興趣,作為從業(yè)二十載的我來(lái)說(shuō),還有什么比這個(gè)更值得我欣慰的呢!經(jīng)過(guò)鼓勵(lì),他終于開(kāi)辟了自己的公眾號(hào),也第一次以他自己的視角,寫(xiě)出他學(xué)習(xí)有關(guān)知識(shí)之后對(duì)于信用卡的思考。雖然這篇文章與我研究的方向截然不同,還非常稚嫩,為他開(kāi)辟專欄,期待信用卡行業(yè)中的相關(guān)領(lǐng)域的叔叔阿姨、哥哥姐姐們給予指正和輔導(dǎo)。


金屬質(zhì)感分割線


ISLR(3.3)-信用卡視角下的回歸模型


在真實(shí)世界中,線性回歸模型中不只有定量變量,還有定性變量。


1. 信用卡數(shù)據(jù)集中的潛在客戶信息

image.png

預(yù)測(cè)變量的類別 = 2

假設(shè)我們想調(diào)查研究【男性和女性客戶的信用卡債務(wù)差異】,暫時(shí)忽略其他變量


如果一個(gè)定性預(yù)測(cè)變量(factor)只有兩個(gè)類別(levels)

建立一個(gè)啞變量(dummy variable)擁有兩個(gè)可能的取值

基于性別變量(gender)創(chuàng)建一個(gè)新變量

image.png


Incorporate this variable as a predictor in the regression equation:


image.png

此時(shí)? 可以解釋為男性的平均信用卡債務(wù), 是女性的平均信用卡債務(wù),因此? 即是男性和女性之間信用卡債務(wù)的平均差異

image.png


上圖列出了「0/1編碼」的系數(shù)估計(jì)值和與模型相關(guān)的其他信息,啞變量的高「p-value」表明兩性之間的信用卡平均債務(wù)差異「并沒(méi)有」統(tǒng)計(jì)學(xué)證據(jù)


無(wú)論使用哪種編碼方式,在最后的預(yù)測(cè)中,男性和女性的信用卡債務(wù)數(shù)額是不變的

不同的編碼方式的唯一區(qū)別在于對(duì)系數(shù)的解釋不同

預(yù)測(cè)變量的類別 > 2

假設(shè)我們想調(diào)查研究【不同種族背景和信用卡債務(wù)的關(guān)系】,暫時(shí)忽略其他變量


如果一個(gè)定性預(yù)測(cè)變量有多個(gè)類別(亞洲人、白人、非裔美國(guó)人)

建立一個(gè)啞變量不夠,需要兩個(gè):

image.png


建立多元回歸模型:

image.png


?是非裔美國(guó)人的信用卡平均債務(wù),因?yàn)槭菦](méi)有啞變量的類別,作為「baseline」


「 & 」 被解釋為亞洲人和白種人與非裔美國(guó)人的平均信用卡債務(wù)「差異」

image.png

據(jù)估計(jì),盡管亞洲人和白種人分別比非裔美國(guó)人的信用卡債務(wù)(531美元)少18.69美元和12.50美元:


但是兩個(gè)啞變量單獨(dú)的系數(shù)估計(jì)的p值非常大

「沒(méi)有」統(tǒng)計(jì)學(xué)證據(jù)證明不同的種族背景有真正的信用卡的債務(wù)差異

不同的啞變量的編碼會(huì)影響變量的系數(shù)和p值,但不會(huì)改變F值:


用F-test假設(shè)檢驗(yàn)image.png? 得到「p-value=0.96」

無(wú)法拒絕債務(wù)和族群背景無(wú)關(guān)的假設(shè)


2. 線性模型的擴(kuò)展

線性回歸模型提供了可解釋的結(jié)果,但同時(shí)有很多高度限制性的假設(shè)在實(shí)踐中被違背:


「可加性(additive)」: 的變化對(duì)? 產(chǎn)生的影響與其它預(yù)測(cè)變量的取值無(wú)關(guān)

「線性(linear)」: 無(wú)論? 取何值,其變化一個(gè)單位對(duì)應(yīng)的? 的變化是恒定的

通過(guò)放寬這兩個(gè)假設(shè)的方法來(lái)擴(kuò)展線性模型


去除可加性假設(shè)

營(yíng)銷中的協(xié)同(synergy)效應(yīng),即統(tǒng)計(jì)學(xué)中的交互作用(interaction):


在兩種媒體上「均分預(yù)算」可能比將資金全部投入其中一種媒體更能「增加銷售量」

在擴(kuò)展線性模型中,加入 「交互項(xiàng) 」 來(lái)放寬可加性假設(shè):


image.png


?的變化將影響 ,所以? 對(duì)? 的效應(yīng)不再是常數(shù)


假設(shè)希望用定量的收入()和定性的學(xué)生身份()預(yù)測(cè)信用卡債務(wù):


「若沒(méi)有交互項(xiàng)」

image.png



模型為數(shù)據(jù)擬合了兩條平行線,斜率為


在這種情況下,平行線意味著income增加對(duì)balance的影響不依賴信用卡持有者是否為學(xué)生

這意味著模型可能有嚴(yán)重的局限性,因?yàn)槭聦?shí)上「是否是學(xué)生的身份」影響著收入的變化「是否」對(duì)信用卡債務(wù)產(chǎn)生「很大的影響」

「加入交互項(xiàng)」

image.png



兩條回歸直線有不同的截距和斜率:


學(xué)生回歸線的斜率低于非學(xué)生回歸線的斜率

與非學(xué)生群體相比,收入增加在學(xué)生群體中引起的信用卡債務(wù)的增加會(huì)更緩慢,數(shù)額更少

image.png

非線性關(guān)系(當(dāng)理想遇到現(xiàn)實(shí))

多項(xiàng)式回歸直接擴(kuò)展線性模型,使之能對(duì)非線性關(guān)系進(jìn)行擬合

image.png「油耗和馬力的非線性關(guān)系」

由數(shù)據(jù)可視化推測(cè)油耗和馬力是非線性相關(guān)的:


使用預(yù)測(cè)變量的轉(zhuǎn)化值將非線性因素加工進(jìn)線性模型中

數(shù)據(jù)點(diǎn)呈現(xiàn)出二次方的曲線形狀,嘗試二次項(xiàng)(注意:仍是線性!)模型可能會(huì)提供更好的擬合(: 0.606 =>0.688):

image.png

嘗試馬力的三次、四次甚至五次項(xiàng)納入模型后,發(fā)現(xiàn)最后的擬合有不必要的波動(dòng)

目前還不清楚添加的多項(xiàng)式函數(shù)是否真的帶來(lái)了更好的數(shù)據(jù)擬合(是否會(huì)導(dǎo)致過(guò)擬合?)

3. 參考:

Introduction to Statistical Learning (ISL)

《老董聊卡》

TOGO: 信用卡額度和信用評(píng)級(jí)的高度共線性問(wèn)題


- 正文結(jié)束 -
首頁(yè) 信用卡 用卡攻略 信用卡視角下的回歸模型

上一篇:

下一篇:

為您推薦

微信號(hào):

點(diǎn)擊復(fù)制