12
C ¸ok Yanıtlı Do˘grusal Regresyon Algoritmasıyla Lojistik Regresyon ve Birliktelik Kuralı Sonu¸ clarının Birle¸ stirilmesi NevzatEkmek¸ci 1 , ¨ Ozge Y¨ ucel Kasap 2 , Utku G¨ orkem Ketenci 2 , Oya Kalıpsız 1 , Mehmet S. Akta¸ s 1 1 Bilgisayar M¨ uhendisli˘giB¨ ol¨ um¨ u, Elektrik-Elektronik Fak¨ ultesi Yıldız Teknik ¨ Universitesi, ˙ Istanbul 2 Ar-Ge Merkezi, Cybersoft, ˙ Istanbul [email protected], [email protected], [email protected], [email protected], [email protected] ¨ Ozet Pazarlama alanının en ¨ onemli noktalarından biri, do˘ gru ¨ ur¨ un¨ u, do˘ gru m¨ steriye ¨ onermektir. Bu ¸ calı¸ sma, yeni bir veri madencili˘ gi aracı olarak geli¸ stirilen PROPCA’nın bir par¸ cası olarak bu soruna bir ¸c¨ oz¨ um ¨ onermektedir. Bu ¸ calı¸ smanın amacı, lojistik regresyon ve birliktelik ku- rallarını bir araya getirip ¨ ur¨ un ¨ onerileri yapmaktır. Bu algoritmaların ayrı ayrı kullanımlarından daha iyi sonu¸ c veren bir y¨ ontem olarak, lojis- tik regresyon ve birliktelik kurallarının birle¸ simi sunulmu¸ stur. Birliktelik kuralları verilen veri k¨ umesindeki t¨ um kuralları ararken, lojistik regres- yon m¨ steriler i¸ cin belirli bir ¨ ur¨ un¨ u satın alma olasılı˘ gı tahmininde bu- lunmaktadır. Bu iki yakla¸ sımın birle¸ simi bankacılık alanında yer alan ger¸ cek bir veri k¨ umesi ¨ uzerinde test edilmi¸ s, sonu¸ clar kar¸ sıla¸ stırılmı¸ s ve genel olarak uygunlukları tartı¸ sılmı¸ stır. Anahtar Kelimeler: Birliktelik Kuralları, Lojistik Regresyon Analizi, Veri Madencili˘ gi, Toplu ¨ grenme, ˙ Istifleme, C ¸ok Yanıtlı Do˘ grusal Reg- resyon. ¨ Ozet One of the keys in marketing is to recommend the right products to the right customers. This paper proposes a solution to this problem as a part of the development of a new data mining tool PROPCA. The aim is to use logistic regression analysis and association rule mining together to make recommendations in marketing. An approach in which combi- nation of these two algorithms provides better results than algorithms used standalone is presented. While association rule mining searches all rules in the data set, logistic regression predicts a purchase probability of a product for customers. The combination of these two approaches are tested on a real-life banking data set. The results of combination are shown and their suitability in general is discussed. Anahtar Kelimeler: Association Rules, Logistic Regression, Data Mi- ning, Ensemble Learning, Stacking, Multi-response Linear Regression. 611

C˘ok Yan tl Do grusal Regresyon Algoritmas yla Lojistik ...ceur-ws.org/Vol-1721/UYMS16_paper_66.pdf · BK, VM’nin en onemli alanlar ndan biridir [5]. BK, verideki en anlaml ili˘skiler

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: C˘ok Yan tl Do grusal Regresyon Algoritmas yla Lojistik ...ceur-ws.org/Vol-1721/UYMS16_paper_66.pdf · BK, VM’nin en onemli alanlar ndan biridir [5]. BK, verideki en anlaml ili˘skiler

Cok Yanıtlı Dogrusal Regresyon AlgoritmasıylaLojistik Regresyon ve Birliktelik Kuralı

Sonuclarının Birlestirilmesi

Nevzat Ekmekci1, Ozge Yucel Kasap2, Utku Gorkem Ketenci2, Oya Kalıpsız1,Mehmet S. Aktas1

1 Bilgisayar Muhendisligi Bolumu, Elektrik-Elektronik FakultesiYıldız Teknik Universitesi, Istanbul

2 Ar-Ge Merkezi, Cybersoft, [email protected], [email protected], [email protected],

[email protected], [email protected]

Ozet Pazarlama alanının en onemli noktalarından biri, dogru urunu,dogru musteriye onermektir. Bu calısma, yeni bir veri madenciligi aracıolarak gelistirilen PROPCA’nın bir parcası olarak bu soruna bir cozumonermektedir. Bu calısmanın amacı, lojistik regresyon ve birliktelik ku-rallarını bir araya getirip urun onerileri yapmaktır. Bu algoritmalarınayrı ayrı kullanımlarından daha iyi sonuc veren bir yontem olarak, lojis-tik regresyon ve birliktelik kurallarının birlesimi sunulmustur. Birliktelikkuralları verilen veri kumesindeki tum kuralları ararken, lojistik regres-yon musteriler icin belirli bir urunu satın alma olasılıgı tahmininde bu-lunmaktadır. Bu iki yaklasımın birlesimi bankacılık alanında yer alangercek bir veri kumesi uzerinde test edilmis, sonuclar karsılastırılmıs vegenel olarak uygunlukları tartısılmıstır.

Anahtar Kelimeler: Birliktelik Kuralları, Lojistik Regresyon Analizi,Veri Madenciligi, Toplu Ogrenme, Istifleme, Cok Yanıtlı Dogrusal Reg-resyon.

Ozet One of the keys in marketing is to recommend the right productsto the right customers. This paper proposes a solution to this problem asa part of the development of a new data mining tool PROPCA. The aimis to use logistic regression analysis and association rule mining togetherto make recommendations in marketing. An approach in which combi-nation of these two algorithms provides better results than algorithmsused standalone is presented. While association rule mining searches allrules in the data set, logistic regression predicts a purchase probabilityof a product for customers. The combination of these two approachesare tested on a real-life banking data set. The results of combination areshown and their suitability in general is discussed.

Anahtar Kelimeler: Association Rules, Logistic Regression, Data Mi-ning, Ensemble Learning, Stacking, Multi-response Linear Regression.

611

Page 2: C˘ok Yan tl Do grusal Regresyon Algoritmas yla Lojistik ...ceur-ws.org/Vol-1721/UYMS16_paper_66.pdf · BK, VM’nin en onemli alanlar ndan biridir [5]. BK, verideki en anlaml ili˘skiler

1 Giris

Insanlar, genis urun yelpazesinden dolayı, dogru hizmet veya urun seciminde zor-lanmaktadır. Diger yandan pazarlama alanında, hangi urunlerin hangi musterile-rin ilgisini cekecegini ya da hangi musterilerin ilgisini cekmeyecegini bilmekonemlidir. Boylece, musterinin ilgisiz olacagı urunler hakkında kampanya postasıveya mesaj alması engellenebilmektedir.

Bu durum, finans ve bankacılık sektorunde onemli bir sorundur. IBM Silver-pop tarafından 2014 yılında Amerika’da finans sektorunde yapılan bir arastırma-ya gore [1], bu e-postaların acılma ve tıklanma oranları sırasıyla %22.4 ve %3.3’dur. Bu istatistikler goz onune alındıgında, eger her urun icin potansiyel alıcılarduzgun tespit edilirse, yanlıs kisilere gonderilen mesaj, arama ve e-posta sayıların-da azalma saglanarak, sirketlerin karlılıgının artması saglanabilir. Genis urun yel-pazesinin buyumesi goz onune alındıgında, bir pazarlama uzmanı icin, musteridavranıslarını anlama ve acıklamada, istatistiksel modellerin veya makine ogren-mesi algoritmalarının kullanılması kacınılmazdır.

Son yıllarda, Lojistik Regresyon (LR) modelleri, bircok alanda tahminleryapmak icin yaygın olarak kullanılmaktadır [2]. Daha belirli olması acısından;Akıncı, pazarlama arastırmalarında, LR modelinin uygulamalarını incelemistir.Bunun sonucunda, tuketici davranısı modelleme, uluslararası pazarlama, top-lumsal pazarlama, perakende promosyon ve saglık hizmetleri pazarlaması gibialanları ortaya koymustur [3].

Benzer sekilde, Birliktelik Kuralları (BK) da Veri Madenciligi (VM)’nin pa-zarlama alanındaki onemli calısmalarından biridir [4]. BK, sık sık birlikte satınalınan 2 veya daha fazla urunu ortaya cıkarmayı amaclamaktadır.

Bu calısmanın asıl amacı, cok sayıda musteri icin, gercekten satın alabile-cekleri urunleri onerebilecek, daha guvenilir bir model olusturmaktır. Buyukpazarlama verileri goz onune alındıgında, VM algoritmalarının tum veri kumesiuzerinde yeterli performans gosteremedigi gorulmustur. Bunun yerine, veri setin-den daha kucuk bir ornek kume VM algoritmalarını uygulamak icin secilebilir vesonucları tum musterilerin yer aldıgı buyuk veri kumesi uzerinde genellestirilebilir.Ancak, daha iyi dogruluk elde etmek icin, VM algoritmalarını birlikte kullanmakkacınılmazdır.

Bu arastırma, pazarlama alanında yaygın olarak kullanılan iki modeli; LR veBK’nı, daha iyi sonuclar elde etmek icin birlestirmeyi onermekte ve bu yaklasımıincelemektedir. Bu iki model, PROPCA uzerinde bulunmaktadır. PROPCA,aykırı deger analizi, eksik veri tamamlama, ozellik secimi, faktor analizi, ornek-leme, lojistik regresyon, kumeleme analizi ve birliktelik algoritmaları yontemle-rini iceren yeni bir VM aracıdır. LR ve BK birbirlerinden oldukca farklı yollarizlemektedirler. LR tahmin yapmak icin musteri ve urun ozelliklerini kullanırken,BK sadece urun ailelerinin sahiplik bilgilerini kullanmaktadır. Toplu Ogrenme(TO), bu iki tamamlayıcı modeli birlestirerek, tuketici davranısı modellemedeyeni bir yaklasım ortaya koyacaktır.

Bu bildirinin yazım organizasyonu su sekildedir; 2. bolumde; temel kavramlarve LR, BK, TO hakkında yer alan ilgili calısmalar acıklanacaktır. 3. bolumde;onerilen model tanımlanmaktadır. Calısmanın sonuclarının yanı sıra, uygulama

612

Page 3: C˘ok Yan tl Do grusal Regresyon Algoritmas yla Lojistik ...ceur-ws.org/Vol-1721/UYMS16_paper_66.pdf · BK, VM’nin en onemli alanlar ndan biridir [5]. BK, verideki en anlaml ili˘skiler

ve testler 4. bolumde verilmektedir. Son olarak 5. bolumde; son hukumler vegelecek arastırmalar icin tavsiyeler ele alınacaktır.

2 Ilgili Calısmalar

Daha once de belirtildigi gibi bu arastırmanın amacı, daha iyi tahmin (sınıflandır-ma) sonucları elde etmek icin, TO yontemleriyle LR ve BK sonuclarını birlestir-mektir. Bu bolumde, ilk olarak BK hakkında yer alan calısmalar tanıtılacaktır.Ardından, LR modeliyle ilgili calısmalar ele alınacaktır. Sonuncu, fakat bir okadar da onemli olarak, TO ile ilgili arastırmalar kısaca sunulacaktır.

2.1 Birliktelik Kuralları

BK, VM’nin en onemli alanlarından biridir [5]. BK, verideki en anlamlı iliskilerkullanılarak bulunan Sık Rastlanan Oge Kumeleri (SROK) sonucunda olusturu-lur. BK, musteri davranıslarını analiz ve tahmin etmek icin kullanılabilir [6].Baslangıcta bu yontem, hangi urunun, hangi urunle satın alınacagını bulmakicin ’Pazar Sepet Analizi’ alanında kabul edilmistir. Verilen bir dizi musterisatın alma davranısları (farklı musteriler tarafından birlikte satın alınan urunle-rin kayıtları) goz onune alındıgında, BK’nın amacı bu islemlerde en sık satınalınan urunleri veya ogeleri bulmaktır. Diger yandan, urun kumelemesi ve kata-log tasarımı icin de yararlıdır.

Bir oge kumesi veri tabanında yer alan tum urunlerin bir alt kumesidir.Islemlerse, musterilerin birlikte satın aldıgı urun gruplarıdır. X → Y , BK icinbir ornektir ve aynı zamanda X ve Y urun gruplarıdır. Bu kural, X urunu icerenislemlerin, Y urunu icermesi egiliminde oldugunu belirtmektedir. BK algoritma-ları iki onemli parametreye sahiptir: destek ve guven. Oge kumesinin destekdegeri (support), X urunun veri tabanındaki toplan sayısının, veri tabanındakiislem sayısına oranını gostermektedir. Guven (confidence) degeriyse X ∪ Y ogekumesinin destek degerinin, X → Y kuralı icin X oge kumesinin destek degerineoranı olarak tanımlanmaktadır.

Bu arastırma, finans ve bankacılık sektorlerinde cok satın alınan urun aile-leri belirlemek ve bu urunlere gore kuralları olusturmak icin BK algoritma-larını kullanır. Apriori, BK alanında en iyi bilinen algoritma oldugu icin [7],bu arastırmada benimsenmistir.

2.2 Lojistik Regresyon

Kategorik secimleri acıklamak icin, istatistiksel modellerin kullanımı oldukcayaygındır [8]. Bu secimler, genel olarak nitel degerler olup, LR modelleri anali-ziyle yapılabilmektedir [9]. LR modeli, kolayca uygulanabilir ve anlasılabilir ol-masından dolayı, tıbbi ve sosyal bilimler alanlarında sıkca kullanılmaktadır. Bualanlara ek olarak, LR modelleri ayrıca biyoloji, psikoloji, ekonomi ve ulasımdada kullanılmaktadır [10]. 1977 yılından bu yana LR modelleri, pazarlamada etkinolarak kullanılmaktadır [11].

613

Page 4: C˘ok Yan tl Do grusal Regresyon Algoritmas yla Lojistik ...ceur-ws.org/Vol-1721/UYMS16_paper_66.pdf · BK, VM’nin en onemli alanlar ndan biridir [5]. BK, verideki en anlaml ili˘skiler

LR modelinin temel amacı, En Kucuk Kareler Regresyonu, Egri Uydurma veGenellestirilmis Dogrusal Regresyonu gibi istatistikte kullanılan diger tekniklerleaynıdır. Bu teknikler, bagımlı ve bagımsız degiskenler arasındaki iliskiyi temsiledip, aralarındaki en uygun iliskiyi bulmaya calısırlar. Iliskiler y = f(x) gibibasit bir fonksiyon ile temsil edilebilir. Bu fonksiyonda y ve x sırasıyla bagımlıve bagımsız degiskenlerdir. Istatistiksel iliskiler goz onune alındıgında, x degeribiliniyor ise y degeri belirli bir hata terimi ile tahmin edilebilir.

Asagıdaki formul lojistik kumulatif dagılım fonksiyonunu tanımlamak icinkullanılır.

y = f(x) =1

1 + e−z(1)

z, ”Fayda Fonksiyonu” olarak tanımlanmakta ve asagıdaki sekilde gosteril-mektedir.

z = β0 + β1x1 + β2x2 + . . .+ βnxn + ε (2)

Bu formule gore β0 sabiti, β1x1, β2x2, . . . , βnxn’ler ise tahmin degerleriyle carpılanregresyon katsayılarını temsil etmektedir. n sayısı veri kumesi icerisindeki bagımsızdegiskenlerin sayısını, ε ise hata terimini ifade eder.

LR, iki terimli, ordinal veya cok terimli olarak sınıflandırılabilir. Eger bagım-lı degisken icin gozlemlenen degerler, ”Evet”,”Hayır” veya ”Basarılı”,”Basarısız”gibi sadece iki tip barındırıyorsa, iki terimli LR kullanılabilir. Eger bagımlıdegisken degerleri uc veya ucten fazla terim barındırıyorsa, burada ancak cokterimli LR kullanılabilir. Tipler sıralıysa, ordinal LR kullanılabilir. Urunlerinkonfigurasyonları ve bankacılık sektorunde var olan veriden (3. bolumde detay-landırılmıstır.) dolayı, bu calısmada musterilerin urun secenekleri iki terimli LRile modellenmistir.

Genelde iki terimli LR’da bagımlı degiskenlerin tipini ifade etmek icin ”0”ve ”1” kullanılır [12], or: ”1” satın alınmıs, ”0” satın alınmamısı ifade eder. Birveya daha fazla sayıda, surekli veya kategorik bagımsız degiskenlere(demografikveya sosyoekonomik gibi) dayalı olarak, iki terimli LR, bir gozlemin, bagımsızdegiskenin iki tipinden hangisine, hangi olasılıkla tekabul ettigini tahmin eder[13]

LR kesin meydana gelen bir olayın (satın alınma veya alınmama gibi) olasılıgı-nın tahmini icin kullanıldıgında, Maksimum Olabilirlik (Maximum Likelihood-MO) yaklasımı, coklu iterasyonlarla farklı cozumler deneyerek, gozlenen ve tah-min edilen degerler arasındaki olası en kucuk sapmayı bulmayı esas alır. MO,gozlemlenen degerlerin elde edilme olasılıgını maksimize eden regresyon kat-sayılarını verir [14]. Olusturulan model ve elde edilen katsayılara gore modelle-nen urune sahip olmayan bir musteriye, urunun onerilip, onerilmemesinin kararıverilir.

2.3 Toplu Ogrenme

TO, tekli sınıflandırıcı yerine, coklu sınıflandırıcıların sonuclarının kombinasyo-nuna dayalı, daha iyi bir ongoru modeli yaratmayı amaclamaktadır. Sınıflandırıcı-ların cıktılarının birlestirilmesi icin kullanılan Istifleme (Stacking) Yontemi ilk

614

Page 5: C˘ok Yan tl Do grusal Regresyon Algoritmas yla Lojistik ...ceur-ws.org/Vol-1721/UYMS16_paper_66.pdf · BK, VM’nin en onemli alanlar ndan biridir [5]. BK, verideki en anlaml ili˘skiler

olarak David Wolpert tarafından duyurulmustur [15]. Sonrasında Dzeroski veZenko’nun calısmasına gore, Istifleme yontemi heterojen sınıflandırıcıların birles-tirilmesi icin en iyi yontem olarak bahsedilmistir [16].

Bugune kadar, TO yontemi arastırmacılar tarafından pek cok farklı disip-linde kullanılmıstır. Bu disiplinler arasında, oruntu tanıma, istatistik ve makineogrenmesi one cıkmaktadır [17]. Bu yonteme gore, bu calısmada da LR ve BKsonuclarının birlestirilmesi amaclanmaktadır.

Genel olarak TO yontemlerinde birlestirme iki kategoride incelenir [18]. Bun-lar:

– Agırlıklandırılmıs Yontemler: Eger sınıflandırıcılar aynı gorev uzerinde calısı-yor ve sonuclar karsılastırılabiliyorsa kullanılması uygundur [19]. Bu alandakien bilindik yontemlerden biri Oylamadır (Voting).

– Meta-Duzey Yontemler: Bu yaklasımda, bircok temel sınıflandırıcı ve birmeta sınıflandırıcı bulunmaktadır. Ilk olarak temel sınıflandırıcılar aracılıgıylaongoruler yapılır, sonrasında bu sonuclar kullanılarak ogrenme gerceklestirilirve meta seviye sınıflandırıcı yaratılmıs olur. Meta sınıflandırıcının sonucu,aynı zamanda sistemin sonucudur. Bu alandaki en populer teknik Istiflemedir[16].

LR ve BK farklı olceklerde sayısal degerler verdigi icin, bu sınıflandırıcılarınsonucları direkt olarak degerlendirilemez. Bu kosullar ve heterojen sınıflandırıcı-larla calısılması goz onune alındıgında, bu calısma Istifleme yontemine kaymıstır.Istifleme yontemi, Sekil 1’de ki Philip Chan’ın calısmasında [20] goruldugu uzere,2 asamaya sahiptir. Farklı sınıflandırıcıların cıktılarını nasıl birlestirilecegiyle il-gili pek cok calısma olmasına ragmen, LR ve BK sonuclarının birlestirilmesiozelinde bir calısma yoktur. Istifleme hakkında yapılan literatur arastırmasınagore, StackingC algoritmasının Meta seviyede Cok Yanıtlı Dogrusal Regres-yon (CYDR-(Multi-response Linear Regression (MLR)) yontemini kullandıgıgorulmustur [21,22]. Bu yontem, heterojen sınıflandırıcılar tarafından hesapla-nan olasılık degerlerini birlestirme icin kullandıgından, bizim calısmamıza uy-gundur.

Sekil 1: Meta Ogrenme

LR ve BK, her musteri icin ayrı ayrı her bir urunun satın alınma olasılıklarınıhesaplar. CYDR yontemiyse, farklı algoritmalar tarafından uretilen bu olasılıkları

615

Page 6: C˘ok Yan tl Do grusal Regresyon Algoritmas yla Lojistik ...ceur-ws.org/Vol-1721/UYMS16_paper_66.pdf · BK, VM’nin en onemli alanlar ndan biridir [5]. BK, verideki en anlaml ili˘skiler

girdi olarak kullanılır. Bu girdi uzerinde her urun icin ayrı ayrı dogrusal regres-yon calısır ve yine her urun icin bir cıktı uretilir (Urun satın alındıysa 1, aksihalde 0).

Sonuc olarak her urun icin ayrı ayrı birer model olusturulur. Sonrasında yenibir ornek (musteri) icin tahmin soruldugunda, tum urun modelleri bu ornek uze-rinde yurutulur ve ayrılan modellerin sonucları, ogrenme asamasında belirlenenCYDR katsayıları kullanılarak birlestirilir. Sonuc olarak, bir musteri sıfır veyabirden fazla urunun alıcısı olarak sınıflandırılabilir.

Iki terimli LR sonucu, her urun icin farklı olasılık degerleri urettigi icin ozelduzenlemelere ihtiyac duymaz. Bu sonuclar CYDR icin dogrudan kullanılabilir.Fakat, BK tarafından uretilen olasılık degerinin belirlenmesi sorunludur. Ilkyaklasım olarak, BK tarafından ongorulecek her bir urunun olasılıgı, ilgili kuralınguven degeriyle tanımlanır. Eger bir urun birden fazla kuralda yer alır ve belirlibir musteri icin birden fazla kural gecerli olursa, gecerli kurallar arasından enyuksek guven degerine sahip kuralın guven degeri olasılık degeri olarak belirlenir.

3 Model

Bolum 2 de belirtildigi gibi, LR ve BK pazarlama literaturunde musterininbir urunu satın alma olasılıgını tahmin etmek icin yaygın olarak kullanılanyaklasımlardır. Icerisinde yas, cinsiyet, gelir gibi musteri demografik ozelliklerive dort farklı banka perakende urunu icin sahiplik bilgileri yer alan, Turkiye’dekiorta olcekli bir banka veri kumesi dusunuldugunde, bu yaklasım kabul edilebilir.Urun sahiplik bilgileri ikili formattadır. ”1” urune sahip olundugunu, ”0” isesahip olunmadıgını temsil eder. Bankaların her bir ana urun ailesi icin cesitliurunleri oldugundan, urunler urun ailelerine gore gruplanmıs ve sahiplikler ye-niden duzenlenmistir.

Sekil 2 de gosterildigi gibi, ilk olarak egitim veri kumesi algoritmalar icinozellik secimi (Sekil 2a) ve orneklem (Sekil 2b) adımları (4. bolumde detay-landırılacaktır) kullanılarak hazırlanmıstır. LR ile modelleme yaparken sahiplikbilgileri bagımlı, demografik bilgilerse bagımsız degiskenler olarak kullanılmıstır.Urun aileleri birbirlerine esdeger olmadıgından ve birbirlerini alternatif olaraktemsil etmediginden, her urun ailesi icin sonuclar ayrı ayrı hesaplanır ve hepsiicin farklı ikili dogrusal regresyon modeli olusturulur. Aynı veri kumesi, demogra-fik bilgiler dısında Apriori algoritmasıyla BK icinde kullanılmıstır. Her ogrenmeveri kumesi icin, tum musterilerin butun urun aileleri icin sahiplik bilgisi kul-lanılarak, SROK olusturulur. Ardından bu oge kumeleri islenerek birliktelik ku-ralları cıkartılmaktadır. LR modeli her urun ailesi icin ayrı ayrı uygulamak ge-rekirken, BK tek seferde tum urunler icin uygulanabilmektedir. Bunun sonucuolarak iki terimli LR sonuclarının her urun icin farklı olcekte olması ve direkolarak karsılastırılamaz olması nedeniyle, sonuclar hic bir musteri icin dogrudanbirlestirilemez. Bu yuzden, LR ve BK’dan elde edilen sonuclar, her bir urun icinayrı ayrı ele alınmalıdır. Buda bizim LR ve BK’yı birlestirmede CYDR’ye ihtiyacduymamızın nedenidir.

616

Page 7: C˘ok Yan tl Do grusal Regresyon Algoritmas yla Lojistik ...ceur-ws.org/Vol-1721/UYMS16_paper_66.pdf · BK, VM’nin en onemli alanlar ndan biridir [5]. BK, verideki en anlaml ili˘skiler

Sekil 2: CYDR Algoritmasının, LR ve BK ile Ornegi

Sekil 2’de, CYDR algoritmasının iki baz sınıflandırıcı ile dort sınıf (P1, P2,P3, P4) ve n gozlemli bir veri kumesi uzerindeki cizimi verilmistir. BuradaPropijk, k. ornegin, j. urunun, i. temel sınıflandırıcı tarafından hesaplananolasılı- gını gostermektedir. Sekil 2c’de LR ve BK’nın ongordukleri olasılıklar ayrıayrı gosterilmektedir. Sekil 2d’deyse, CYDR icin dogrusal regresyon fonksiyonukullanılarak, her urun icin sahipligin tahmin edilecegi veri kumesi gosterilmek-tedir. Temelde, CYDR her sınıflandırıcı icin dogrusal regresyon fonksiyonunuogrenir ve sonrasında hesaplanan katsayılar, ilgili deneme veri kumesinde, sahip-likleri tahmin etmek icin kullanılır.

LR, BK ve CYDR’nin katsayıları ogrenme asamasının sonunda elde edilir.Bu ogrenilmis parametreler kullanılarak, deneme veri kumesi uzerinde, her birmusteri ve urun icin ayrı ayrı sahiplik (satın alma) olasılıgı hesaplanır.

Genel olarak CYDR, sınıfları esit sayıda olan cok sınıflı iki veya daha fazlasınıflandırıcıyı birlestirmek icin kullanılır. Bu nedenle meta egitim kumesinde,her sınıflandırıcı icin tum gozlemlerin olasılıklarının toplamı bire esittir. Bucalısmada, LR modellerinin her bir urun icin birbirlerinden bagımsız olarakolasılık olusturulmasında herhangi bir kısıt yoktur. Cunku urun aileleri birbirle-rine esdeger degillerdir.

617

Page 8: C˘ok Yan tl Do grusal Regresyon Algoritmas yla Lojistik ...ceur-ws.org/Vol-1721/UYMS16_paper_66.pdf · BK, VM’nin en onemli alanlar ndan biridir [5]. BK, verideki en anlaml ili˘skiler

4 Uygulama ve Test

Uygulama ve testler, yeni bir veri madenciligi aracı olan PROPCA uzerinde,Java programlama diliyle yapılmıstır. PROPCA ozellik secimi, orneklem vb. gibigerekli tum veri madenciligi bilesenlerini icermektedir. Ayrıca PROPCA, iki pa-ralel urun oneri modeli olan LR ve BK’yı da icermektedir. Bu iki modelin veriacısından farklı gereksinimleri vardır.

Onceden bahsedildigi gibi, LR modelleri, musterilerin demografik ozelliklerive satın alma durumları arasındaki iliskidir. Bankacılık veri kumeleri yuzlercedemografik ozellik icerir. Modelleme sırasında tum ozelliklerin kullanılması, za-man tuketen ve hata egilimli bir yaklasım olacaktır. Bu yuzden, ozellik kumesiicerisinden, modelleme isi icin uygun olanlar belirlenmelidir. Bankacılık alanındansıkca basvurulan ozellikleri arasından guclu olanlar, PROPCA’nın icerisindekibilgi degeri algoritması kullanılarak secilir. Bu ozellikler arasında hem sayısalhem de kategorik degerlere sahip olanlar bulunabilmektedir.

Nihai bankacılık veri kumesi, bilgi degeri tarafından secilen 5 demografikozellige (3 sayısal ve 2 kategorik) ve 4 urun ailesine sahip 19.818 musteriye sa-hiptir. Bankacılık verisinde musteri gizliliginden dolayı, kullanılan ozelliklerin veurunlerin isimlerinden bahsedilmemektedir. LR’nin uygulanabilmesi icin katego-rik ozelliklerin kukla degerleriyle ifade edilmesi ve tum ozelliklerin standardizehale getirilmesi gerekmektedir.

Tablo 1: Sahiplik Oranı (≈)

P1 P2 P3 P4

Sahiplik %32.2 %25.3 %62.2 %63

Tablo 1’de butun urun aileleri ve tum musteriler icin bu urunlerin sahiplikoranları sunulmaktadır. Bazı musteriler bu urunlerden birden fazlasına sahiptir.BK’da bu urunlerin sahiplikleri arasındaki iliskiyi tespit ederek, yeni bir urunsatın alabilecek musterileri algılar. Bu islemi gerceklestirmek icin, asgari destekve asgari guven degerlerine ihtiyac duymaktadır. Bu degerler sırasıyla 0.01 ve0.20 olarak tespit edilmistir. Asgari destek degeri, SROK’leri bulmak icin kul-lanılırken, asgari guven degeriyse bu oge kumelerinden kurallar olusturmak icinkullanılır.

Kullanılan veri kumesi PROPCA’da yer alan katmanlı ornekleme kullanılarak3 esit parcaya ayrılmıstır. Her bir parca egitim kumesi olarak kullanılırken, ve-rinin geri kalanı yinelemeli olarak test icin kullanılmaktadır. Bu nedenle, farklıegitim verilerinin genel sonuclara etkisi gozlemlenmistir. Herbir veri kumesi, 6606farklı musteriye ve her urun icin farklı sahiplik oranlarına sahiptir. (Tablo 2 degorulebilir.)

Her yinelemede model, bir veri kumesiyle ogrenme gerceklestirirken, geri ka-lan 2 veri kumesinin butunuyle test etmektedir. Belirlenen bir esik degeriyle (i.e.0.5) sınıfların ”1” veya ”0” degeri elde edilir ve boylece algoritmaların tahmin

618

Page 9: C˘ok Yan tl Do grusal Regresyon Algoritmas yla Lojistik ...ceur-ws.org/Vol-1721/UYMS16_paper_66.pdf · BK, VM’nin en onemli alanlar ndan biridir [5]. BK, verideki en anlaml ili˘skiler

Tablo 2: Farklı Egitim Veri Kumelerindeki Sahiplik Oranı (≈)

P1 P2 P3 P4

Egitim Kumesi 1 %32.3 %25.7 %62.1 %63.0Egitim Kumesi 2 %32.1 %24.8 %61.6 %63.2Egitim Kumesi 3 %32.1 %25.3 %63.0 %62.8

olasılık- ları degerlendirilir. Duyarlılık (Sensivity - True Positive Rate), Ozgulluk(Specifity - True Negative Rate) ve Dogruluk (Accuracy) degerleri, her bir urunailesi icin farklı test kumelerinde hesaplanır. Bu testler, farklı algoritmalarınCYDR ile birlestirilmesinin faydalarını gostermeyi amaclamaktadır.

4.1 Duyarlılık ve Ozgulluk

Duyarlılık ve Ozgulluk birbirini tamamlayıcı gostergelerdir. Duyarlılık dogru tes-pit edilen pozitiflerin (e.g. urunun satın alınması) oranını olcerken, ozgullukdogru tespit edilen negatiflerin (e.g. urunun satın alınmaması) oranını olcer.Sekil 3’te farklı algoritmalar (LR, BK, CYDR) ile her bir test kumesinden (Testkumesi 1, 2, 3), her urun (Product 1, 2, 3, 4) icin elde edilen duyarlılık veozgulluk degerleri gosterilmistir. Tum testlere birinci urun icin bakıldıgında,LR’nin duyarlılık ve ozgulluk degerleri yaklasık olarak sırasıyla %0 ve %100olarak cıkmaktadır. LR, P1’i satın alanlarla almayanları ayırt edememekte vemusterilerin onemsiz bir kısmını alıcı olarak sınıflandırma egilimindedir. Bubasarısız sonucların nedeni, birinci urunun (%50’den az) veri kumelerinde (Tablo1 ve 2) dusuk sahiplik oranlarına sahip olması olabilir. BK icin 1. ve 2. test veri-sine bakıldıgındaysa duyarlılık ve ozgullugun sırasıyla %95 ve %50 oldugu, ancak3. test kumesindeyse hicbir musteriyi alıcı olarak sınıflandırmama egilimindedir.Bu nedenle duyarlılık %0, ozgullukse %100’dur. Ilk iki test icin CYDR sonuclarıLR ve BK sonucları arasındadır. Son testteyse CYDR’nin duyarlılıgı (≈ %14)iki temel sınıflandırıcıdan buyukken, ozgulluk (≈ %95) sonucları kucuktur. Bu-radan ozetle, ozgulluk tarafında kucuk bir kayıp olmasına ragmen, duyarlılıksonuclarında %14 kazanc saglanmıstır.

Urun 2 icin yok denecek kadar az musteri, alıcı olarak dogru sınıflandırılabil-mistir. Bu nedenle, duyarlılık degerleri tum testlerde zayıf kalmıstır. Ne LR nede BK, urun 2 icin satın alma modeli olabilir. Bunun en buyuk nedeni, 2. urununtum veri kumelerinde %25 gibi kotu bir sahiplik oranı olmasıdır. Aksine, ozgulluksonucları tum testlerde neredeyse %100’dur. Bu durumda, CYDR sonuclardaduzeltme yapamamıstır.

BK, 3. ve 4. urun icin testlerin tumunde musterileri satın alır olarak sınıflan-dırmıstır. Bu yuzden, BK icin duyarlılık sonucları her zaman %100 cıkarken,ozgulluk sonucları %0’dır. BK, alan veya almayanı ayırt edememistir. Ote yan-dan LR sonucları da BK’dan cok farklı degildir. duyarlılık sonucları %90’danfazla iken, ozgulluk sonucları %10’dan asagıdadır. Burada CYDR, duyarlılıkve ozgulluk sonuclarını dengeler. 3. ve 4. urunde farklı test kumelerinde, du-yarlılıkta %10-35 arası kayıp yasanırken, ozgullukte %60-90 arasında kazanc

619

Page 10: C˘ok Yan tl Do grusal Regresyon Algoritmas yla Lojistik ...ceur-ws.org/Vol-1721/UYMS16_paper_66.pdf · BK, VM’nin en onemli alanlar ndan biridir [5]. BK, verideki en anlaml ili˘skiler

saglanmıstır. Ozetle, CYDR iki zayıf sınıflandırıcı sonuclarını girdi olarak alarak,duyarlılık ve ozgulluk arasındaki dengeyi artırmıstır. Ayrıca, ucuncu test icin 1.urune bakıldıgında CYDR’nin duyarlılık sonuclarını iyilestirdigi gorulmektedir.Bir sonraki bolumde dogruluk gostergesi ve CYDR’nin bu gostergeye etkisi elealınacaktır.

Sekil 3: Duyarlılık ve Ozgulluk Sonucları

4.2 Dogruluk

Dogruluk olcusu, sınıflandırıcıların pozitif ve negatif tahminlerini birlikte kul-lanır. Sekil 4’te goruldugu gibi, CYDR, hem LR hem BK’nın dogruluklarınıartırmıstır. Daha belirli olması acısından urun 2 dısında dogrulukları tum verikumeleri icin inceledigimizde, urun 1 icin yaklasık %2, urun 3 ve 4 icinse %8’denfazla CYDR ile kazanc elde edilmistir.

Tum urun aileleri icin dogruluk degerlerinin %60 civarında olmasından do-layı, kullanıcı davranıslarının karmasık oldugu seklinde basitce yorumlanabilir.Ozellikle musteriye bir sey tavsiye edilecegi zaman, bu daha da karmasıklasır.Daha once bilinen birisine bir sey onermekle, hic bilinmemis ya da duyulmamısbirisine oneride bulunmak aynı degildir. Bu yuzden dogruluk degerinin yuksek ol-maması sosyal bilimlerde kabul edilebilir bir seydir. Sekil 4’un ısıgında, CYDR’nin

Sekil 4: Dogruluk Sonucları

neredeyse tum test verileri icin, satın alan musterilerle, satın almayan musterileri,LR ve BK’dan daha iyi ayırdıgı soylenebilir.

620

Page 11: C˘ok Yan tl Do grusal Regresyon Algoritmas yla Lojistik ...ceur-ws.org/Vol-1721/UYMS16_paper_66.pdf · BK, VM’nin en onemli alanlar ndan biridir [5]. BK, verideki en anlaml ili˘skiler

5 Sonuclar ve Gelecek Calısmalar

Bu calısmada, PROPCA’nın bir parcası olarak gelistirilen iki ayrı algoritmanın(LR ve BK) cıktılarının birlestirilmesi amaclanmıstır. Fakat buyuk veri kumelerive farklı islem ilkeleriyle efektif calısma konularında zorluklar bulunmaktadır.Sonuclar umut verici olmakla birlikte, bu modelin oldukca efektif ve diger ikimodelden daha iyi dogruluga sahip oldugu gorulmustur. Bu calısma sonucun-daki modelin, diger iki modelin tahmin gucunu kuvvetlendirdigi ve gelistirdigikabul edilir. Ayrıca yazarlar, modeli dogrulamak icin daha fazla urun ve musteribulunan bir veriyle calısmanın genisletilmesi gerektiginin farkındadır.

Veri kumesindeki pozitif ve negatif sınıfların dengeli olması halinde LR’nindaha iyi calıstıgı bilinmektedir. Ornekleme modelinin dikkatli olarak olusturulma-sı halinde modelin dogrulugunun artması mumkundur. Eger her bir urun icindaha dengeli bir veri kumesi (yaklasık %50 pozitif, %50 negatif gozlem) ya-ratılırsa, LR’nin performansı bu ornekleme kıyasla artabilir. Bunun sonucunda,LR cıktısı daha iyi ongoru olasılıkları vererek, performans artısı saglayabilir vebu da genel modelin basarısını olumlu etkileyebilir.

Ayrıca her urun icin ayrı ayrı, dengeli bir egitim veri kumesinin ele alınması,farklı guclu ozelliklerin secilmesi ve farklı kesme (cut-off) noktalarının belirlen-mesi, LR modelinin ve bunun sonucunda CYDR modelinin basarısını artırabilir.Onerilen modelin verimliligini artırmak icin, gelecekte bazı oncelikli calısmalaryapılabilir. BK, veri kumesine uygulamadan once, benzer demografik ozellikleresahip musterileri bir araya toplamak amacıyla kumeleme(or: basit k ortalamalı,beklenti maksimizasyonu [23]) gibi ek adımlar uygulanabilir. Boylece her kume-deki musteriler icin, BK ayrı ayrı calıstırılabilir.

Benzer sekilde, Gizli Sınıf (Latent Class) yaklasımı LR icin kullanılabilir.Gizli Sınıf analizi, sınıf sayılarının dogru secimi icin onemli bir konudur. AkaikeBilgi Kriteri [24] ve Bayesian Bilgi Kriteri [25] gibi olasılık kriterleri farklı sayıdasınıfa sahip modelleri karsılastırmada kullanılabilir. Orneklemdeki musteriler,musteri ozellikleri ve urun tercihlerine gore segmentlere ayrılmıs olabilir. Son-rasında her segment icin karakteristik degerler, segmentte yer alan musterilerinozellikleri kullanılarak hesaplanabilir. Evrendeki her musterinin secilmis ozel-likleri kullanılarak, her segmentin mesafeleri hesaplanabilir, musteriler en azuzaklıga sahip oldukları segmentlere atanabilir ve tahmin olasılıkları ilgili seg-ment ozellikleri kullanılarak hesaplanabilir.

Kaynaklar

1. Silverpop. ”Silverpop email marketing metrics benchmark study.”, 2014.

2. Tanguma, Jesus, and Roberto Saldivar. ”Interpretation of Logistic Regression Mo-dels in Marketing Journals.” The Sustainable Global Marketplace. Springer Inter-national Publishing, 2015. 2-2.

3. Akinci, Serkan, et al. ”Where does the logistic regression analysis stand in marke-ting literature? A comparison of the Market Positioning of Prominent MarketingJournals.” European Journal of Marketing 41.5/6 (2007): 537-567.

621

Page 12: C˘ok Yan tl Do grusal Regresyon Algoritmas yla Lojistik ...ceur-ws.org/Vol-1721/UYMS16_paper_66.pdf · BK, VM’nin en onemli alanlar ndan biridir [5]. BK, verideki en anlaml ili˘skiler

4. Brin, Sergey, Rajeev Motwani, and Craig Silverstein. ”Beyond market baskets: Ge-neralizing association rules to correlations.” ACM SIGMOD Record. Vol. 26. No. 2.ACM, 1997.

5. Kotsiantis, Sotiris, and Dimitris Kanellopoulos. ”Association rules mining: A recentoverview.” GESTS International Transactions on Computer Science and Engine-ering 32.1 (2006): 71-82.

6. Srikant, Ramakrishnan, and Rakesh Agrawal. Mining generalized association rules.IBM Research Division, 1995.

7. Hegland, Markus. ”Algorithms for association rules.” Advanced lectures on machinelearning. Springer Berlin Heidelberg, 2003. 226-234.

8. Flath, David, and E. W. Leonard. ”A comparison of two logit models in the analysisof qualitative marketing data.” Journal of Marketing Research (1979): 533-538.

9. Berkson, Joseph. ”Maximum likelihood and minimum X 2 estimates of the logisticfunction.” Journal of the American Statistical Association 50.269 (1955): 130-162.

10. Malhotra, Naresh K. ”The use of linear logit models in marketing research.” Jour-nal of Marketing research (1984): 20-31.

11. Green, Paul E., Frank J. Carmone, and David P. Wachspress. ”On the analysisof qualitative data in marketing research.” Journal of Marketing Research (1977):52-59.

12. S. Hosmer, David W. Lemeshow. ”Log-linear models.” Springer-Verlag, 1990,ISBN:0-471-35632-8.

13. De La Vina, Lynda, and Jamie Ford. ”Logistic regression analysis of cruise vacationmarket potential: Demographic and trip attribute perception factors.” Journal ofTravel Research 39.4 (2001): 406-410.

14. McCullagh, Peter, and John A. Nelder. Generalized linear models. Vol. 37. CRCpress, 1989.

15. Wolpert, David H. ”Stacked generalization.” Neural networks 5.2 (1992): 241-259.16. Dzeroski, Saso, and Bernard Zenko. ”Is combining classifiers with stacking better

than selecting the best one?.” Machine learning 54.3 (2004): 255-273.17. Sewell, Martin. ”Ensemble learning.” RN 11.02 (2008).18. Rokach, Lior. ”Ensemble-based classifiers.” Artificial Intelligence Review 33.1-2

(2010): 1-39.19. Sigletos, Georgios, et al. ”Combining information extraction systems using voting

and stacked generalization.” The Journal of Machine Learning Research 6 (2005):1751-1782.

20. Fan, David W., Philip K. Chan, and Salvatore J. Stolfo. ”A comparative evalu-ation of combiner and stacked generalization.” Proceedings of AAAI-96 workshopon Integrating Multiple Learned Models. 1996.

21. Seewald, Alexander K. ”How to make stacking better and faster while also ta-king care of an unknown weakness.” Proceedings of the nineteenth internationalconference on machine learning. Morgan Kaufmann Publishers Inc., 2002.

22. Ting, Kai Ming, and Ian H. Witten. ”Issues in stacked generalization.” J. Artif.Intell. Res.(JAIR) 10 (1999): 271-289.

23. Bottou, Leon, and Yoshua Bengio. ”Convergence properties of the k-means algo-rithms.” Advances in Neural Information Processing Systems 7. 1995.

24. Akaike, Hirotugu. ”Factor analysis and AIC.” Psychometrika 52.3 (1987): 317-332.25. Schwarz, Gideon. ”Estimating the dimension of a model.” The annals of statistics

6.2 (1978): 461-464.

622