Download pdf - Veri Kaçağı Tespitinde Yeni Bir YaklaúımSavunma Bilimleri Dergisi, Mayıs 2016, 15 (1), 149-177. | 155 Her bir kişi için özel ve genel anahtar üretme PrK1, PbK1 PrK2, PbK2

Savunma Bilimleri Dergisi

The Journal of Defense Sciences

Mayıs/May 2016, Cilt/Volume 15, Sayı/Issue 1, 149-177.

ISSN (Basılı) : 1303-6831 ISSN (Online): 2148-1776

Veri Kaçağı Tespitinde Yeni Bir Yaklaşım

Yavuz CANBAY1 Şeref SAĞIROĞLU

2

Öz

Hassas verilerin veya bilgilerin yetkisiz kişilerin erişiminden korunması her

kuruluş tarafından büyük bir çaba gerektirmektedir. Veriler veya veri

tabanları pek çok kişilerle veya kurumlarla paylaşılabilmekte, ancak bu

paylaşım sırasında verinin yetkisiz kişilere sızdırılması gibi olumsuz bir

durumla karşılaşılabilmektedir. Bu problemin aşılması amacıyla veri kaçağı

tespit sistemi çözümleri önerilmektedir. Veri kaçağı tespiti, paydaşlara

dağıtılan verilerin yetkisiz kişilerde bulunması halinde, bu verileri sızdıran

paydaşın belirlenmesi işlemidir. Sızdırılabilecek veriler, kaynak kodlar,

tasarım ayrıntıları, fiyat listesi, telif hakları verisi, ticari sırlar, finansal

veriler, hasta verileri, kredi kart verileri ve gelecek planları olabilir. Veriler

e-posta, anlık mesajlaşma, internet siteleri, çeşitli donanımlar ve dosya

transferi gibi yollarla veri sahibinin bilgisi olmadan sızdırılabilmektedir. Bu

makalede, veri kaçağı tespitinde kullanılan mevcut yöntemler araştırılmış,

literatürdeki çalışmalar gözden geçirilmiş, veri kaçağı tespitinde sahte

nesne ekleme işlemleri üzerinde durulmuş, elde edilen bulgular tartışılmış

ve değerlendirilmiştir. Tüm bu sonuçlar dikkate alınarak yeni bir veri

kaçağı tespit yaklaşımı önerilmiştir.

Anahtar Kelimeler: Veri Kaçağı, Veri Kaçağı Tespiti, Araştırma, İnceleme.

1

Yazışma adresi: Arş.Gör., Gazi Üniversitesi Mühendislik Fakültesi Bilgisayar

Mühendisliği Bölümü, Ankara, [email protected].

2 Prof.Dr., Gazi Üniversitesi Mühendislik Fakültesi Bilgisayar Mühendisliği

Bölümü, Ankara, [email protected].

Makalenin geliş tarihi: 30.06.2015 Kabul tarihi: 19.02.2016

150 | Canbay ve Sağıroğlu

A New Approach on Data Leakage Detection

Abstract

Protecting sensitive information or data from unauthorized access requires

more effort paid by every institution. Data or databases can be shared with

a lot of people or institutions. But during data sharing, it can be

encountered with a negative situation like leaking the data to unauthorized

third parties. Data leakage detection system solutions are suggested for

overcoming this problem. Data leakage detection is detecting the

stakeholder that leaks the data in the case of the private data is found in an

unauthorized place. Source codes, design details, price lists, copyright data,

commercial secrets, financial data, patient data, credit card data and future

plans are data that might be leaked. Data can be leaked via e-mail, instant

messaging, web sites, various external devices and file transfer methods.

In this paper, data leakage detection methods that available on literature

were examined, studies were reviewed, fake object addition processes in

data leakage detection were emphasized, and obtained findings were

discussed and evaluated. Taking into consideration the findings and results,

a new data leakage detection approach was proposed.

Keywords: Data Leakage, Data Leakage Detection, Research, Review.

Giriş

Veri kaçağı, kazara veya istemli olarak özel veya hassas verilerin

yetkisiz kişilerin eline geçmesi olarak tanımlanır. Şirket, kurum veya

organizasyonlar için hassas veriler; finansal veriler, hasta verileri, kredi kartı

verileri, plan ve bütçeler, personel bilgileri, müşteri portföyü, stratejik

hedefler, gelecek planları olarak sıralanabilir. Pek çok durumda bu veriler

üçüncü şahıslar yani ajanlar olarak adlandırılan iş ortaklarına, danışmanlara,

paydaşlara ve müşterilere verilebilir. Böylesi bir durum, gizli veya hassas

verinin yetkisiz kişilerin eline geçmesi riskini de ortaya çıkarmaktadır.

Gerek kötücül yazılımlar, davranışlar, tutumlar veya düşüncelerle

gerekse istenmeyen bir durum ile içeriden veya dışarıdan hassas verilerin

saldırıya maruz kalmaları, bir kurumu veya organizasyonu ciddi bir şekilde

zarara uğratabilmektedir. Veri kaçağının potansiyel zararları veya olumsuz

etkileri doğrudan ve dolaylı kayıp olarak gruplandırılabilir. Doğrudan kayıp

Savunma Bilimleri Dergisi, Mayıs 2016, 15 (1), 149-177. | 151

ölçülmesi kolay yani maddi hasarlardır. Buna örnek olarak, olası satış

kayıpları, araştırma maliyetleri, tazminat cezaları verilebilir. Dolaylı kayıp

ise ölçülmesi zor olan durumlardır. Olumsuz etkiden kaynaklı hisse senedi

kayıpları, şirket itibarının düşmesi, müşterilerin şirket veya kurumla

ilişkilerini kesmeleri, çeşitli özel bilgilerin rakiplerin eline geçmesi gibi

durumlar buna örnek olarak verilebilir (Kale ve Kulkarni, 2012b).

Kurum için önemli veriler dışarıya sızdırıldığında bir başka ifadeyle

yetkisiz kişilerin eline geçmesi halinde, böylesi bir durum kurumu

savunmasız bırakmaktadır. Veriler artık kurumun yetkisi dışında

kullanılabileceği için büyük zararlar ortaya çıkabilmekte ve aynı zamanda

büyük bir risk faktörü de oluşturmaktadır. Veri kaçağı, verdiği zararlardan

ve maliyetlerden dolayı şirketler için önemli bir sorun haline gelmiştir

(Ansari, Jagtap ve Raut, 2013).

Veriler, gerek işlenmesi gerekse de yeni bulgular elde edilmesi

amacıyla üçüncü şahıslarla paylaşılabilir. Örneğin bir hastane, hasta

verilerini çeşitli analiz veya araştırmalar yapılması amacıyla araştırmacılara

verebilir. Benzer bir şekilde bir firma, kendisiyle iş ortaklığı yapan başka bir

firmayla müşteri bilgilerini paylaşabilir. Bir kurum, verilerinin işlenmesini

hizmet alım yolu ile gerçekleştirebilir. Bu durumlarda verinin farklı kişi

veya kuruluşlara verilmesi gerekmektedir. Bunun sonucu olarak verinin

yetkisiz kişilerin eline geçmesi ihtimali ortaya çıkmaktadır. Böylesi bir

senaryoda verinin sahibi dağıtıcı, verinin paylaşıldığı üçüncü şahıs ajan,

veriyi sızdıran ajan ise suçlu ajan veya hedef olarak adlandırılır.

Veri kaçağı tespitinde kullanılan metotlar genel olarak damgalama

(Bansode, Jadhav ve Patil, 2013; Barge, Dhawale ve Kolashetti, 2013),

dosya parmak izi kontrolü (Shapira, Shapira ve Shabtai 2013; Shu ve Yao,

2012), RSA algoritması (Singh, 2013), sahte nesne eklenmesi (Jadhav,

2013; Papadimitriou ve Garcia-Molina, 2011) şeklindedir. Damgalama

metodunda, dağıtılan her bir veri kopyasına tekil bir kod eklenir. Eğer bu

kopya dağıtım sonrasında yetkisiz kişilerde ele geçirilirse, veriyi sızdıran

kişi tespit edilebilir. Dosya parmak izi kontrolünde ise bilinen gizli

içeriklerin imzası çıkarılır ve giden veri içeriği ile karşılaştırılır. RSA tabanlı

veri kaçağı tespit sistemlerinde, dağıtılan her veri kümesi için gizli anahtar

üretilerek bu şekilde suçlu ajan tespit edilebilir. Sahte nesne eklenme

metodunda ise veri kümesine sahte nesneler yani veriler eklenerek veriyi

sızdıran ajanın bulunması sağlanabilir.


Bu makale yedi başlık altında ele alınmıştır. Bir sonraki bölümde

konu ile ilgili literatür taraması yer almaktadır. İlerleyen bölümlerde veri

kaçağı tespitinde kullanılan yöntemler tanıtılmış ve bu yöntemlerden veri

kaçağı tespitinde sahte nesne ekleme işlemleri detaylandırılmıştır. Takibinde

hastane sistemlerinde yapılabilecek veri kaçağı tespiti için tanımlayıcı bir

örnek gösterilmiş ve ardından önerilen yaklaşım açıklanmıştır. Makalenin

son kısmında ise tartışma ve sonuç bölümleri yer almaktadır.

Literatür Taraması

Damgalama ve veri kaçağı tespit modelleri Kale ve Kulkarni (2012a)

ve Barge ve ark. (2013)’nın çalışmalarında açıklanmıştır. Hassas verinin

ajanlar tarafından sızdırılmasının tespiti ve veriyi sızdıran ajanın

belirlenmesi işlemleri hedeflenmiştir. Veri kaçağını tespit etmek için veriler

üzerinde gerçekleştirilen işlemlerin, üçüncü şahıslar tarafından

anlaşılmasının zor olduğu çeşitli teknikler geliştirilmiştir. Verinin ajanlara

dağıtım stratejisi algoritmaları üzerinde durularak, dağıtılan verilere sahte

nesneler eklenmesinin suçlu ajanların tespitinde kullanılabileceği

belirtilmiştir.

Veri kaçağı tespitinde RSA algoritması Singh (2013)’in çalışmasında

kullanılmış ve şifrelenmiş nesneler aracılığıyla ajanın veriyi sızdırmasını

kontrol eden bir yaklaşım sunulmuştur. Bu sayede, şifreleme işlemi ile

verinin yetkisiz kimselerce okunabilirliğinin de önüne geçilmiştir.

İlgisiz bölümlerin göz ardı edilerek gizli içeriğin parmak izi

kontrolünün yapılması ile suçlu ajanın tespit edilmesine yönelik işlemler

Shapira ve ark. (2013)’nın çalışmasında vurgulanmıştır. Önerilen parmak izi

kontrolü metodunun, veri içeriğinin tekrar ifade edilmesi yani değiştirilmesi

saldırısına karşı daha fazla gürbüz olduğu ve önceden karşılaşılmayan gizli

dokümanların tespitinde kullanılabileceği, böylelikle sızıntı tespitine karşı

daha iyi bir başarım sağlayacağı belirtilmiştir. İçerik tabanlı veri kaçağı

tespit yöntemi açıklanmış, parmak izi kontrolü türleri detaylı olarak

anlatılmış ve üç farklı senaryo için başarı analizi yapılmıştır.

Veri kaçağı tespiti ile ilgili yapılan başka çalışmalarda ise (Anjali,

Geetanjali, Shivlila, Swati ve Kadu, 2013; Ansari vd., 2013; Bansode vd.,

2013; Chaware, Bapat, Kad, Jadhav ve Sangve, 2012; Jadhav, 2013; Kale

ve Kulkarni, 2012b; Papadimitriou ve Garcia-Molina, 2011; Patil ve Bhole,


2013; Patil ve Prasanthi, 2013; Pol, Thakur ve Bhise, 2012), veri

sızıntılarının tespit ihtimalinin arttırılması amacıyla veri dağıtım stratejileri

üzerinde durulmuş, veriyi sızdıran ajanın tespiti için verilere sahte nesne

ekleme yöntemi tanıtılmıştır. Verinin sızdırılmasının ve sızdıran ajanın

tespiti için veri kaçağı tespit sistemlerinin modülleri belirtilerek, veri

dağıtım stratejileri açıklanmıştır.

Veri kaçağını sağlayan ajanların tespitini sağlayan bir metodoloji ve

veri kaçağı tespiti hakkında detaylı bilgiler, Singh, Tripathi ve Singh

(2013)’in çalışmasında ele alınmıştır. Veri kaçağı tespiti hakkında

literatürdeki mevcut sistemlerden bahsedilmiş, veri dağıtım stratejileri için

bir algoritma geliştirilmiş ve bu sayede veriyi sızdıran ajanın tespit edilme

olasılığı arttırılmıştır.

Ağ tabanlı veri kaçağı tespiti için bulanık parmak izi kontrolü

metodu Shu ve Yao (2012)’nun çalışmasında önerilmiştir. Bu metodun,

kazara veya program tabanlı veri kaçağı tespitinde kullanılabileceği

belirtilmiştir. Önerilen bu teknik, gizlilik, etkinlik, doğruluk ve gürültü

toleransı açısından değerlendirilmiştir.

Veri sızıntısı tespitinde üçüncü şahıslar tarafından kolaylıkla tespit

edilemeyen teknikler Vaidya, Lahange, More, Kachroo ve Pandey (2012)’in

çalışmasında sunulmuş, suçlu ajanı belirlemek için bir model geliştirilmiş ve

veri dağıtım stratejileri önerilmiştir.

Başka bir çalışmada (Jagap ve Patil, 2012), suçlu ajanın belirlenmesi

ve bir ajanın kendi erişim yetkisi dışında olan verilere ulaşma durumunun

izlenmesi için bir izleme programı sunulmuştur.

Veri Kaçağı Tespitinde Kullanılan Yöntemler

Veri kaçağı tespitinde kullanılan pek çok yöntem literatür bölümünde

sunulmuştur. Bu yöntemlerden olan RSA, dosya parmak izi kontrolü,

damgalama, sahte nesne ekleme yöntemleri (Bansode vd., 2013; Jaseena ve

John, 2011; Papadimitriou ve Garcia-Molina, 2011; Shapira vd., 2013; Zhou

ve Tang, 2011) aşağıdaki bölümlerde kısaca açıklanmıştır.


RSA Algoritması

Genel anahtar şifrelemenin en önemli özelliği, şifreleme ve şifre

çözme işlemlerinin genel anahtar ve özel anahtar adı verilen iki farklı yapı

kullanılarak yapılmasıdır. Özel anahtar genel anahtardan elde

edilememektedir. Bu da şifreleme anahtarının herhangi bir gizlilik riski

olmadan dağıtılabileceği anlamına gelir.

Genel anahtarlı şifreleme algoritmalarında en çok kullanılan yöntem

RSA’dır. RSA algoritması (Zhou ve Tang, 2011), hem veri şifrelemede hem

de dijital imzada kullanılan ilk algoritmadır. RSA algoritmasının güvenliği,

büyük asal sayıların ayrışımının veya çözümlenmesinin zorluğuna

dayanmaktadır. Bu algoritmada, genel ve özel anahtarları üretmek için iki

adet asal sayı kullanılır. Düz metnin anahtar ve şifreli metinden elde

edilmesi, bu iki büyük asal sayının ayrışımına bağlıdır. RSA’da genel

anahtar herkese açık iken özel anahtar sadece sahibi tarafından

bilinmektedir.

RSA’nın veri kaçağı tespitinde kullanılmasındaki amaç, sızıntıyı

sağlayan ajanın tespit edilmesidir. Veri dağıtılmadan önce her alıcı için tekil

birer özel ve genel anahtar üretilir. Veri, alıcıların genel anahtarları ile

şifrelenerek alıcılara iletilir. Alıcılar da kendilerine ait olan özel anahtarlarla

veriyi deşifre ederek kendi amaçları doğrultusunda kullanırlar. Şifrelenmiş

verinin yetkisiz kişilerde bulunması durumunda ise şifreli veri, tutulan özel

anahtar listesindeki anahtarlarla çözülmeye çalışılır. Hangi anahtar bu şifreli

veriyi çözüyorsa o anahtarın sahibi veriyi sızdırmış olarak kabul edilir. Bu

şekilde veriyi sızdıran ajan tespit edilmiş olur. Verinin şifrelenmesiyle,

yetkisiz kimselerin veriyi ele geçirseler dahi anlamaları engellenmiş olur

(Singh, 2013).

Şekil 1’de verinin şifreleme aşaması gösterilmektedir. Bu aşamada

hassas veri, paydaşlar için üretilen genel anahtarlar ile şifrelenip paydaşlara

dağıtılırken aynı zamanda her paydaş için ayrı ayrı birer özel anahtar üretilir.

Genel ve özel anahtarlar veri dağıtıcısı tarafında bir listede tutulur. Veri bu

şekilde şifrelenerek paydaşlara dağıtılır.


Her bir kişi için

özel ve genel

anahtar üretme

PrK1, PbK1

PrK2, PbK2

PrK3, PbK3

.

.

PrKN, PbKN

Kişi 3

Dağıtıcı Tarafında Tutulan Özel

ve Genel Anahtar Listesi

Kişi 1

Kişi 2

Kişi N

Şifreleme

Genel

anahtarlarla

verinin

şifrelenmesi ve

kullanıcılara

dağıtılması

Veri1

Veri2

Veri3

.

.

VeriN

Kişi 3

Şifrelenmiş Veri

Kişi 1

Kişi 2

Kişi N

Gizli Veri

.

.

.

.

.

.

.

.

Şekil 1. RSA kullanılarak gizli verinin şifrelenmesi

Veri-X

PrK1

PrK2

PrK3

.

.

PrKN

Dağıtıcı Tarafında Tutulan Özel

Anahtar Listesi

Yetkisiz Kişilerde Tespit Edilen

Şifrelenmiş Veri

Suçlu Ajanın

Bulunması

Gizli Veri

Kişi 1Kişi 2

Kişi 3

Kişi N

Suçlu Ajan Tespiti

Gizli Veri

Deşifreleme

.

.

.

.

Şekil 2. RSA’da deşifreleme yaparak suçlu ajanın tespit edilmesi

Şekil 2’de verinin deşifre edilme aşaması yani suçlu ajanın tespit

edilmesi gösterilmektedir. Bu aşamada, yetkisiz kişilerde bulunan ve


herhangi bir yolla elde edildiği kabul edilen şifrelenmiş gizli veri, dağıtıcı

tarafında tutulan özel anahtar listesindeki anahtarlarla çözülmeye yani

deşifre edilmeye çalışılır. Listedeki hangi özel anahtar gizli veriyi çözüyorsa,

bu özel anahtarın sahibi o veriyi sızdırmış olarak kabul edilir. Bu şekilde

suçlu ajan tespiti gerçekleştirilir.

Dosya Parmak İzi Kontrolü

Dosya parmak izi kontrolü, veri kaçağı tespitinde kullanılan içerik

tabanlı bir metottur. Bu metotta, bilinen gizli içeriklerin imzaları oluşturulur

ve giden içerik ile karşılaştırılır. Mevcut parmak izi kontrol sistemlerinde iki

temel kısıtlama vardır. Bunlardan ilki gizli verilerin içeriklerinde ufak

değişiklikler yapma olarak adlandırılan tekrardan ifade etme, ikincisi ise tüm

doküman içeriğinin parmak izi kontrolüne tabi tutulmasıdır. Yapılan bir

çalışmada (Shapira vd., 2013) önerilen metotta, “k-skip-n-grams” metodu

kullanılarak gizli verinin tespit edilmesi odaklı bir metot geliştirilmiştir. Bu

sayede ilgisiz verilerin ayıklanması sağlanmıştır.

Şekil 3. Dosya parmak izi kontrolü ile benzer dokümanların bulunması (Shapira vd., 2013)

Şekil 3’de parmak izi kontrol metodu gösterilmektedir. Bu metoda

göre bir dokümanın parmak izi onun özet (hash) değeri kümesidir. Bir d

dokümanın R referans kümesindeki bir doküman ile benzerliğini kontrol

etmek için indeksleme ve tespit safhası gereklidir. İndeksleme safhası,

R’deki parmak izi alınmış her bir doküman için uygulanır. Parmak izleri

özel bir veri tabanında kaydedilir. Tespit safhası süresince, incelenen d


dokümanın bir parmak izi çıkarılır ve veri tabanındakilerle kıyaslanır.

d dokümanın parmak izinin her bir özet kodunu içeren dokümanlar listesi

veri tabanından çekilir. d ile belirli sayıda özet kodunu paylaşan dokümanlar

benzer olarak kabul edilir. Böylelikle d ile R’deki her bir dokümanın ikili

olarak kıyaslanmasına gerek kalmaz. İşlem süresi d’nin uzunluğu kadar olur.

Damgalama

Dijital damgalama, dijital içeriğe çeşitli türde verilerin gömülmesi

işlemidir. Genel olarak telif haklarını korumak ve verinin geçerliliğini

sağlamak için çeşitli bilgiler damga olarak gömülebilmektedir. Dijital içerik

bir resim, ses, video veya metin dokümanı olabileceği gibi bunların

kombinasyonları da olabilir (Jaseena ve John, 2011). Damgalamanın temel

amacı, dijital verinin sahibinin belirlenmesidir (Bansode vd., 2013).

Damgalama gürbüz veya zayıf olabilir. Gürbüz damgalamada, damgalanmış

içerikte yapılabilecek herhangi bir değişim damgayı etkilemezken, zayıf

damgalamada damgalanmış içerikte yapılan değişiklik damgayı da etkiler.

Kriptografide güvenlik sadece şifreleme ve şifre çözme ile

sağlanmaktadır. Dolayısıyla şifreleme, şifrelenmiş verinin alıcıya gönderilip

şifresinin çözülmesinden sonra alıcının o içeriği nasıl kullandığını takip

etmeye yardımcı olmaz. Bundan dolayı kriptografide, şifre çözme

işleminden sonra herhangi bir koruma işleminin olduğu söylenemez.

Şifreleme, içeriğin yasal olmayan yollarla kopyalanmasını

engelleyememektedir. Ancak damgalama yönteminde, yukarıda belirtilen

sorun çözülmüştür. Bu sayede içerik korumanın yanı sıra telif hakları

koruması gibi imkânları da sağlayabilmektedir (Jaseena ve John, 2011).

Veri kaçağı tespitinde damgalama, veriye tekil bir kod eklenerek

gerçekleştirilir. Bu işlem orijinal veride bazı değişikliklere neden olur

(Bansode vd., 2013). Şekil 4 (a)’da bir veri tabanı tablosunun damgalanması

işlemi görülmektedir. Öncelikle her kişi için o kişiye özel bir gizli anahtar

üretilir. Bu gizli anahtar kullanılarak kodlayıcı sistem vasıtasıyla veriye

damga gömülür. Verilere eklenen damgalar ve gizli anahtarlar dağıtıcı

tarafında bir listede tutulur. Damgalanmış veri bu şekilde paydaşlara

dağıtılabilir hale gelir. Şekil 4 (b)’de ise damgalanmış bir veriden orijinal

verinin elde edilmesi işlemi gösterilmektedir. Yetkisiz yerlerde tespit edilen

damgalanmış veri, gizli anahtar listesindeki anahtarlarla kod çözücü sisteme


Damgalayıcı

Gizli Anahtar-X

Orijinal Veri Tabanı Tablosu

Damgalanmış Veri Tabanı Tablosu

a)

Damga Çözücü

Gizli Anahtar-X



b)

Şekil 4. a) Veri tabanı tablosunun damgalanması, b) Damgalanmış veri tabanı

tablosundan orijinal verinin elde edilmesi

(http://web.ics.purdue.edu/~liu1010/research.html)


sokulur. Anahtarlardan herhangi birinin şifreli veriyi çözmesi durumunda

orijinal veri elde edilmiş olur. Burada verinin içine gömülen damga, verinin

dağıtıldığı paydaşlara özel olduğu için suçlu ajan tespiti yapılabilir.

Veri kaçağı tespitinin damgalama metodu ile gerçekleştirilmesi

aşağıda bir örnekle gösterilmiştir. Tablo 1’de (Agrawal, Haas ve Kiernan,

2003) damgalanacak veri kümesi gösterilmektedir. Tablo 2’de ise bu veri

kümesinin damgalanmış hali yer almaktadır. Koyu olarak belirtilenler,

verilerin damgalandıktan sonraki değerleridir. Tablo 3’de (Pournaghshband,

2008) ise bir damgalama tekniği olarak sahte nesne eklenmesi gösterilmiştir.

Koyu olarak belirtilen satır damgalamayı temsil eden sahte nesnedir.

Tablo 1. Damgalama işlemi için kullanılacak örnek veri kümesi

Uçuş

No

Kalkış

Yeri

Varış

Yeri

Gün Kalkış

Saati

Süre Uçak

Tipi

TK102 Elazığ Ankara Salı 13:20 01:15 Boeing

TK103 Diyarbakır İstanbul Pazartesi 16:00 01:30 Airbus

TK104 Ankara Şanlıurfa Pazartesi 11:55 01:25 Boeing

TK105 Kayseri İstanbul Pazar 06:30 01:05 Boeing

Tablo 2. Tablo 1’deki veri kümesinin damgalanması

Uçuş

No

Kalkış

Yeri

Varış

Yeri

Gün Kalkış

Saati

Süre Uçak

Tipi





Tablo 3. Tablo 1’deki veri kümesinin bir damgalama tekniği olarak sahte nesnelerin eklenmesi

Uçuş

No

Kalkış

Yeri

Varış

Yeri

Gün Kalkış

Saati

Süre Uçak

Tipi





TK106 Antalya İzmir Pazartesi 16:00 01:20 Boeing


Sahte Nesne Ekleme

Veri kaçağı tespitinde veriye sahte nesne ekleme işlemi hassas

verilere, örneğin maaş gibi bireysel nesnelere rasgele gürültü eklenmesi

şeklinde yapılabilir. Burada belirtilen konu kapmasında dağıtıcının, veri

kümesine sahte nesneleri eklemesi durumu söz konusudur. Bazı

uygulamalarda sahte nesnelerin çeşitli probleme neden olabileceği göz

önüne alınmalıdır. Bu yüzden sahte nesne ekleme metodunun uygulanması

çoğu zaman probleme özgü olabilmektedir.

Giriş

Personel

Belirgin Veri

İsteği

Örnek Veri

İsteği

S-rastgele S-optimal E-rastgele E-optimal

Yönetici

Personele

Verilecek Verinin

Görüntülenmesi

Verinin Personele

Gönderilmesi

Sahte Nesnelerin

Veriye Eklenmesi

Personel

Tarafından

Sızdırılan Verinin

Olasılık Dağılımı

Veriyi Sızdıran

Personellerin

Bulunması

Veri tabanı

Şekil 5. Sahte nesne ekleme tabanlı sızıntı tespit mimarisi (Patil ve Prasanthi, 2013)

Veri dağıtıcısı, suçlu ajanı tespit etme başarısını arttırmak için

dağıttığı veriye sahte nesneler ekleyebilir. Ancak sahte nesneler ajanların


yaptıkları işin doğruluğunu etkileyebildiğinden dolayı bu işlem sürekli

olarak izin verilen bir durum değildir. Pek çok durumda dağıtıcı, kaç tane

sahte nesne ekleyeceğine dair bir kısıtlama getirebilir. Örneğin, nesnelerin

e-posta alanını içermesi durumunda, sahte e-posta verileri eklenmesi için, bu

e-postalara ait gerçek hesapların açılması gerekir ki bu da zahmetli bir iştir.

Bu durumda bir sınırlama söz konusu olabilir. E-posta adresleri dağıtıcı

tarafından izlenerek, eğer bu adreslere herhangi bir e-posta gelmiş ise, bu

verileri sızdıran ajanlar tespit edebilir (Papadimitriou ve Garcia-Molina,

2011).

Şekil 5’de sahte nesne ekleme tabanlı sızıntı tespit mimarisi yer

almaktadır. Burada yönetici, verilerin işlenmesi için güvenilir olarak kabul

ettiği personellere yani ajanlara, verileri ajanların istekleri doğrultusunda

hazırlayarak iletir. Bu veriler yetkisiz yerlerde bulunması halinde hangi

ajanın bu verileri sızdırdığını tespit edebilir.

Veri Kaçağı Tespitinde Sahte Nesne Ekleme Yöntemi

Sahte nesne ekleme yöntemi, orijinal verinin içerisine gerçekte var

olmayan ve sadece verinin gerçek sahibi tarafından bilinen sahte nesnelerin

eklenmesi işlemidir. Veri tahsisi, sahte nesne, optimizasyon, veri dağıtıcı ve

suçlu ajan işlemlerinden oluşur (Papadimitriou ve Garcia-Molina, 2011).

Veri Tahsis İşlemleri

Dağıtıcı, suçlu ajanın tespit ihtimalini arttırmak için veriyi ajanlara

akıllı bir şekilde vermesi gerekir. Bu duruma ilişkin olarak dört adet örnek,

Şekil 7’de gösterilmiştir. Burada ajanların veri isteklerine ve tiplerine bağlı

olarak sahte nesnenin izin verilip verilmediği gösterilmektedir.

Şekil 6’da E (explicit) belirgin isteği, S (sample) örnek isteği, F sahte

nesne kullanımını, F’ sahte nesne kullanılmaması durumlarını temsil

etmektedir. Belirgin veri isteğinde, ajana belirli bir durumu sağlayan veri

kümesi verilmektedir. Örnek veri isteğinde ise ajana tüm verinin belirli bir

alt kümesi verilir. Mesela, bir şirket verilerini analiz etmek üzere 1000 adet

verisini A firmasına verebilir. Bu durum örnek istek olarak adlandırılır. Aynı

şirket B firmasına, tüm verilerden sadece Ankara şehrine ait olanları farklı

bir analiz işlemi için verebilir. Bu durum ise belirgin istek olarak


adlandırılır. Sahte nesneler gerçek veri kümesinde bulunmayan dağıtıcı

tarafından eklenen nesnelerdir. Suçlu ajanın tespit şansını arttıran yapılardır.

Veri İsteği

Sahte Veri

Grupları

Sahte Veri

Grupları

Örnek

EF� EF SF� SF

Hayır Evet Hayır Evet

Şekil 6. Veri tahsisi (Papadimitriou ve Garcia-Molina, 2011)

Sahte Nesne İşlemleri

Veri dağıtıcısı, suçlu ajanın tespit başarısını arttırmak için veriye

sahte nesneler ekleyebilir. Ancak sahte nesneler ajanların yaptıkları işin

doğruluğunu etkileyebildiğinden dolayı bu işleme sürekli olarak izin

verilmez. Örneğin; dağıtılan verinin bir sağlık verisi ve ajanların hastaneler

veya laboratuvarlar olduğu bir durumda, hastalara ait gerçek sağlık verileri

üzerinde bir değişim, istenmeyen bir durum olmaktadır. Ancak sahte

verilerin eklenmesi belki de kabul görülebilecek bir durumu ortaya

çıkarabilir. Böylelikle, bu kayıtlarla herhangi bir hasta eşleşmediğinden

dolayı bu veriler üzerine herhangi bir hastanın da tedavisi olmayacaktır.

Sahte nesnelerin eklenmesi işleminin, mail listesindeki iz kayıtlarının

kullanımından esinlenilerek yapıldığı (Papadimitriou ve Garcia-Molina,

2011) çalışmasında belirtilmiştir. Bu durum şöyle açıklanmaktadır; A

firması bir mail adres listesini bir kez kullanması için B firmasına

satmaktadır. A firması kendisine ait e-posta adreslerini içeren iz kayıtlarını

e-posta listesine ekler. Bu durumda B firması satın aldığı e-posta listesini

her kullandığında A firması da bir kopyasını elde eder. Bu kayıtlar birer

sahte nesne olmakta ve verinin izinsiz kullanımının belirlenmesine yardımcı

olmaktadır.


Optimizasyon İşlemleri

Dağıtıcının, veriyi ajanlara dağıtmasında bir kısıt ve bir amaç vardır.

Kısıt ajanların isteklerini gidermek, amaç ise verisini sızdıran ajanı tespit

edebilmektir. Dağıtıcı, bir ajanın isteğini reddetmemelidir. Dağıtıcının kendi

verisini sızdıran ajanı belirleme şansının maksimize edilmesi

amaçlanmaktadır.

Veri Dağıtıcı İşlemleri

Dağıtıcı, güvenilir olarak kabul ettiği üçüncü şahıslara hassas veriyi

dağıtan yapıdır. Verinin bir kısmının veya tamamının sızdırılması veya

yetkisiz yerlerde ele geçirilmesi durumunda dağıtıcı, verinin bir veya daha

fazla ajandan sızdığını bir olasılık formülüyle belirler.

Suçlu Ajan İşlemleri

Bir Ui ajanının, suçlu olduğu varsayılsın. Ui’nin, bir S kümesini

sızdırdığı durum Gi|S olarak gösterilsin. Bu Gi ajanının S’i sızdırma olasılığı

Pr {Gi|S} olsun. Suç olasılığı, Pr {Gi|S}, hedefin S içerisindeki nesneleri

tahmin etme olasılıkları belirlenerek hesaplanabilir. Örneğin, S’deki

nesnelerin bireylere ait e-posta adresleri olduğu kabul edilsin. Bir kişinin

100 adet e-posta içerisinden 90’ını bulabilmesi durumunda, e-postanın

tahmin edilme olasılığı 0,9 olur. Diğer bir yandan, banka hesapları için yine

100 kişi içerisinden 20’si doğru olarak tahmin edilebiliyorsa bu durumda

olasılık 0,2 olur. Bu tahmin pt olarak adlandırılır ve buna t nesnesinin hedef

tarafından tahmin edilme olasılığı adı verilir. Pr {Gi|S}, aşağıdaki formüle

göre hesaplanır;

1

| 1 (1 )| |

it S R t

iPp

Vr G S

(1)

Hastane Sistemlerinde Sahte Nesne Ekleme Yöntemine Dayalı Veri

Kaçağı Tespit Örneği

Veri dağıtıcısı olarak hastanede çalışan bir sağlık personeli

üzerinden gerçekleştirilen bir örnekleme (Patil ve Bhole, 2013) çalışmasında

yer verilmiştir. Personelin hassas verileri üçüncü şahıs olarak nitelendirilen

araştırma laboratuvarlarına verdiği varsayılmaktadır. Bu verilerin daha sonra


yetkisiz kişilerin eline geçtiği tespit edildiğinde, personelin bu verilerin

hangi laboratuvardan sızdırılmış olabileceği olasılığını belirlemesi

gerekmektedir.

Şekil 7 (a)’da laboratuvarların sağlık personelinden veri talebi ve

laboratuvarlardan herhangi birinin bu hassas verileri sızdırması durumu

görülmektedir. Laboratuvarlar istedikleri veri için personelden talepte

bulunur. Bu durumda sağlık personeli, bu verilere sahte nesneler bir başka

deyişle gerçek olmayan ama gerçekçi veriler ekleyerek laboratuvarlara

gönderir. Laboratuvarlara verilen verilerin yetkisiz kişilerin eline geçmesi

istenmeyen bir durumdur. Ancak laboratuvarlardan herhangi biri, bu durumu

suistimal ederek kendisine gönderilen hassas verileri yetkisiz kişilere

iletebilir veya onlarla paylaşabilir.

Veritabanı

Sağlık Personeli

Laboratuvar 1 Laboratuvar 2

Verinin Dağıtılması

Veri İsteği Veri İsteği

Yetkisiz Kişiler

Yasal Olmayan Bir Şekilde

Verinin Verilmesi

a)


Sağlık Personeli

Laboratuvar 1 Laboratuvar 2

Karşılaştır Karşılaştır

Veri Veri

Yetkisiz kişilerde bulunan veriler

%100%85

Olasılıkların belirlenmesi Olasılıkların belirlenmesi

b)

Şekil 7. a) Hasta verilerinin sızdırılması, b) Suçlu ajanın tespiti (Patil ve Bhole, 2013)

Şekil 7 (b)’de ise laboratuvarlara dağıtılan verilerin yetkisiz

kimselerde veya yerlerde bulunması durumunda suçlu ajanın tespiti için

olasılıkların belirlenmesi gösterilmektedir. Laboratuvarlara gönderilen

verilerin yetkisiz kişilerin eline geçmesi durumunda, o veriyi hangi

laboratuvarın sızdırdığının tespit edilmesi gerekmektedir. Yetkisiz kişilerde

ele geçirilen veriler ile laboratuvarlara verilen veriler kıyaslamaya tabi

tutularak, hangi laboratuvarın bu verileri sızdırmış olabileceği istatistiki

olarak hesaplanır ve bu şekilde suçlu ajan tespiti gerçekleşir.

Önerilen Metot

Literatürde veri kaçağı tespitinde kullanılan yöntemlerden olan RSA

tabanlı yaklaşımda, verinin şifreli halinin yetkisiz kişilerde tespit edilmesi

durumunda, mevcut özel anahtarlarla şifreli veri deşifre edilmeye çalışılarak

hangi özel anahtar şifreli veriyi açıyorsa o anahtarın sahibinin veri sızıntısını

yaptığı tespit edilir. Ancak burada önemli olan durum, suçlu ajanın bu veriyi

deşifre ettikten sonra sızdırmasıdır.

Damgalama tekniğinde ise, mevcut içerikler üretilen gizli anahtarlar

ile damgalama fonksiyonuna sokularak verilere damga bilgisi eklenir. Bu

işlem verinin dağıtılacağı her kişi için, o kişiye özel üretilen gizli bir anahtar


vasıtasıyla damga bilgisi eklenerek yapılır. Hassas verinin yetkisiz yerlerde

bulunması durumunda, veri ve gizli anahtar damga çözme mekanizmasına

verilir. Hangi anahtar veriyi çözüyorsa onun sahibi veriyi sızdırmış olarak

kabul edilir.

Damgalayıcı

PbKN



Özel ve Genel Anahtar Listesi

Şifreleme

Mekanizması

Şifrelenmiş Veri Tabanı Tablosu

Şekil 8. Önerilen metotta veriye damga eklenmesi ve şifrelenmesi


Önerilen metotta damgalama ve RSA teknikleri beraber

kullanılmaktadır. Verinin tablo halinde tutulduğu varsayılarak işlemler

gerçekleştirilir. Öncelikle verinin dağıtılacağı her kişi için RSA tabanlı bir

özel ve genel anahtar üretilerek liste halinde tutulur. Ardından tüm tablo ve

alıcının genel anahtarı, damga bilgisinin oluşturulup veriye gömülmesi için

damgalama fonksiyonuna verilir. Damgalama işlemi gerçekleştirildikten

sonra veri, alıcının genel anahtarıyla şifrelenerek alıcıya iletilir. Hassas veri

yetkisiz kişilerde şifreli olarak veya deşifre edilmiş olarak tespit edilebilir.

Bu durumda veriyi sızdıran ajanı tespit etmek için iki durum irdelenmelidir.

İlk durumda, verinin şifreli olarak elde edilmesi halinde, şifrelenmiş veri

özel anahtar listesindeki anahtarlarla deşifre edilmeye çalışılır. Hangi

anahtar şifreyi çözüyorsa o anahtarın sahibi veriyi sızdırmış olarak kabul

edilir. İkinci durumda ise verinin deşifre edilmiş olarak yetkisiz kişilerde

tespit edilmesidir. Bu durumda, verinin damga bilgisi genel anahtarlar

listesinden seçilen anahtarlarla deşifre edilmeye çalışılır. Hangi genel

anahtar bu verinin damgasını çözüyorsa o anahtarın sahibi veriyi sızdırmış

olarak kabul edilir.

Şekil 8’de tablo halinde tutulan bir veriye damga ekleme işlemi ve

sonrasında şifreleme aşaması görülmektedir. Veri alıcılara iletilmeden önce

alıcı kişi sayısı kadar genel ve özel anahtar üretilir. Sonrasında veri, alıcı

kişinin genel anahtarı ile damgalama işlemine sokulur. Bu işlem

gerçekleştirildikten sonra aynı genel anahtar ile veri şifrelenerek alıcı tarafa

iletilir. Alıcı sadece verinin genel anahtar ile şifrelendiği bilgisine sahiptir.

Veriye damga bilgisi eklendiğinden haberi yoktur.

Şekil 9’da önerilen metotta damgalanmış verinin bulunması

durumunda bu veriyi hangi ajanın sızdırdığının tespiti amacıyla yapılan

işlemler gösterilmektedir. Yetkisiz yerlerde tespit edilen damgalanmış veri

mevcut genel anahtar listesindeki anahtarlarla damga çözücü fonksiyona

verilir. Bu şekilde damga bilgisine ulaşılması durumunda damgayı çözen

anahtarın sahibinin veriyi sızdırdığı tespit edilmiş olur.

Şekil 10’da ise şifrelenmiş verinin bulunması durumunda bu veriyi

sızdıran ajanı tespit etmek amacıyla yapılan işlemler gösterilmiştir. Yetkisiz

yerlerde şifrelenmiş verinin tespit edilmesi durumunda şifreli veri özel

anahtarlar listesindeki anahtarlarla deşifre edilir. Hangi anahtar bu verinin

şifresini çözüyorsa o anahtarın sahibi veriyi sızdırmış olarak kabul edilir.


Kod Çözücü

PbKN


Damgalanmış Veri Tabanı Tablosu Özel ve Genel Anahtar Listesi

Şekil 9. Damgalanmış verinin genel anahtar vasıtasıyla damgasının çözülmesi


Özel ve Genel Anahtar ListesiŞifrelenmiş Veri Tabanı

PrKN

Deşifreleme

Şekil 10. Şifrelenmiş verinin çözülerek damgalanmış verinin elde edilmesi


Önerilen yaklaşımda veri kaçağı tespitinde kullanılan damgalama ve

RSA yöntemleri birleştirilmiştir. Bu şekilde hem veri için güvenlik seviyesi

arttırılmış, hem de veri kaçağı olması durumunda veriyi sızdıran kişinin

tespit edilme olasılığı arttırılmıştır.

Tartışma ve Sonuç

Bu makale çalışmasında, veri kaçağı tespiti hakkında bir literatür

çalışması yapılmış, veri kaçağı tespitinde kullanılan yöntemler araştırılmış

ve yapılan çalışmalar gözden geçirilmiştir. Veri kaçağı tespitinde kullanılan

RSA, damgalama, dosya parmak izi kontrolü ve sahte nesne ekleme yöntemi

hakkında detaylı bilgi verilmiş, hasta verisi için örnek bir veri kaçağı tespit

işlemi açıklanarak, blok diyagram ve şekillerle gösterilmiştir. Mevcut

yöntemlerin eksik yönleri tartışılarak yeni bir yaklaşım önerilmiştir.

Damgalama ve RSA metodunun beraber kullanılması ile hem veri güvenliği

arttırılmış hem de verinin yetkisiz kişilerde bulunması durumunda suçlu

ajanın tespit edilme olasılığı yükseltilmiştir.

Önerilen yöntemde veriye öncelikle damga bilgisi eklenmekte

ardından RSA ile şifrelenerek alıcılara iletilmektedir. Gizli verinin yetkisiz

kişilerde bulunması durumunda iki çözüm yolu izlenmiştir. İlki verinin

deşifre edilmiş halinin bulunmasıdır. Bu durumda damga bilgisini çözecek

anahtar mevcut anahtar listesinde bulunan genel anahtarlardan seçilerek

damga bilgisi çözülmeye çalışılır. Damganın çözülmesi durumunda,

damgayı çözen anahtarın sahibi veriyi sızdıran ajan olarak kabul edilir.

İkincisi ise verinin şifreli halinin bulunmasıdır ki bu durumda da anahtar

listesinden seçilen özel anahtarlardan hangisi verinin şifresini çözerse, o

anahtarın sahibi veriyi sızdırmış olarak kabul edilir. Bu yöntem ile veri

güvenliği arttırılmış, hassas verinin yetkisiz kişilerde tespit edilmesi

durumunda suçlu ajanın tespit edilme olasılığı yükseltilmiştir.

Ülkemizde bu alanda yeterli sayıda çalışma yapılmadığı belirlenmiş

olup, veri kaçağı tespiti konusuna daha fazla önem verilmesi gerektiği

belirlenmiştir. Araştırmacıların bu konu üzerine daha fazla yoğunlaşması

gerekliliği ortaya çıkmıştır. Gelişmiş dünya ülkelerinde önemli bir konu olan

veri kaçağı tespiti, ülkemizde yeterli seviyeye ulaşamamıştır. Gelişmiş

ülkelerin yapmış oldukları yatırımlar ve bilinçlendirme sonucunda veri

kaçaklarının sayısının azaltılmasıyla, bu durumların ülkelere olan maliyeti


düşürülmeye çalışılmıştır. Ülkemizde de buna yönelik çalışmalara,

araştırmalara ve uygulamalara yer verilmesi gerekliliği belirlenmiştir.

Tablo 4. Önerilen yöntemin mevcut diğer yöntemlerle karşılaştırılması

Kri

pto

gra

fik

Alt

Yap

ı

Yo

k

Var

Var

Var

Var

Suçl

u A

jan

Tes

pit

Etm

e

Ora

nı

Ort

a

İyi

İyi

Ort

a

Çok

İy

i

Güven

lik

Düze

yi

Kötü

İyi

Ort

a

Kötü

Çok İ

yi

Ver

inin

Üçü

ncü

Kiş

iler

Tar

afın

dan

Okunab

ilir

liği

Var

Yok

Var

Var

Yok

Ori

jinal

Ver

iye

Yen

i

Ver

i E

kle

me

Var

Yok

Yok

Yok

Yok

Ori

jinal

Ver

ide

Değ

işik

lik

Yap

ma

Yo

k

Yo

k

Var

Yo

k

Var

K

rite

rler

Yö

nte

mle

r

Sah

te N

esn

e

Ek

lem

e

RS

A

Dam

gal

ama

Do

sya

Par

mak

İzi

Ko

ntr

olü

Ön

eril

en

Yak

laşı

m


Tablo 4’de önerilen yaklaşımın literatürdeki diğer yöntemlerle çeşitli

kriterler temel alınarak karşılaştırılması gösterilmektedir. Önerilen

yöntemin, güvenlik düzeyi ve suçlu ajan tespit edebilme oranı açısından

diğer yöntemlere göre yüksek başarı sağladığı değerlendirilmektedir.

Önerilen sistemin gerçekleştirilmesi ve sisteme saldırılar yapılarak

test edilmesi ile sistemde oluşabilecek olası zafiyetler belirlenebilecek,

sistemin iyi ve zayıf yanları detaylı olarak tartışılabilecektir.

Literatürde konu ile ilgili mevcut çalışmalar irdelendiğinde,

doğrudan uygulamaya yönelik bir çalışmaya rastlanmadığından dolayı,

önerilen metodun gerçekleştirilerek doğruluğunun ve geçerliliğinin

sağlanması uygulama bazında sağlanamamıştır. Ancak önerilen metodun

diğer metotlara kıyasla güvenliği arttıracağı ve suçlu ajanın tespiti gibi

durumlarda diğer metotlara göre yüksek başarım sağlayacağı

değerlendirilmektedir. İlerleyen çalışmalarda önerilen sistemin başarısının

uygulama bazında ifade edilmesi için çeşitli araştırma çalışmalarının

yapılması hedeflenmektedir. Böylelikle bu alanda ülkemize katkılar

sağlayacağı değerlendirilmektedir.

Kaynakça

Agrawal, R., Haas, P. J., ve Kiernan, J. (2003). Watermarking relational

data: framework, algorithms and analysis. VLDB Journal, 12, 157-

169.

Anjali, N. B., Geetanjali, P. R., Shivlila, P., Swati, R. S., ve Kadu, N. B.

(2013). Data leakage detection. International Journal of Computer

Science and Mobile Computing, 2(5), 283-288.

Ansari, Z. S., Jagtap, A. M., ve Raut, S. S. (2013). Data leakage detection

and e-mail filtering. International Journal of Innovative Research in

Computer and Communication Engineering, 1(3), 565-567.

Bansode, S. A., Jadhav, U. M., ve Patil, N. K. (2013). Data leakage

detection. Journal of Engineering, Computers & Applied Sciences,

2(4), 30-34.

Barge, P., Dhawale, P., ve Kolashetti, N. (2013). A novel data leakage

detection. International Journal of Modern Engineering Research,

3(1), 538-540.


Chaware, N., Bapat, P., Kad, R., Jadhav, A., ve Sangve, S. M. (2012). Data

leakage detection. International Journal of Scientific Engineering

and Technology, 1(2), 272-273.

Jadhav, R. (2013). Data leakage detection. International Journal of

Computer Science & Communication Networks, 3(1), 37-45.

Jagap, N. P., ve Patil, S. S. (2012). Implementation of guilt model with data

watcher for data leakage detection system. International Journal of

Emerging Technology and Advanced Engineering, 2(3), 318-322.

Jaseena, K., ve John, A. (2011). Text watermarking using combined image

and text for authentication and protection. International Journal of

Computer Applications, 20(4), 8-13.

Kale, S. A., ve Kulkarni, S. V. (2012a). Data leakage detection.

International Journal of Advanced Research in Computer and

Communication Engineering, 1(9), 668-678.

Kale, S. A., ve Kulkarni, S. V. (2012b). Data leakage detection: A survey.

Journal of Computer Engineering, 1(6), 32-35.

Liu, A. Fragile Database Watermarking. 29 Mart 2015 tarihinde

http://web.ics.purdue.edu/~liu1010/research.html adresinden

alınmıştır.

Papadimitriou, P., ve Garcia-Molina, H. (2011). Data leakage detection.

IEEE Transactions on Knowledge and Data Engineering, 23(1), 51-

63.

Patil, S., ve Bhole, H. (2013). Data leakage detection system for diabetes

patients DB. International Journal of Computer Trends and

Technology, 4(5), 893-897.

Patil, S., ve Prasanthi, M. L. (2013). Modern approaches for detecting data

leakage problems. International Journal of Engineering and

Computer Science, 2(2), 395-399.

Pol, R., Thakur, V., ve Bhise, R. (2012). Data leakage detection.

International Journal of Engineering Research and Applications,

2(3), 404-410.

Pournaghshband, V. (2008). A new watermarking approach for relational

data. ACM-SE, 127-131.


Shapira, Y., Shapira, B., ve Shabtai, A. (2013). Content-based data leakage

detection using extendend fingerprinting. 27 Mart 2015 tarihinde

http://arxiv.org/abs/1302.2028 adresinden alınmıştır.

Shu, X., ve Yao, D. (2012). Data leak detection as a service: challenges and

solutions. 28 Mart 2015 tarihinde

https://core.ac.uk/display/10676283 adresinden alınmıştır.

Singh, M., Tripathi, P., ve Singh, R. (2013). Detection of data leakage.

International Journal of Computer & Communication Technology,

4(3), 22-24.

Singh, S. (2013). Data leakage detection using rsa algorithm. International

Journal of Application or Innovation in Engineering & Management,

2(234-238).

Vaidya, A., Lahange, P., More, K., Kachroo, S., ve Pandey, N. (2012). Data

leakage detection. International Journal of Advances in Engineering

& Technology, 3(1), 315-321.

Zhou, X., ve Tang, X. (2011). Research and implementation of rsa algorithm

for encryption and decryption. The 6th International Forum on

Strategic Technology.


Extended Summary

A New Approach on Data Leakage Detection

Introduction

Data leakage is defined as sharing sensitive or private data with

unauthorized third parties. Sensitive data for an institution, company or

organization might be financial, medical, management data and more

specifically patient data, credit card data, plan and budgets, employee

information, customer portfolio, strategical targets, future plans. In many

cases, the data might be shared with partners, stakeholders or customers who

named third parties.

Data can be shared with third parties for processing or analyzing or

obtaining new outcomes and findings. For example; a hospital can give

medical data to researchers for discovering new treatments or analyses. A

company can share customer information with its business partners. An

institution can outsource for processing its private data. For these reasons, it

is required to share sensitive or private data with different partners or

institutions. The data can be leaked to unauthorized places or people

intentionally or unintentionally. Hence the data distributor must be able to

find the guilty agent that leaked the sensitive data. RSA, fingerprinting,

watermarking and fake object addition methods are used for data leakage

detection. In this study, these methods were reviewed and introduced and an

approach that combines watermarking and RSA was proposed.

Data Leakage Detection Methods

RSA, fingerprinting, watermarking and fake object addition methods

are used in data leakage detection. RSA is a cryptologic approach for

detecting the agent that leaked the sensitive or private data. In this method, a

public key is used for encryption of sensitive data. After this process,

encrypted data is transmitted to the receiver agent. Then receiver agent

decrypts the data with its private key. But if the encrypted data is found in an

unauthorized place, detecting which agent leaked the data is based on the

private key that decrypts the encrypted data. The data distributor produces

public and private keys per agent and keeps these keys and agents’


information in a list. If a key from the list decrypts the encrypted data, the

data distributor finds the guilty agent that leaked the sensitive data.

Fingerprinting is a content based method that is used in data leakage

detection. In this method, known private contents’ signatures are created and

kept in a signature list. After that, when a content is transmitted to an

unauthorized place, its signature is compared with the signatures from the

list. If there is any matching, the data distributor would identify the guilty

agent.

Watermarking is a stenographic method in data leakage detection.

Before transmitting the data to an agent, a watermark is embedded to the

private or sensitive data. A unique key is used to create each watermark.

When the data is found in an unauthorized place, the watermark is decoded

by the unique key that disclosures the guilty agent.

Fake object addition method is based on adding small scale fake

objects into original data. Realistic but not real data is appended to the

original data set. The data distributor can determine which agent leaked the

data by using this method. This is a probabilistic method to find the guilty

agent.

Fake Object Addition Method in Data Leakage Detection

Fake object addition method includes five stages. These are data

allocation, fake object, optimization, data distributor and guilty agent stages.

In data allocation stage, data distributor gives the data to the recipients with

a strategy to improve the probability of detecting the guilty agent. Fake

object stage includes adding fake records to the original data set. Adding

fake objects is not always allowed because of affecting the correctness of

what agents do. Optimization stage depends on one constraint and one

objective. The constraint is to satisfy agents’ requests and the objective is to

detect the agent who leaked the data. The distributor stage describes

distribution of the data to agents. Guilty agent stage is a probabilistic stage

that determines which agent leaked the data.


Data Leakage Detection Example Based on Fake Object Addition

Method in Hospital Systems

In this example, a medical staff maintains the patient database. The

data is requested by different research laboratories to discover new

treatments or analysis. The staff gives the data to the research laboratories

based on their requests. After distribution, if the data is found in an

unauthorized place, the staff must be able to determine which laboratory

leaked the data. To achieve this, the staff uses fake object addition method.

Before transmitting the data, the staff adds fake objects into the data and

gives the data to the research laboratories. If the data is found in an

unauthorized place, finding the guilty agent or laboratory that leaked the

sensitive data depends on the guilty agent detection stage. In this stage, a

probability value is calculated and then the physician determines the guilty

agent.

The Proposed Method

The proposed method is a hybrid approach that combines both RSA

and watermarking techniques. In RSA method, the data is encrypted with a

public key then transmitted to the agent. If the encrypted data is found in an

unauthorized place, for detecting which agent leaked the data, firstly it is

tried to decrypt the data with private keys from the key list. If a key that

decrypts the encrypted data, it is accepted that the owner of the key leaked

the data. But at this point, it should be considered that what if the decrypted

form of the data is found in an unauthorized place. Hence, RSA method fails

in this situation. To eliminate this problem, we proposed a new data leakage

detection approach that combines both RSA and watermarking.

In the proposed method, the data distributor produces public and

private keys with the number of agents and, keeps these keys and agents

information in a list. Then before transmitting the data, the distributor

follows mainly two steps. The first one is watermarking step. In this step the

data distributor creates a watermark with the public key of receiver agent

and embeds it to the data. Then the distributor encrypts the data with the

receiver agent’s public key. After this step, the data is ready for distribution.

The receiver agent is not informed about the watermark but the agent knows

that the data is encrypted with his public key. When the data is arrived to the


receiver agent, the agent decrypts it with his private key and uses the data in

his research.

If the sensitive data is found in an unauthorized place, there are two

cases need to be addressed. The first one is obtaining the encrypted form of

the data which is the simplest way to detect the guilty agent. In this

situation, encrypted data is tried to decrypt with private key from the key

list. If a private key decrypts the data, it is accepted that its owner leaked the

data. The second one is obtaining the decrypted form of the data. In that

case, due to the watermark that was embedded to the data, it is tried to

decode the watermark with public keys from the key list. Which of the key

decodes the data, it disclosures it’s owner. Hence the guilty agent is detected

via this method.

Discussion and Conclusion

In this paper, a related work about data leakage detection was

reviewed and the available data leakage detection methods were examined.

A comprehensive review about fake object addition method was given. An

example of data leakage detection on medical data was also shown with

block diagrams and figures. In order to avoid the disadvantages of the

available methods, a new approach that combines both RSA and

watermarking was proposed. It was concluded that the proposed method

increased data privacy, security and detecting the guilty agent probability.