Savunma Bilimleri Dergisi
The Journal of Defense Sciences
Mayıs/May 2016, Cilt/Volume 15, Sayı/Issue 1, 149-177.
ISSN (Basılı) : 1303-6831 ISSN (Online): 2148-1776
Veri Kaçağı Tespitinde Yeni Bir Yaklaşım
Yavuz CANBAY1 Şeref SAĞIROĞLU
2
Öz
Hassas verilerin veya bilgilerin yetkisiz kişilerin erişiminden korunması her
kuruluş tarafından büyük bir çaba gerektirmektedir. Veriler veya veri
tabanları pek çok kişilerle veya kurumlarla paylaşılabilmekte, ancak bu
paylaşım sırasında verinin yetkisiz kişilere sızdırılması gibi olumsuz bir
durumla karşılaşılabilmektedir. Bu problemin aşılması amacıyla veri kaçağı
tespit sistemi çözümleri önerilmektedir. Veri kaçağı tespiti, paydaşlara
dağıtılan verilerin yetkisiz kişilerde bulunması halinde, bu verileri sızdıran
paydaşın belirlenmesi işlemidir. Sızdırılabilecek veriler, kaynak kodlar,
tasarım ayrıntıları, fiyat listesi, telif hakları verisi, ticari sırlar, finansal
veriler, hasta verileri, kredi kart verileri ve gelecek planları olabilir. Veriler
e-posta, anlık mesajlaşma, internet siteleri, çeşitli donanımlar ve dosya
transferi gibi yollarla veri sahibinin bilgisi olmadan sızdırılabilmektedir. Bu
makalede, veri kaçağı tespitinde kullanılan mevcut yöntemler araştırılmış,
literatürdeki çalışmalar gözden geçirilmiş, veri kaçağı tespitinde sahte
nesne ekleme işlemleri üzerinde durulmuş, elde edilen bulgular tartışılmış
ve değerlendirilmiştir. Tüm bu sonuçlar dikkate alınarak yeni bir veri
kaçağı tespit yaklaşımı önerilmiştir.
Anahtar Kelimeler: Veri Kaçağı, Veri Kaçağı Tespiti, Araştırma, İnceleme.
1
Yazışma adresi: Arş.Gör., Gazi Üniversitesi Mühendislik Fakültesi Bilgisayar
Mühendisliği Bölümü, Ankara, [email protected].
2 Prof.Dr., Gazi Üniversitesi Mühendislik Fakültesi Bilgisayar Mühendisliği
Bölümü, Ankara, [email protected].
Makalenin geliş tarihi: 30.06.2015 Kabul tarihi: 19.02.2016
150 | Canbay ve Sağıroğlu
A New Approach on Data Leakage Detection
Abstract
Protecting sensitive information or data from unauthorized access requires
more effort paid by every institution. Data or databases can be shared with
a lot of people or institutions. But during data sharing, it can be
encountered with a negative situation like leaking the data to unauthorized
third parties. Data leakage detection system solutions are suggested for
overcoming this problem. Data leakage detection is detecting the
stakeholder that leaks the data in the case of the private data is found in an
unauthorized place. Source codes, design details, price lists, copyright data,
commercial secrets, financial data, patient data, credit card data and future
plans are data that might be leaked. Data can be leaked via e-mail, instant
messaging, web sites, various external devices and file transfer methods.
In this paper, data leakage detection methods that available on literature
were examined, studies were reviewed, fake object addition processes in
data leakage detection were emphasized, and obtained findings were
discussed and evaluated. Taking into consideration the findings and results,
a new data leakage detection approach was proposed.
Keywords: Data Leakage, Data Leakage Detection, Research, Review.
Giriş
Veri kaçağı, kazara veya istemli olarak özel veya hassas verilerin
yetkisiz kişilerin eline geçmesi olarak tanımlanır. Şirket, kurum veya
organizasyonlar için hassas veriler; finansal veriler, hasta verileri, kredi kartı
verileri, plan ve bütçeler, personel bilgileri, müşteri portföyü, stratejik
hedefler, gelecek planları olarak sıralanabilir. Pek çok durumda bu veriler
üçüncü şahıslar yani ajanlar olarak adlandırılan iş ortaklarına, danışmanlara,
paydaşlara ve müşterilere verilebilir. Böylesi bir durum, gizli veya hassas
verinin yetkisiz kişilerin eline geçmesi riskini de ortaya çıkarmaktadır.
Gerek kötücül yazılımlar, davranışlar, tutumlar veya düşüncelerle
gerekse istenmeyen bir durum ile içeriden veya dışarıdan hassas verilerin
saldırıya maruz kalmaları, bir kurumu veya organizasyonu ciddi bir şekilde
zarara uğratabilmektedir. Veri kaçağının potansiyel zararları veya olumsuz
etkileri doğrudan ve dolaylı kayıp olarak gruplandırılabilir. Doğrudan kayıp
Savunma Bilimleri Dergisi, Mayıs 2016, 15 (1), 149-177. | 151
ölçülmesi kolay yani maddi hasarlardır. Buna örnek olarak, olası satış
kayıpları, araştırma maliyetleri, tazminat cezaları verilebilir. Dolaylı kayıp
ise ölçülmesi zor olan durumlardır. Olumsuz etkiden kaynaklı hisse senedi
kayıpları, şirket itibarının düşmesi, müşterilerin şirket veya kurumla
ilişkilerini kesmeleri, çeşitli özel bilgilerin rakiplerin eline geçmesi gibi
durumlar buna örnek olarak verilebilir (Kale ve Kulkarni, 2012b).
Kurum için önemli veriler dışarıya sızdırıldığında bir başka ifadeyle
yetkisiz kişilerin eline geçmesi halinde, böylesi bir durum kurumu
savunmasız bırakmaktadır. Veriler artık kurumun yetkisi dışında
kullanılabileceği için büyük zararlar ortaya çıkabilmekte ve aynı zamanda
büyük bir risk faktörü de oluşturmaktadır. Veri kaçağı, verdiği zararlardan
ve maliyetlerden dolayı şirketler için önemli bir sorun haline gelmiştir
(Ansari, Jagtap ve Raut, 2013).
Veriler, gerek işlenmesi gerekse de yeni bulgular elde edilmesi
amacıyla üçüncü şahıslarla paylaşılabilir. Örneğin bir hastane, hasta
verilerini çeşitli analiz veya araştırmalar yapılması amacıyla araştırmacılara
verebilir. Benzer bir şekilde bir firma, kendisiyle iş ortaklığı yapan başka bir
firmayla müşteri bilgilerini paylaşabilir. Bir kurum, verilerinin işlenmesini
hizmet alım yolu ile gerçekleştirebilir. Bu durumlarda verinin farklı kişi
veya kuruluşlara verilmesi gerekmektedir. Bunun sonucu olarak verinin
yetkisiz kişilerin eline geçmesi ihtimali ortaya çıkmaktadır. Böylesi bir
senaryoda verinin sahibi dağıtıcı, verinin paylaşıldığı üçüncü şahıs ajan,
veriyi sızdıran ajan ise suçlu ajan veya hedef olarak adlandırılır.
Veri kaçağı tespitinde kullanılan metotlar genel olarak damgalama
(Bansode, Jadhav ve Patil, 2013; Barge, Dhawale ve Kolashetti, 2013),
dosya parmak izi kontrolü (Shapira, Shapira ve Shabtai 2013; Shu ve Yao,
2012), RSA algoritması (Singh, 2013), sahte nesne eklenmesi (Jadhav,
2013; Papadimitriou ve Garcia-Molina, 2011) şeklindedir. Damgalama
metodunda, dağıtılan her bir veri kopyasına tekil bir kod eklenir. Eğer bu
kopya dağıtım sonrasında yetkisiz kişilerde ele geçirilirse, veriyi sızdıran
kişi tespit edilebilir. Dosya parmak izi kontrolünde ise bilinen gizli
içeriklerin imzası çıkarılır ve giden veri içeriği ile karşılaştırılır. RSA tabanlı
veri kaçağı tespit sistemlerinde, dağıtılan her veri kümesi için gizli anahtar
üretilerek bu şekilde suçlu ajan tespit edilebilir. Sahte nesne eklenme
metodunda ise veri kümesine sahte nesneler yani veriler eklenerek veriyi
sızdıran ajanın bulunması sağlanabilir.
152 | Canbay ve Sağıroğlu
Bu makale yedi başlık altında ele alınmıştır. Bir sonraki bölümde
konu ile ilgili literatür taraması yer almaktadır. İlerleyen bölümlerde veri
kaçağı tespitinde kullanılan yöntemler tanıtılmış ve bu yöntemlerden veri
kaçağı tespitinde sahte nesne ekleme işlemleri detaylandırılmıştır. Takibinde
hastane sistemlerinde yapılabilecek veri kaçağı tespiti için tanımlayıcı bir
örnek gösterilmiş ve ardından önerilen yaklaşım açıklanmıştır. Makalenin
son kısmında ise tartışma ve sonuç bölümleri yer almaktadır.
Literatür Taraması
Damgalama ve veri kaçağı tespit modelleri Kale ve Kulkarni (2012a)
ve Barge ve ark. (2013)’nın çalışmalarında açıklanmıştır. Hassas verinin
ajanlar tarafından sızdırılmasının tespiti ve veriyi sızdıran ajanın
belirlenmesi işlemleri hedeflenmiştir. Veri kaçağını tespit etmek için veriler
üzerinde gerçekleştirilen işlemlerin, üçüncü şahıslar tarafından
anlaşılmasının zor olduğu çeşitli teknikler geliştirilmiştir. Verinin ajanlara
dağıtım stratejisi algoritmaları üzerinde durularak, dağıtılan verilere sahte
nesneler eklenmesinin suçlu ajanların tespitinde kullanılabileceği
belirtilmiştir.
Veri kaçağı tespitinde RSA algoritması Singh (2013)’in çalışmasında
kullanılmış ve şifrelenmiş nesneler aracılığıyla ajanın veriyi sızdırmasını
kontrol eden bir yaklaşım sunulmuştur. Bu sayede, şifreleme işlemi ile
verinin yetkisiz kimselerce okunabilirliğinin de önüne geçilmiştir.
İlgisiz bölümlerin göz ardı edilerek gizli içeriğin parmak izi
kontrolünün yapılması ile suçlu ajanın tespit edilmesine yönelik işlemler
Shapira ve ark. (2013)’nın çalışmasında vurgulanmıştır. Önerilen parmak izi
kontrolü metodunun, veri içeriğinin tekrar ifade edilmesi yani değiştirilmesi
saldırısına karşı daha fazla gürbüz olduğu ve önceden karşılaşılmayan gizli
dokümanların tespitinde kullanılabileceği, böylelikle sızıntı tespitine karşı
daha iyi bir başarım sağlayacağı belirtilmiştir. İçerik tabanlı veri kaçağı
tespit yöntemi açıklanmış, parmak izi kontrolü türleri detaylı olarak
anlatılmış ve üç farklı senaryo için başarı analizi yapılmıştır.
Veri kaçağı tespiti ile ilgili yapılan başka çalışmalarda ise (Anjali,
Geetanjali, Shivlila, Swati ve Kadu, 2013; Ansari vd., 2013; Bansode vd.,
2013; Chaware, Bapat, Kad, Jadhav ve Sangve, 2012; Jadhav, 2013; Kale
ve Kulkarni, 2012b; Papadimitriou ve Garcia-Molina, 2011; Patil ve Bhole,
Savunma Bilimleri Dergisi, Mayıs 2016, 15 (1), 149-177. | 153
2013; Patil ve Prasanthi, 2013; Pol, Thakur ve Bhise, 2012), veri
sızıntılarının tespit ihtimalinin arttırılması amacıyla veri dağıtım stratejileri
üzerinde durulmuş, veriyi sızdıran ajanın tespiti için verilere sahte nesne
ekleme yöntemi tanıtılmıştır. Verinin sızdırılmasının ve sızdıran ajanın
tespiti için veri kaçağı tespit sistemlerinin modülleri belirtilerek, veri
dağıtım stratejileri açıklanmıştır.
Veri kaçağını sağlayan ajanların tespitini sağlayan bir metodoloji ve
veri kaçağı tespiti hakkında detaylı bilgiler, Singh, Tripathi ve Singh
(2013)’in çalışmasında ele alınmıştır. Veri kaçağı tespiti hakkında
literatürdeki mevcut sistemlerden bahsedilmiş, veri dağıtım stratejileri için
bir algoritma geliştirilmiş ve bu sayede veriyi sızdıran ajanın tespit edilme
olasılığı arttırılmıştır.
Ağ tabanlı veri kaçağı tespiti için bulanık parmak izi kontrolü
metodu Shu ve Yao (2012)’nun çalışmasında önerilmiştir. Bu metodun,
kazara veya program tabanlı veri kaçağı tespitinde kullanılabileceği
belirtilmiştir. Önerilen bu teknik, gizlilik, etkinlik, doğruluk ve gürültü
toleransı açısından değerlendirilmiştir.
Veri sızıntısı tespitinde üçüncü şahıslar tarafından kolaylıkla tespit
edilemeyen teknikler Vaidya, Lahange, More, Kachroo ve Pandey (2012)’in
çalışmasında sunulmuş, suçlu ajanı belirlemek için bir model geliştirilmiş ve
veri dağıtım stratejileri önerilmiştir.
Başka bir çalışmada (Jagap ve Patil, 2012), suçlu ajanın belirlenmesi
ve bir ajanın kendi erişim yetkisi dışında olan verilere ulaşma durumunun
izlenmesi için bir izleme programı sunulmuştur.
Veri Kaçağı Tespitinde Kullanılan Yöntemler
Veri kaçağı tespitinde kullanılan pek çok yöntem literatür bölümünde
sunulmuştur. Bu yöntemlerden olan RSA, dosya parmak izi kontrolü,
damgalama, sahte nesne ekleme yöntemleri (Bansode vd., 2013; Jaseena ve
John, 2011; Papadimitriou ve Garcia-Molina, 2011; Shapira vd., 2013; Zhou
ve Tang, 2011) aşağıdaki bölümlerde kısaca açıklanmıştır.
154 | Canbay ve Sağıroğlu
RSA Algoritması
Genel anahtar şifrelemenin en önemli özelliği, şifreleme ve şifre
çözme işlemlerinin genel anahtar ve özel anahtar adı verilen iki farklı yapı
kullanılarak yapılmasıdır. Özel anahtar genel anahtardan elde
edilememektedir. Bu da şifreleme anahtarının herhangi bir gizlilik riski
olmadan dağıtılabileceği anlamına gelir.
Genel anahtarlı şifreleme algoritmalarında en çok kullanılan yöntem
RSA’dır. RSA algoritması (Zhou ve Tang, 2011), hem veri şifrelemede hem
de dijital imzada kullanılan ilk algoritmadır. RSA algoritmasının güvenliği,
büyük asal sayıların ayrışımının veya çözümlenmesinin zorluğuna
dayanmaktadır. Bu algoritmada, genel ve özel anahtarları üretmek için iki
adet asal sayı kullanılır. Düz metnin anahtar ve şifreli metinden elde
edilmesi, bu iki büyük asal sayının ayrışımına bağlıdır. RSA’da genel
anahtar herkese açık iken özel anahtar sadece sahibi tarafından
bilinmektedir.
RSA’nın veri kaçağı tespitinde kullanılmasındaki amaç, sızıntıyı
sağlayan ajanın tespit edilmesidir. Veri dağıtılmadan önce her alıcı için tekil
birer özel ve genel anahtar üretilir. Veri, alıcıların genel anahtarları ile
şifrelenerek alıcılara iletilir. Alıcılar da kendilerine ait olan özel anahtarlarla
veriyi deşifre ederek kendi amaçları doğrultusunda kullanırlar. Şifrelenmiş
verinin yetkisiz kişilerde bulunması durumunda ise şifreli veri, tutulan özel
anahtar listesindeki anahtarlarla çözülmeye çalışılır. Hangi anahtar bu şifreli
veriyi çözüyorsa o anahtarın sahibi veriyi sızdırmış olarak kabul edilir. Bu
şekilde veriyi sızdıran ajan tespit edilmiş olur. Verinin şifrelenmesiyle,
yetkisiz kimselerin veriyi ele geçirseler dahi anlamaları engellenmiş olur
(Singh, 2013).
Şekil 1’de verinin şifreleme aşaması gösterilmektedir. Bu aşamada
hassas veri, paydaşlar için üretilen genel anahtarlar ile şifrelenip paydaşlara
dağıtılırken aynı zamanda her paydaş için ayrı ayrı birer özel anahtar üretilir.
Genel ve özel anahtarlar veri dağıtıcısı tarafında bir listede tutulur. Veri bu
şekilde şifrelenerek paydaşlara dağıtılır.
Savunma Bilimleri Dergisi, Mayıs 2016, 15 (1), 149-177. | 155
Her bir kişi için
özel ve genel
anahtar üretme
PrK1, PbK1
PrK2, PbK2
PrK3, PbK3
.
.
PrKN, PbKN
Kişi 3
Dağıtıcı Tarafında Tutulan Özel
ve Genel Anahtar Listesi
Kişi 1
Kişi 2
Kişi N
Şifreleme
Genel
anahtarlarla
verinin
şifrelenmesi ve
kullanıcılara
dağıtılması
Veri1
Veri2
Veri3
.
.
VeriN
Kişi 3
Şifrelenmiş Veri
Kişi 1
Kişi 2
Kişi N
Gizli Veri
.
.
.
.
.
.
.
.
Şekil 1. RSA kullanılarak gizli verinin şifrelenmesi
Veri-X
PrK1
PrK2
PrK3
.
.
PrKN
Dağıtıcı Tarafında Tutulan Özel
Anahtar Listesi
Yetkisiz Kişilerde Tespit Edilen
Şifrelenmiş Veri
Suçlu Ajanın
Bulunması
Gizli Veri
Kişi 1Kişi 2
Kişi 3
Kişi N
Suçlu Ajan Tespiti
Gizli Veri
Deşifreleme
.
.
.
.
Şekil 2. RSA’da deşifreleme yaparak suçlu ajanın tespit edilmesi
Şekil 2’de verinin deşifre edilme aşaması yani suçlu ajanın tespit
edilmesi gösterilmektedir. Bu aşamada, yetkisiz kişilerde bulunan ve
156 | Canbay ve Sağıroğlu
herhangi bir yolla elde edildiği kabul edilen şifrelenmiş gizli veri, dağıtıcı
tarafında tutulan özel anahtar listesindeki anahtarlarla çözülmeye yani
deşifre edilmeye çalışılır. Listedeki hangi özel anahtar gizli veriyi çözüyorsa,
bu özel anahtarın sahibi o veriyi sızdırmış olarak kabul edilir. Bu şekilde
suçlu ajan tespiti gerçekleştirilir.
Dosya Parmak İzi Kontrolü
Dosya parmak izi kontrolü, veri kaçağı tespitinde kullanılan içerik
tabanlı bir metottur. Bu metotta, bilinen gizli içeriklerin imzaları oluşturulur
ve giden içerik ile karşılaştırılır. Mevcut parmak izi kontrol sistemlerinde iki
temel kısıtlama vardır. Bunlardan ilki gizli verilerin içeriklerinde ufak
değişiklikler yapma olarak adlandırılan tekrardan ifade etme, ikincisi ise tüm
doküman içeriğinin parmak izi kontrolüne tabi tutulmasıdır. Yapılan bir
çalışmada (Shapira vd., 2013) önerilen metotta, “k-skip-n-grams” metodu
kullanılarak gizli verinin tespit edilmesi odaklı bir metot geliştirilmiştir. Bu
sayede ilgisiz verilerin ayıklanması sağlanmıştır.
Şekil 3. Dosya parmak izi kontrolü ile benzer dokümanların bulunması (Shapira vd., 2013)
Şekil 3’de parmak izi kontrol metodu gösterilmektedir. Bu metoda
göre bir dokümanın parmak izi onun özet (hash) değeri kümesidir. Bir d
dokümanın R referans kümesindeki bir doküman ile benzerliğini kontrol
etmek için indeksleme ve tespit safhası gereklidir. İndeksleme safhası,
R’deki parmak izi alınmış her bir doküman için uygulanır. Parmak izleri
özel bir veri tabanında kaydedilir. Tespit safhası süresince, incelenen d
Savunma Bilimleri Dergisi, Mayıs 2016, 15 (1), 149-177. | 157
dokümanın bir parmak izi çıkarılır ve veri tabanındakilerle kıyaslanır.
d dokümanın parmak izinin her bir özet kodunu içeren dokümanlar listesi
veri tabanından çekilir. d ile belirli sayıda özet kodunu paylaşan dokümanlar
benzer olarak kabul edilir. Böylelikle d ile R’deki her bir dokümanın ikili
olarak kıyaslanmasına gerek kalmaz. İşlem süresi d’nin uzunluğu kadar olur.
Damgalama
Dijital damgalama, dijital içeriğe çeşitli türde verilerin gömülmesi
işlemidir. Genel olarak telif haklarını korumak ve verinin geçerliliğini
sağlamak için çeşitli bilgiler damga olarak gömülebilmektedir. Dijital içerik
bir resim, ses, video veya metin dokümanı olabileceği gibi bunların
kombinasyonları da olabilir (Jaseena ve John, 2011). Damgalamanın temel
amacı, dijital verinin sahibinin belirlenmesidir (Bansode vd., 2013).
Damgalama gürbüz veya zayıf olabilir. Gürbüz damgalamada, damgalanmış
içerikte yapılabilecek herhangi bir değişim damgayı etkilemezken, zayıf
damgalamada damgalanmış içerikte yapılan değişiklik damgayı da etkiler.
Kriptografide güvenlik sadece şifreleme ve şifre çözme ile
sağlanmaktadır. Dolayısıyla şifreleme, şifrelenmiş verinin alıcıya gönderilip
şifresinin çözülmesinden sonra alıcının o içeriği nasıl kullandığını takip
etmeye yardımcı olmaz. Bundan dolayı kriptografide, şifre çözme
işleminden sonra herhangi bir koruma işleminin olduğu söylenemez.
Şifreleme, içeriğin yasal olmayan yollarla kopyalanmasını
engelleyememektedir. Ancak damgalama yönteminde, yukarıda belirtilen
sorun çözülmüştür. Bu sayede içerik korumanın yanı sıra telif hakları
koruması gibi imkânları da sağlayabilmektedir (Jaseena ve John, 2011).
Veri kaçağı tespitinde damgalama, veriye tekil bir kod eklenerek
gerçekleştirilir. Bu işlem orijinal veride bazı değişikliklere neden olur
(Bansode vd., 2013). Şekil 4 (a)’da bir veri tabanı tablosunun damgalanması
işlemi görülmektedir. Öncelikle her kişi için o kişiye özel bir gizli anahtar
üretilir. Bu gizli anahtar kullanılarak kodlayıcı sistem vasıtasıyla veriye
damga gömülür. Verilere eklenen damgalar ve gizli anahtarlar dağıtıcı
tarafında bir listede tutulur. Damgalanmış veri bu şekilde paydaşlara
dağıtılabilir hale gelir. Şekil 4 (b)’de ise damgalanmış bir veriden orijinal
verinin elde edilmesi işlemi gösterilmektedir. Yetkisiz yerlerde tespit edilen
damgalanmış veri, gizli anahtar listesindeki anahtarlarla kod çözücü sisteme
158 | Canbay ve Sağıroğlu
Damgalayıcı
Gizli Anahtar-X
Orijinal Veri Tabanı Tablosu
Damgalanmış Veri Tabanı Tablosu
a)
Damga Çözücü
Gizli Anahtar-X
Orijinal Veri Tabanı Tablosu
Damgalanmış Veri Tabanı Tablosu
b)
Şekil 4. a) Veri tabanı tablosunun damgalanması, b) Damgalanmış veri tabanı
tablosundan orijinal verinin elde edilmesi
(http://web.ics.purdue.edu/~liu1010/research.html)
Savunma Bilimleri Dergisi, Mayıs 2016, 15 (1), 149-177. | 159
sokulur. Anahtarlardan herhangi birinin şifreli veriyi çözmesi durumunda
orijinal veri elde edilmiş olur. Burada verinin içine gömülen damga, verinin
dağıtıldığı paydaşlara özel olduğu için suçlu ajan tespiti yapılabilir.
Veri kaçağı tespitinin damgalama metodu ile gerçekleştirilmesi
aşağıda bir örnekle gösterilmiştir. Tablo 1’de (Agrawal, Haas ve Kiernan,
2003) damgalanacak veri kümesi gösterilmektedir. Tablo 2’de ise bu veri
kümesinin damgalanmış hali yer almaktadır. Koyu olarak belirtilenler,
verilerin damgalandıktan sonraki değerleridir. Tablo 3’de (Pournaghshband,
2008) ise bir damgalama tekniği olarak sahte nesne eklenmesi gösterilmiştir.
Koyu olarak belirtilen satır damgalamayı temsil eden sahte nesnedir.
Tablo 1. Damgalama işlemi için kullanılacak örnek veri kümesi
Uçuş
No
Kalkış
Yeri
Varış
Yeri
Gün Kalkış
Saati
Süre Uçak
Tipi
TK102 Elazığ Ankara Salı 13:20 01:15 Boeing
TK103 Diyarbakır İstanbul Pazartesi 16:00 01:30 Airbus
TK104 Ankara Şanlıurfa Pazartesi 11:55 01:25 Boeing
TK105 Kayseri İstanbul Pazar 06:30 01:05 Boeing
Tablo 2. Tablo 1’deki veri kümesinin damgalanması
Uçuş
No
Kalkış
Yeri
Varış
Yeri
Gün Kalkış
Saati
Süre Uçak
Tipi
TK102 Elazığ Ankara Salı 13:20 01:00 Boeing
TK103 Diyarbakır İstanbul Pazartesi 16:10 01:30 Airbus
TK104 Ankara Şanlıurfa Pazartesi 11:55 01:25 Boeing
TK105 Kayseri İstanbul Pazar 06:30 01:05 Boeing
Tablo 3. Tablo 1’deki veri kümesinin bir damgalama tekniği olarak sahte nesnelerin eklenmesi
Uçuş
No
Kalkış
Yeri
Varış
Yeri
Gün Kalkış
Saati
Süre Uçak
Tipi
TK102 Elazığ Ankara Salı 13:20 01:15 Boeing
TK103 Diyarbakır İstanbul Pazartesi 16:00 01:30 Airbus
TK104 Ankara Şanlıurfa Pazartesi 11:55 01:25 Boeing
TK105 Kayseri İstanbul Pazar 06:30 01:05 Boeing
TK106 Antalya İzmir Pazartesi 16:00 01:20 Boeing
160 | Canbay ve Sağıroğlu
Sahte Nesne Ekleme
Veri kaçağı tespitinde veriye sahte nesne ekleme işlemi hassas
verilere, örneğin maaş gibi bireysel nesnelere rasgele gürültü eklenmesi
şeklinde yapılabilir. Burada belirtilen konu kapmasında dağıtıcının, veri
kümesine sahte nesneleri eklemesi durumu söz konusudur. Bazı
uygulamalarda sahte nesnelerin çeşitli probleme neden olabileceği göz
önüne alınmalıdır. Bu yüzden sahte nesne ekleme metodunun uygulanması
çoğu zaman probleme özgü olabilmektedir.
Giriş
Personel
Belirgin Veri
İsteği
Örnek Veri
İsteği
S-rastgele S-optimal E-rastgele E-optimal
Yönetici
Personele
Verilecek Verinin
Görüntülenmesi
Verinin Personele
Gönderilmesi
Sahte Nesnelerin
Veriye Eklenmesi
Personel
Tarafından
Sızdırılan Verinin
Olasılık Dağılımı
Veriyi Sızdıran
Personellerin
Bulunması
Veri tabanı
Şekil 5. Sahte nesne ekleme tabanlı sızıntı tespit mimarisi (Patil ve Prasanthi, 2013)
Veri dağıtıcısı, suçlu ajanı tespit etme başarısını arttırmak için
dağıttığı veriye sahte nesneler ekleyebilir. Ancak sahte nesneler ajanların
Savunma Bilimleri Dergisi, Mayıs 2016, 15 (1), 149-177. | 161
yaptıkları işin doğruluğunu etkileyebildiğinden dolayı bu işlem sürekli
olarak izin verilen bir durum değildir. Pek çok durumda dağıtıcı, kaç tane
sahte nesne ekleyeceğine dair bir kısıtlama getirebilir. Örneğin, nesnelerin
e-posta alanını içermesi durumunda, sahte e-posta verileri eklenmesi için, bu
e-postalara ait gerçek hesapların açılması gerekir ki bu da zahmetli bir iştir.
Bu durumda bir sınırlama söz konusu olabilir. E-posta adresleri dağıtıcı
tarafından izlenerek, eğer bu adreslere herhangi bir e-posta gelmiş ise, bu
verileri sızdıran ajanlar tespit edebilir (Papadimitriou ve Garcia-Molina,
2011).
Şekil 5’de sahte nesne ekleme tabanlı sızıntı tespit mimarisi yer
almaktadır. Burada yönetici, verilerin işlenmesi için güvenilir olarak kabul
ettiği personellere yani ajanlara, verileri ajanların istekleri doğrultusunda
hazırlayarak iletir. Bu veriler yetkisiz yerlerde bulunması halinde hangi
ajanın bu verileri sızdırdığını tespit edebilir.
Veri Kaçağı Tespitinde Sahte Nesne Ekleme Yöntemi
Sahte nesne ekleme yöntemi, orijinal verinin içerisine gerçekte var
olmayan ve sadece verinin gerçek sahibi tarafından bilinen sahte nesnelerin
eklenmesi işlemidir. Veri tahsisi, sahte nesne, optimizasyon, veri dağıtıcı ve
suçlu ajan işlemlerinden oluşur (Papadimitriou ve Garcia-Molina, 2011).
Veri Tahsis İşlemleri
Dağıtıcı, suçlu ajanın tespit ihtimalini arttırmak için veriyi ajanlara
akıllı bir şekilde vermesi gerekir. Bu duruma ilişkin olarak dört adet örnek,
Şekil 7’de gösterilmiştir. Burada ajanların veri isteklerine ve tiplerine bağlı
olarak sahte nesnenin izin verilip verilmediği gösterilmektedir.
Şekil 6’da E (explicit) belirgin isteği, S (sample) örnek isteği, F sahte
nesne kullanımını, F’ sahte nesne kullanılmaması durumlarını temsil
etmektedir. Belirgin veri isteğinde, ajana belirli bir durumu sağlayan veri
kümesi verilmektedir. Örnek veri isteğinde ise ajana tüm verinin belirli bir
alt kümesi verilir. Mesela, bir şirket verilerini analiz etmek üzere 1000 adet
verisini A firmasına verebilir. Bu durum örnek istek olarak adlandırılır. Aynı
şirket B firmasına, tüm verilerden sadece Ankara şehrine ait olanları farklı
bir analiz işlemi için verebilir. Bu durum ise belirgin istek olarak
162 | Canbay ve Sağıroğlu
adlandırılır. Sahte nesneler gerçek veri kümesinde bulunmayan dağıtıcı
tarafından eklenen nesnelerdir. Suçlu ajanın tespit şansını arttıran yapılardır.
Veri İsteği
Sahte Veri
Grupları
Sahte Veri
Grupları
Örnek
EF� EF SF� SF
Hayır Evet Hayır Evet
Şekil 6. Veri tahsisi (Papadimitriou ve Garcia-Molina, 2011)
Sahte Nesne İşlemleri
Veri dağıtıcısı, suçlu ajanın tespit başarısını arttırmak için veriye
sahte nesneler ekleyebilir. Ancak sahte nesneler ajanların yaptıkları işin
doğruluğunu etkileyebildiğinden dolayı bu işleme sürekli olarak izin
verilmez. Örneğin; dağıtılan verinin bir sağlık verisi ve ajanların hastaneler
veya laboratuvarlar olduğu bir durumda, hastalara ait gerçek sağlık verileri
üzerinde bir değişim, istenmeyen bir durum olmaktadır. Ancak sahte
verilerin eklenmesi belki de kabul görülebilecek bir durumu ortaya
çıkarabilir. Böylelikle, bu kayıtlarla herhangi bir hasta eşleşmediğinden
dolayı bu veriler üzerine herhangi bir hastanın da tedavisi olmayacaktır.
Sahte nesnelerin eklenmesi işleminin, mail listesindeki iz kayıtlarının
kullanımından esinlenilerek yapıldığı (Papadimitriou ve Garcia-Molina,
2011) çalışmasında belirtilmiştir. Bu durum şöyle açıklanmaktadır; A
firması bir mail adres listesini bir kez kullanması için B firmasına
satmaktadır. A firması kendisine ait e-posta adreslerini içeren iz kayıtlarını
e-posta listesine ekler. Bu durumda B firması satın aldığı e-posta listesini
her kullandığında A firması da bir kopyasını elde eder. Bu kayıtlar birer
sahte nesne olmakta ve verinin izinsiz kullanımının belirlenmesine yardımcı
olmaktadır.
Savunma Bilimleri Dergisi, Mayıs 2016, 15 (1), 149-177. | 163
Optimizasyon İşlemleri
Dağıtıcının, veriyi ajanlara dağıtmasında bir kısıt ve bir amaç vardır.
Kısıt ajanların isteklerini gidermek, amaç ise verisini sızdıran ajanı tespit
edebilmektir. Dağıtıcı, bir ajanın isteğini reddetmemelidir. Dağıtıcının kendi
verisini sızdıran ajanı belirleme şansının maksimize edilmesi
amaçlanmaktadır.
Veri Dağıtıcı İşlemleri
Dağıtıcı, güvenilir olarak kabul ettiği üçüncü şahıslara hassas veriyi
dağıtan yapıdır. Verinin bir kısmının veya tamamının sızdırılması veya
yetkisiz yerlerde ele geçirilmesi durumunda dağıtıcı, verinin bir veya daha
fazla ajandan sızdığını bir olasılık formülüyle belirler.
Suçlu Ajan İşlemleri
Bir Ui ajanının, suçlu olduğu varsayılsın. Ui’nin, bir S kümesini
sızdırdığı durum Gi|S olarak gösterilsin. Bu Gi ajanının S’i sızdırma olasılığı
Pr {Gi|S} olsun. Suç olasılığı, Pr {Gi|S}, hedefin S içerisindeki nesneleri
tahmin etme olasılıkları belirlenerek hesaplanabilir. Örneğin, S’deki
nesnelerin bireylere ait e-posta adresleri olduğu kabul edilsin. Bir kişinin
100 adet e-posta içerisinden 90’ını bulabilmesi durumunda, e-postanın
tahmin edilme olasılığı 0,9 olur. Diğer bir yandan, banka hesapları için yine
100 kişi içerisinden 20’si doğru olarak tahmin edilebiliyorsa bu durumda
olasılık 0,2 olur. Bu tahmin pt olarak adlandırılır ve buna t nesnesinin hedef
tarafından tahmin edilme olasılığı adı verilir. Pr {Gi|S}, aşağıdaki formüle
göre hesaplanır;
1
| 1 (1 )| |
it S R t
iPp
Vr G S
(1)
Hastane Sistemlerinde Sahte Nesne Ekleme Yöntemine Dayalı Veri
Kaçağı Tespit Örneği
Veri dağıtıcısı olarak hastanede çalışan bir sağlık personeli
üzerinden gerçekleştirilen bir örnekleme (Patil ve Bhole, 2013) çalışmasında
yer verilmiştir. Personelin hassas verileri üçüncü şahıs olarak nitelendirilen
araştırma laboratuvarlarına verdiği varsayılmaktadır. Bu verilerin daha sonra
164 | Canbay ve Sağıroğlu
yetkisiz kişilerin eline geçtiği tespit edildiğinde, personelin bu verilerin
hangi laboratuvardan sızdırılmış olabileceği olasılığını belirlemesi
gerekmektedir.
Şekil 7 (a)’da laboratuvarların sağlık personelinden veri talebi ve
laboratuvarlardan herhangi birinin bu hassas verileri sızdırması durumu
görülmektedir. Laboratuvarlar istedikleri veri için personelden talepte
bulunur. Bu durumda sağlık personeli, bu verilere sahte nesneler bir başka
deyişle gerçek olmayan ama gerçekçi veriler ekleyerek laboratuvarlara
gönderir. Laboratuvarlara verilen verilerin yetkisiz kişilerin eline geçmesi
istenmeyen bir durumdur. Ancak laboratuvarlardan herhangi biri, bu durumu
suistimal ederek kendisine gönderilen hassas verileri yetkisiz kişilere
iletebilir veya onlarla paylaşabilir.
Veritabanı
Sağlık Personeli
Laboratuvar 1 Laboratuvar 2
Verinin Dağıtılması
Veri İsteği Veri İsteği
Yetkisiz Kişiler
Yasal Olmayan Bir Şekilde
Verinin Verilmesi
a)
Savunma Bilimleri Dergisi, Mayıs 2016, 15 (1), 149-177. | 165
Sağlık Personeli
Laboratuvar 1 Laboratuvar 2
Karşılaştır Karşılaştır
Veri Veri
Yetkisiz kişilerde bulunan veriler
%100%85
Olasılıkların belirlenmesi Olasılıkların belirlenmesi
b)
Şekil 7. a) Hasta verilerinin sızdırılması, b) Suçlu ajanın tespiti (Patil ve Bhole, 2013)
Şekil 7 (b)’de ise laboratuvarlara dağıtılan verilerin yetkisiz
kimselerde veya yerlerde bulunması durumunda suçlu ajanın tespiti için
olasılıkların belirlenmesi gösterilmektedir. Laboratuvarlara gönderilen
verilerin yetkisiz kişilerin eline geçmesi durumunda, o veriyi hangi
laboratuvarın sızdırdığının tespit edilmesi gerekmektedir. Yetkisiz kişilerde
ele geçirilen veriler ile laboratuvarlara verilen veriler kıyaslamaya tabi
tutularak, hangi laboratuvarın bu verileri sızdırmış olabileceği istatistiki
olarak hesaplanır ve bu şekilde suçlu ajan tespiti gerçekleşir.
Önerilen Metot
Literatürde veri kaçağı tespitinde kullanılan yöntemlerden olan RSA
tabanlı yaklaşımda, verinin şifreli halinin yetkisiz kişilerde tespit edilmesi
durumunda, mevcut özel anahtarlarla şifreli veri deşifre edilmeye çalışılarak
hangi özel anahtar şifreli veriyi açıyorsa o anahtarın sahibinin veri sızıntısını
yaptığı tespit edilir. Ancak burada önemli olan durum, suçlu ajanın bu veriyi
deşifre ettikten sonra sızdırmasıdır.
Damgalama tekniğinde ise, mevcut içerikler üretilen gizli anahtarlar
ile damgalama fonksiyonuna sokularak verilere damga bilgisi eklenir. Bu
işlem verinin dağıtılacağı her kişi için, o kişiye özel üretilen gizli bir anahtar
166 | Canbay ve Sağıroğlu
vasıtasıyla damga bilgisi eklenerek yapılır. Hassas verinin yetkisiz yerlerde
bulunması durumunda, veri ve gizli anahtar damga çözme mekanizmasına
verilir. Hangi anahtar veriyi çözüyorsa onun sahibi veriyi sızdırmış olarak
kabul edilir.
Damgalayıcı
PbKN
Orijinal Veri Tabanı Tablosu
Damgalanmış Veri Tabanı Tablosu
Özel ve Genel Anahtar Listesi
Şifreleme
Mekanizması
Şifrelenmiş Veri Tabanı Tablosu
Şekil 8. Önerilen metotta veriye damga eklenmesi ve şifrelenmesi
Savunma Bilimleri Dergisi, Mayıs 2016, 15 (1), 149-177. | 167
Önerilen metotta damgalama ve RSA teknikleri beraber
kullanılmaktadır. Verinin tablo halinde tutulduğu varsayılarak işlemler
gerçekleştirilir. Öncelikle verinin dağıtılacağı her kişi için RSA tabanlı bir
özel ve genel anahtar üretilerek liste halinde tutulur. Ardından tüm tablo ve
alıcının genel anahtarı, damga bilgisinin oluşturulup veriye gömülmesi için
damgalama fonksiyonuna verilir. Damgalama işlemi gerçekleştirildikten
sonra veri, alıcının genel anahtarıyla şifrelenerek alıcıya iletilir. Hassas veri
yetkisiz kişilerde şifreli olarak veya deşifre edilmiş olarak tespit edilebilir.
Bu durumda veriyi sızdıran ajanı tespit etmek için iki durum irdelenmelidir.
İlk durumda, verinin şifreli olarak elde edilmesi halinde, şifrelenmiş veri
özel anahtar listesindeki anahtarlarla deşifre edilmeye çalışılır. Hangi
anahtar şifreyi çözüyorsa o anahtarın sahibi veriyi sızdırmış olarak kabul
edilir. İkinci durumda ise verinin deşifre edilmiş olarak yetkisiz kişilerde
tespit edilmesidir. Bu durumda, verinin damga bilgisi genel anahtarlar
listesinden seçilen anahtarlarla deşifre edilmeye çalışılır. Hangi genel
anahtar bu verinin damgasını çözüyorsa o anahtarın sahibi veriyi sızdırmış
olarak kabul edilir.
Şekil 8’de tablo halinde tutulan bir veriye damga ekleme işlemi ve
sonrasında şifreleme aşaması görülmektedir. Veri alıcılara iletilmeden önce
alıcı kişi sayısı kadar genel ve özel anahtar üretilir. Sonrasında veri, alıcı
kişinin genel anahtarı ile damgalama işlemine sokulur. Bu işlem
gerçekleştirildikten sonra aynı genel anahtar ile veri şifrelenerek alıcı tarafa
iletilir. Alıcı sadece verinin genel anahtar ile şifrelendiği bilgisine sahiptir.
Veriye damga bilgisi eklendiğinden haberi yoktur.
Şekil 9’da önerilen metotta damgalanmış verinin bulunması
durumunda bu veriyi hangi ajanın sızdırdığının tespiti amacıyla yapılan
işlemler gösterilmektedir. Yetkisiz yerlerde tespit edilen damgalanmış veri
mevcut genel anahtar listesindeki anahtarlarla damga çözücü fonksiyona
verilir. Bu şekilde damga bilgisine ulaşılması durumunda damgayı çözen
anahtarın sahibinin veriyi sızdırdığı tespit edilmiş olur.
Şekil 10’da ise şifrelenmiş verinin bulunması durumunda bu veriyi
sızdıran ajanı tespit etmek amacıyla yapılan işlemler gösterilmiştir. Yetkisiz
yerlerde şifrelenmiş verinin tespit edilmesi durumunda şifreli veri özel
anahtarlar listesindeki anahtarlarla deşifre edilir. Hangi anahtar bu verinin
şifresini çözüyorsa o anahtarın sahibi veriyi sızdırmış olarak kabul edilir.
168 | Canbay ve Sağıroğlu
Kod Çözücü
PbKN
Orijinal Veri Tabanı Tablosu
Damgalanmış Veri Tabanı Tablosu Özel ve Genel Anahtar Listesi
Şekil 9. Damgalanmış verinin genel anahtar vasıtasıyla damgasının çözülmesi
Damgalanmış Veri Tabanı Tablosu
Özel ve Genel Anahtar ListesiŞifrelenmiş Veri Tabanı
PrKN
Deşifreleme
Şekil 10. Şifrelenmiş verinin çözülerek damgalanmış verinin elde edilmesi
Savunma Bilimleri Dergisi, Mayıs 2016, 15 (1), 149-177. | 169
Önerilen yaklaşımda veri kaçağı tespitinde kullanılan damgalama ve
RSA yöntemleri birleştirilmiştir. Bu şekilde hem veri için güvenlik seviyesi
arttırılmış, hem de veri kaçağı olması durumunda veriyi sızdıran kişinin
tespit edilme olasılığı arttırılmıştır.
Tartışma ve Sonuç
Bu makale çalışmasında, veri kaçağı tespiti hakkında bir literatür
çalışması yapılmış, veri kaçağı tespitinde kullanılan yöntemler araştırılmış
ve yapılan çalışmalar gözden geçirilmiştir. Veri kaçağı tespitinde kullanılan
RSA, damgalama, dosya parmak izi kontrolü ve sahte nesne ekleme yöntemi
hakkında detaylı bilgi verilmiş, hasta verisi için örnek bir veri kaçağı tespit
işlemi açıklanarak, blok diyagram ve şekillerle gösterilmiştir. Mevcut
yöntemlerin eksik yönleri tartışılarak yeni bir yaklaşım önerilmiştir.
Damgalama ve RSA metodunun beraber kullanılması ile hem veri güvenliği
arttırılmış hem de verinin yetkisiz kişilerde bulunması durumunda suçlu
ajanın tespit edilme olasılığı yükseltilmiştir.
Önerilen yöntemde veriye öncelikle damga bilgisi eklenmekte
ardından RSA ile şifrelenerek alıcılara iletilmektedir. Gizli verinin yetkisiz
kişilerde bulunması durumunda iki çözüm yolu izlenmiştir. İlki verinin
deşifre edilmiş halinin bulunmasıdır. Bu durumda damga bilgisini çözecek
anahtar mevcut anahtar listesinde bulunan genel anahtarlardan seçilerek
damga bilgisi çözülmeye çalışılır. Damganın çözülmesi durumunda,
damgayı çözen anahtarın sahibi veriyi sızdıran ajan olarak kabul edilir.
İkincisi ise verinin şifreli halinin bulunmasıdır ki bu durumda da anahtar
listesinden seçilen özel anahtarlardan hangisi verinin şifresini çözerse, o
anahtarın sahibi veriyi sızdırmış olarak kabul edilir. Bu yöntem ile veri
güvenliği arttırılmış, hassas verinin yetkisiz kişilerde tespit edilmesi
durumunda suçlu ajanın tespit edilme olasılığı yükseltilmiştir.
Ülkemizde bu alanda yeterli sayıda çalışma yapılmadığı belirlenmiş
olup, veri kaçağı tespiti konusuna daha fazla önem verilmesi gerektiği
belirlenmiştir. Araştırmacıların bu konu üzerine daha fazla yoğunlaşması
gerekliliği ortaya çıkmıştır. Gelişmiş dünya ülkelerinde önemli bir konu olan
veri kaçağı tespiti, ülkemizde yeterli seviyeye ulaşamamıştır. Gelişmiş
ülkelerin yapmış oldukları yatırımlar ve bilinçlendirme sonucunda veri
kaçaklarının sayısının azaltılmasıyla, bu durumların ülkelere olan maliyeti
170 | Canbay ve Sağıroğlu
düşürülmeye çalışılmıştır. Ülkemizde de buna yönelik çalışmalara,
araştırmalara ve uygulamalara yer verilmesi gerekliliği belirlenmiştir.
Tablo 4. Önerilen yöntemin mevcut diğer yöntemlerle karşılaştırılması
Kri
pto
gra
fik
Alt
Yap
ı
Yo
k
Var
Var
Var
Var
Suçl
u A
jan
Tes
pit
Etm
e
Ora
nı
Ort
a
İyi
İyi
Ort
a
Çok
İy
i
Güven
lik
Düze
yi
Kötü
İyi
Ort
a
Kötü
Çok İ
yi
Ver
inin
Üçü
ncü
Kiş
iler
Tar
afın
dan
Okunab
ilir
liği
Var
Yok
Var
Var
Yok
Ori
jinal
Ver
iye
Yen
i
Ver
i E
kle
me
Var
Yok
Yok
Yok
Yok
Ori
jinal
Ver
ide
Değ
işik
lik
Yap
ma
Yo
k
Yo
k
Var
Yo
k
Var
K
rite
rler
Yö
nte
mle
r
Sah
te N
esn
e
Ek
lem
e
RS
A
Dam
gal
ama
Do
sya
Par
mak
İzi
Ko
ntr
olü
Ön
eril
en
Yak
laşı
m
Savunma Bilimleri Dergisi, Mayıs 2016, 15 (1), 149-177. | 171
Tablo 4’de önerilen yaklaşımın literatürdeki diğer yöntemlerle çeşitli
kriterler temel alınarak karşılaştırılması gösterilmektedir. Önerilen
yöntemin, güvenlik düzeyi ve suçlu ajan tespit edebilme oranı açısından
diğer yöntemlere göre yüksek başarı sağladığı değerlendirilmektedir.
Önerilen sistemin gerçekleştirilmesi ve sisteme saldırılar yapılarak
test edilmesi ile sistemde oluşabilecek olası zafiyetler belirlenebilecek,
sistemin iyi ve zayıf yanları detaylı olarak tartışılabilecektir.
Literatürde konu ile ilgili mevcut çalışmalar irdelendiğinde,
doğrudan uygulamaya yönelik bir çalışmaya rastlanmadığından dolayı,
önerilen metodun gerçekleştirilerek doğruluğunun ve geçerliliğinin
sağlanması uygulama bazında sağlanamamıştır. Ancak önerilen metodun
diğer metotlara kıyasla güvenliği arttıracağı ve suçlu ajanın tespiti gibi
durumlarda diğer metotlara göre yüksek başarım sağlayacağı
değerlendirilmektedir. İlerleyen çalışmalarda önerilen sistemin başarısının
uygulama bazında ifade edilmesi için çeşitli araştırma çalışmalarının
yapılması hedeflenmektedir. Böylelikle bu alanda ülkemize katkılar
sağlayacağı değerlendirilmektedir.
Kaynakça
Agrawal, R., Haas, P. J., ve Kiernan, J. (2003). Watermarking relational
data: framework, algorithms and analysis. VLDB Journal, 12, 157-
169.
Anjali, N. B., Geetanjali, P. R., Shivlila, P., Swati, R. S., ve Kadu, N. B.
(2013). Data leakage detection. International Journal of Computer
Science and Mobile Computing, 2(5), 283-288.
Ansari, Z. S., Jagtap, A. M., ve Raut, S. S. (2013). Data leakage detection
and e-mail filtering. International Journal of Innovative Research in
Computer and Communication Engineering, 1(3), 565-567.
Bansode, S. A., Jadhav, U. M., ve Patil, N. K. (2013). Data leakage
detection. Journal of Engineering, Computers & Applied Sciences,
2(4), 30-34.
Barge, P., Dhawale, P., ve Kolashetti, N. (2013). A novel data leakage
detection. International Journal of Modern Engineering Research,
3(1), 538-540.
172 | Canbay ve Sağıroğlu
Chaware, N., Bapat, P., Kad, R., Jadhav, A., ve Sangve, S. M. (2012). Data
leakage detection. International Journal of Scientific Engineering
and Technology, 1(2), 272-273.
Jadhav, R. (2013). Data leakage detection. International Journal of
Computer Science & Communication Networks, 3(1), 37-45.
Jagap, N. P., ve Patil, S. S. (2012). Implementation of guilt model with data
watcher for data leakage detection system. International Journal of
Emerging Technology and Advanced Engineering, 2(3), 318-322.
Jaseena, K., ve John, A. (2011). Text watermarking using combined image
and text for authentication and protection. International Journal of
Computer Applications, 20(4), 8-13.
Kale, S. A., ve Kulkarni, S. V. (2012a). Data leakage detection.
International Journal of Advanced Research in Computer and
Communication Engineering, 1(9), 668-678.
Kale, S. A., ve Kulkarni, S. V. (2012b). Data leakage detection: A survey.
Journal of Computer Engineering, 1(6), 32-35.
Liu, A. Fragile Database Watermarking. 29 Mart 2015 tarihinde
http://web.ics.purdue.edu/~liu1010/research.html adresinden
alınmıştır.
Papadimitriou, P., ve Garcia-Molina, H. (2011). Data leakage detection.
IEEE Transactions on Knowledge and Data Engineering, 23(1), 51-
63.
Patil, S., ve Bhole, H. (2013). Data leakage detection system for diabetes
patients DB. International Journal of Computer Trends and
Technology, 4(5), 893-897.
Patil, S., ve Prasanthi, M. L. (2013). Modern approaches for detecting data
leakage problems. International Journal of Engineering and
Computer Science, 2(2), 395-399.
Pol, R., Thakur, V., ve Bhise, R. (2012). Data leakage detection.
International Journal of Engineering Research and Applications,
2(3), 404-410.
Pournaghshband, V. (2008). A new watermarking approach for relational
data. ACM-SE, 127-131.
Savunma Bilimleri Dergisi, Mayıs 2016, 15 (1), 149-177. | 173
Shapira, Y., Shapira, B., ve Shabtai, A. (2013). Content-based data leakage
detection using extendend fingerprinting. 27 Mart 2015 tarihinde
http://arxiv.org/abs/1302.2028 adresinden alınmıştır.
Shu, X., ve Yao, D. (2012). Data leak detection as a service: challenges and
solutions. 28 Mart 2015 tarihinde
https://core.ac.uk/display/10676283 adresinden alınmıştır.
Singh, M., Tripathi, P., ve Singh, R. (2013). Detection of data leakage.
International Journal of Computer & Communication Technology,
4(3), 22-24.
Singh, S. (2013). Data leakage detection using rsa algorithm. International
Journal of Application or Innovation in Engineering & Management,
2(234-238).
Vaidya, A., Lahange, P., More, K., Kachroo, S., ve Pandey, N. (2012). Data
leakage detection. International Journal of Advances in Engineering
& Technology, 3(1), 315-321.
Zhou, X., ve Tang, X. (2011). Research and implementation of rsa algorithm
for encryption and decryption. The 6th International Forum on
Strategic Technology.
174 | Canbay ve Sağıroğlu
Extended Summary
A New Approach on Data Leakage Detection
Introduction
Data leakage is defined as sharing sensitive or private data with
unauthorized third parties. Sensitive data for an institution, company or
organization might be financial, medical, management data and more
specifically patient data, credit card data, plan and budgets, employee
information, customer portfolio, strategical targets, future plans. In many
cases, the data might be shared with partners, stakeholders or customers who
named third parties.
Data can be shared with third parties for processing or analyzing or
obtaining new outcomes and findings. For example; a hospital can give
medical data to researchers for discovering new treatments or analyses. A
company can share customer information with its business partners. An
institution can outsource for processing its private data. For these reasons, it
is required to share sensitive or private data with different partners or
institutions. The data can be leaked to unauthorized places or people
intentionally or unintentionally. Hence the data distributor must be able to
find the guilty agent that leaked the sensitive data. RSA, fingerprinting,
watermarking and fake object addition methods are used for data leakage
detection. In this study, these methods were reviewed and introduced and an
approach that combines watermarking and RSA was proposed.
Data Leakage Detection Methods
RSA, fingerprinting, watermarking and fake object addition methods
are used in data leakage detection. RSA is a cryptologic approach for
detecting the agent that leaked the sensitive or private data. In this method, a
public key is used for encryption of sensitive data. After this process,
encrypted data is transmitted to the receiver agent. Then receiver agent
decrypts the data with its private key. But if the encrypted data is found in an
unauthorized place, detecting which agent leaked the data is based on the
private key that decrypts the encrypted data. The data distributor produces
public and private keys per agent and keeps these keys and agents’
Savunma Bilimleri Dergisi, Mayıs 2016, 15 (1), 149-177. | 175
information in a list. If a key from the list decrypts the encrypted data, the
data distributor finds the guilty agent that leaked the sensitive data.
Fingerprinting is a content based method that is used in data leakage
detection. In this method, known private contents’ signatures are created and
kept in a signature list. After that, when a content is transmitted to an
unauthorized place, its signature is compared with the signatures from the
list. If there is any matching, the data distributor would identify the guilty
agent.
Watermarking is a stenographic method in data leakage detection.
Before transmitting the data to an agent, a watermark is embedded to the
private or sensitive data. A unique key is used to create each watermark.
When the data is found in an unauthorized place, the watermark is decoded
by the unique key that disclosures the guilty agent.
Fake object addition method is based on adding small scale fake
objects into original data. Realistic but not real data is appended to the
original data set. The data distributor can determine which agent leaked the
data by using this method. This is a probabilistic method to find the guilty
agent.
Fake Object Addition Method in Data Leakage Detection
Fake object addition method includes five stages. These are data
allocation, fake object, optimization, data distributor and guilty agent stages.
In data allocation stage, data distributor gives the data to the recipients with
a strategy to improve the probability of detecting the guilty agent. Fake
object stage includes adding fake records to the original data set. Adding
fake objects is not always allowed because of affecting the correctness of
what agents do. Optimization stage depends on one constraint and one
objective. The constraint is to satisfy agents’ requests and the objective is to
detect the agent who leaked the data. The distributor stage describes
distribution of the data to agents. Guilty agent stage is a probabilistic stage
that determines which agent leaked the data.
176 | Canbay ve Sağıroğlu
Data Leakage Detection Example Based on Fake Object Addition
Method in Hospital Systems
In this example, a medical staff maintains the patient database. The
data is requested by different research laboratories to discover new
treatments or analysis. The staff gives the data to the research laboratories
based on their requests. After distribution, if the data is found in an
unauthorized place, the staff must be able to determine which laboratory
leaked the data. To achieve this, the staff uses fake object addition method.
Before transmitting the data, the staff adds fake objects into the data and
gives the data to the research laboratories. If the data is found in an
unauthorized place, finding the guilty agent or laboratory that leaked the
sensitive data depends on the guilty agent detection stage. In this stage, a
probability value is calculated and then the physician determines the guilty
agent.
The Proposed Method
The proposed method is a hybrid approach that combines both RSA
and watermarking techniques. In RSA method, the data is encrypted with a
public key then transmitted to the agent. If the encrypted data is found in an
unauthorized place, for detecting which agent leaked the data, firstly it is
tried to decrypt the data with private keys from the key list. If a key that
decrypts the encrypted data, it is accepted that the owner of the key leaked
the data. But at this point, it should be considered that what if the decrypted
form of the data is found in an unauthorized place. Hence, RSA method fails
in this situation. To eliminate this problem, we proposed a new data leakage
detection approach that combines both RSA and watermarking.
In the proposed method, the data distributor produces public and
private keys with the number of agents and, keeps these keys and agents
information in a list. Then before transmitting the data, the distributor
follows mainly two steps. The first one is watermarking step. In this step the
data distributor creates a watermark with the public key of receiver agent
and embeds it to the data. Then the distributor encrypts the data with the
receiver agent’s public key. After this step, the data is ready for distribution.
The receiver agent is not informed about the watermark but the agent knows
that the data is encrypted with his public key. When the data is arrived to the
Savunma Bilimleri Dergisi, Mayıs 2016, 15 (1), 149-177. | 177
receiver agent, the agent decrypts it with his private key and uses the data in
his research.
If the sensitive data is found in an unauthorized place, there are two
cases need to be addressed. The first one is obtaining the encrypted form of
the data which is the simplest way to detect the guilty agent. In this
situation, encrypted data is tried to decrypt with private key from the key
list. If a private key decrypts the data, it is accepted that its owner leaked the
data. The second one is obtaining the decrypted form of the data. In that
case, due to the watermark that was embedded to the data, it is tried to
decode the watermark with public keys from the key list. Which of the key
decodes the data, it disclosures it’s owner. Hence the guilty agent is detected
via this method.
Discussion and Conclusion
In this paper, a related work about data leakage detection was
reviewed and the available data leakage detection methods were examined.
A comprehensive review about fake object addition method was given. An
example of data leakage detection on medical data was also shown with
block diagrams and figures. In order to avoid the disadvantages of the
available methods, a new approach that combines both RSA and
watermarking was proposed. It was concluded that the proposed method
increased data privacy, security and detecting the guilty agent probability.