Büyük miktardaki veriler içerisinden önemli olanlarını bulup çıkarmaya Veri Madenciliği denir. Veriler üzerinde çözümlemeler yapmak amacıyla

ve veriyi çözümleyip bilgiye ulaşabilmek için veri madenciliği yöntemi ortaya çıkmıştır. Veri madenciliği bir sorgulama işlemi veya istatistik programlarıyla yapılmış bir çalışma değildir. Veri madenciliği milyarlarca veri ve çok fazla değişken ile ilgilenir.

Teknolojik gelişmeler dünyada gerçekleşen birçok işlemin elektronik olarak kayıt altına alınmasını, bu kayıtların kolayca saklanabilmesini ve gerektiğinde erişilebilmesini hem kolaylaştırıyor, hem de bu işlemlerin her geçen gün daha ucuza mal edilmesini sağlıyor.  Ancak, ilişkisel veri tabanlarında saklanan birçok veriden kararlar için anlamlı çıkarımlar yapabilmek bu verilerin bilinçli uzmanlarca analiz edilmesini gerektiriyor. Veri sayısı çok olduğu için bazı özel analiz algoritmaları geliştirilmiştir. 

 Veri madenciliği uygulamalarında alt yapı gereksinimi veri ambarı sayesinde sağlanır. 

Veri ambarı: Verilerin boyutlarından dolayı klasik veritabanı yöntemiyle işlenmesinin olanaksız olduğu durumlar için geliştirilmiştir. 

1991 yılında ilk kez William H. Inmon tarafından ortaya atılan veri ambarı, yönetimin kararlarını desteklemek amacı ile çeşitli kaynaklardan elde ettikleri bilgileri zaman değişkeni kullanarak veri toplama olarak tanımlanmaktadır. Kısaca birçok veritabanından alınarak birleştirilen verilerin toplandığı depolardır. Veri ambarlarının özelliği kullanıcılara farklı detay düzeyleri sağlayabilmesidir. Detayın en alt düzeyi arşivlenen kayıtların kendisi ile ilgili iken, daha üst düzeyler zaman gibi daha fazla bilginin toplanması ile ilgilidir. Veri ambarları ciddi yatırımlar gerektirmekte ve uygulanması bir yıl veya daha uzun zaman almaktadır.( Murray J. Mackinnon ve Ned Glick, ‘Data Mining and Knowledge Discovery in Databases- An Overview’, J.Statists., Vol.41, No.3, (1999), s.260.)  

Veri ambarları, verilerin üzerine yazmaya ve verilerde değişiklik yapmak için değil sadece okumaya yönelik olarak oluşturulmaktadır. Bu nedenle veri ambarında veriler, analiz yapmayı kolaylaştıran bir formatta tutulmaktadır. Burada analiz; sorgular, raporlar, karar destek sistemleri veya istatistiki hesapları kapsamaktadır.  

Birbiriyle bütünleşik olmayan uygulamaların bütünleştirilmesine olanak sağlar. 

Veri Ambarları, sağlık sektöründen bilişim sistemlerine, işletmelerin pazarlama bölümünden üretime, geleceğe dönük tahminler yapmada, sonuçlar çıkarmada ve işletmelerin yönetim stratejilerini belirlemede kullanılmakta olan bir sistemdir. Pahalı bir yatırım maliyeti olsa bile sonuç olarak getirisi (yararı) bu maliyeti kat kat aşmaktadır. İs organizasyonlarında bilgi akış mimarisinde veri ambarları iki amaçla oluşturulmaktadır: 

* Hareketsel ve organizasyonel görevler arasındaki depo ve analitik stratejik verilerin birikimini sağlar. Bu veriler daha sonra yeniden kullanılmak üzere arşivlenir. Veri ambarları verilerin sorgulanabildiği ve analiz yapılabilen bir depodur.  Veri Ambarlarının pazarda yeni fırsatlar bulmaya, rekabete katkı, yoğun proje çevirimi, iş, envanter, ürün maliyetlerinin azalmasının yanında farklı işlere ait verilerin ilişkilendirilmesi, karar destek ve alınan bilgiye hızlı cevap verebilme gibi birçok katkısı vardır. 

 Karar verme sürecinde yöneticilere destek vermek amacıyla hazırlanmış; konuya yönelik bütünleşik, zaman boyutu olan ve sadece okunabilen veri topluluğudur. Bir işletmenin sahip olduğu verinin, eskileri de dahil olmak üzere, karar destek amacıyla kullanılmasına olanak sağlar. 

Veri ambarının temel özellikleri: 

*  İşlemsel çevrede yer alan veri bir süzme işlemi sonucunda veri ambarı çevresine aktarılır.  

*Zaman yelpazesi her iki sistemde farklılık gösterir. İşlemsel ortamdaki veri çok taze, veri ambarındaki eskidir.  

* Veri ambarı özet bilgileri içerebilir. İşlemsel veri ise içermez.  

* Bütünleştirmeyi sağlamak için verinin önemli bir kısmı belirli bir dönüşümden sonra veri ambarına aktarılır.   

Veri ambarının içerdiği veriler:  

1. Meta Data: 

Doğrudan işlemsel çevreden gelen veriyi içermez.

Karar Destek Sistemleri analizlerine yardım etmek üzere yaratılan bir dizindir.

İşlemsel çevreden veri ambarına dönüştürülen verilerin konumları hakkında bilgi verir.

İşlemsel çevreden alınan verinin hangi algoritmaya göre düşük yada yüksek seviyede özetlendiği hakkında bilgi verir.  

2. Ayrıntı Veri: Bu veri en son olayları içermektedir ve henüz işlenmetidiği için diğerlerine oranla daha büyük hacimlidir.  

3. Eski ayrıntı Veri: Ayrıntı verinin dışında kalan verilerdir. Daha eski tarihe aitlerdir.  

4. Düşük Düzeyde(seviyede) Özetlenmiş Veri:Ayrıntı veriden süzülerek elde edilen düşük seviyede özetlenmiş veridir.  

5. Yüksek Seviyede Özetlenmiş Veri: Ayrıntı veri daha yüksek düzeyde özetlenerek, kolayca erişilebilir hale getirebilir.  

Veri ambarının kullanım amaçları: 

* Müşterilerin gizli kalmış satın alma eğilimlerini tespit etmek

* Satış analizi ve trendler üzerine odaklanmak, 

* Finansal analiz(Maliyetlerin azaltılması dolayısıyla rekabet avantajının sağlanması)

* Stratejik Analiz (Bir Karar Destek Sistemi olmasından dolayı)

* İşler arasında ilişkilerin belirlenebilmesi  

* Müşteri ihtiyaçlarına çabuk cevap verebilme  

Veriyi yönetmek için “veri ambarı”, verileri çözümleyip bilgiye ulaşılabilmesi için “veri madenciliği” yöntemleri ortaya çıkmıştır.  

 

 

Veri madenciliği, özel ve kamu sektörü kuruluşlarında birçok şekilde kullanılabilmektedir. Bunlardan bazıları aşağıdaki gibi sıralanabilir: 

** Bir süpermarket müşterilerinin satın alma eğilimlerini irdeleyerek, promosyonlarını belli müşterilere yönlendirmesi, aynı kaynakla daha çok satış gerçekleştirmesine yardımcı olabilir.  

Büyük bir süpermarketin en basit fatura kayıtları incelendiğinde, tıraş bıçağı alan müşterilerin %56’sının kalem pilde aldığı ortaya çıkmıştır, buna dayanarak firma , tıraş bıçağı ve kalem pil reyonlarını bir araya getirmek suretiyle kalem pil satışlarını %14 arttırmıştır. Ürünler ve satışları arasındaki bu ilişkilerin belirlenmesiyle satış stratejileri değiştirilip kazancın arttırılması mümkündür.  

** Bankalar kredi kararlarında kredi isteyenlerin özelliklerini ve davranışlarını irdeleyerek batık kredi oranını azaltabilir. 

** Havayolları sürekli müşterilerinin davranış biçimlerini irdeleyerek daha etkin fiyatlandırma ile kârlılıklarını artırabilirler. 

** Bir telefon şirketi müşteri davranışlarından öğrendikleri ile yeni hizmetler geliştirerek, müşteri bağlılığını ve kârlılığını artırabilir. 

** Maliye Bakanlığı Gelir İdaresi, şirketler için risk modelleri kurarak vergi incelemelerini daha etkin yönlendirip, vergi kaçaklarını azaltabilir. 

** Hastaların teşhis ve tedavi maliyetleri irdelenerek hastalık riskinin ilk aşamada tespiti, kontrolü ve kaynak planlama açısından faydalı olur.  

A.Kusiak ve arkadaşları tarafından akciğer deki tümörün iyi huylu olup olmadığına dair, karar destek amaçlı bir çalışma yapılmıştır. İstatistiklere göre Amerika da 160.000 den fazla akciğer kanseri vakasının olduğu ve bunların %90’ının öldüğü belirlenmiştir. Bu bağlamda bu tümörün erken ve doğru olarak teşhisi önem kazanmaktadır. Noninvaziv testler ile elde edilen bilgi sayesinde %40-60  oranında doğru teşhis konabilmektedir. İnsanlar kanser olup olmadıklarından emin olmak için biyopsi yaptırmayı tercih etmektedirler. Biyopsi gibi invaziv testler hem maliyeti yüksek hem çeşitli riskler taşımaktadır. Faklı yerlerde ve farklı zamanlarda kliniklerde toplanan invaziv test verileri arasında yapılan veri madenciliği çalışmaları teşhiste %100 oranında doğruluk sağlamıştır.( A.Kusiak, K.H. Kernstine, J.A.Kern, K.A.McLaughlin and T.L.Tseng: Medical and Engineering Case Studies May, 2000 ) 

Veri Madenciliği Süreci 

1. Veri temizleme

2. Veri bütünleştirme

3. Veri indirgeme

4. Veri dönüştürme

5. Veri madenciliği algoritmasını uygulama

6. Sonuçları sunum ve değerlendirme 

 

Veri temizleme: Veri tabanında yer alan tutarsız ve hatalı verilere gürültü denir. Verilerdeki gürültüyü temizlemek için; eksik değer içeren kayıtlar atılabilir, kayıp değerlerin yerine sabit bir değer atanabilir, diğer verilerin ortalaması hesaplanarak kayıp veriler yerine bu değer yazılabilir, verilere uygun bir tahmin (karar ağacı, regresyon) yapılarak eksik veri yerine kullanılabilir. 

Veri bütünleştirme: Farklı veri tabanlarından ya da veri kaynaklarından elde edilen verilerin birlikte değerlendirmeye alınabilmesi için farklı türdeki verilerin tek türe dönüştürülmesi işlemidir. Bunun en yaygın örneği cinsiyette görülmektedir. Çok fazla tipte tutulabilen bir veri olup, bir veri tabanında 0/1 olarak tutulurken diğer veri tabanında E/K veya Erkek/Kadın şeklinde tutulabilir. Bilginin keşfinde başarı verinin uyumuna da bağlı olmaktadır.  

Veri indirgeme: Veri madenciliği uygulamalarında çözümlemeden elde edilecek sonucun değişmeyeceğine inanılıyorsa veri sayısı ya da değişkenlerin sayısı azaltılabilir.    Veri indirgeme yöntemleri; veri sıkıştırma, örnekleme, genelleme, birleştirme veya veri küpü, boyut indirgeme.  

Veri Dönüştürme: Verinin kullanılacak modele göre içeriğini koruyarak şeklinin dönüştürülmesi işlemidir. Dönüştürme işlemi kullanılacak modele uygun biçimde yapılmalıdır. Çünkü verinin gösterilmesinde kullanılacak model ve algoritma önemli bir rol oynamaktadır.   Değişkenlerin ortalama ve varyansları birbirlerinden önemli ölçüde farklı olduğu taktirde büyük ortalama ve varyansa sahip değişkenlerin diğerleri üzerindeki baskısı daha fazla olur ve onların rollerini önemli ölçüde azaltır. Bu yüzden veri üzerinde normalizasyon işlemi yapılmalıdır.   

Veri madenciliği algoritmasını uygulama: Veri hazır hale getirildikten sonra konuyla ilgili veri madenciliği algoritmaları uygulanır.   

Sonuçları sunum ve değerlendirme: Algoritmalar uygulandıktan sonra, sonuçlar düzenlenerek ilgili yerlere sunulur. Örneğin hiyerarşik kümeleme yöntemi uygulanmış ise sonuçlar dendrogram grafiği sunulur. (Bu makale bana ait değildir, alıntıdır)

Powered by Ali Osman Gkcan 2014 - All Rights Reserved.