Bilgi çıkarma sürecini nasıl düzene koymalı

Metin çözümlemeyi  gerçekleştirmede konular ve teknikler


Giriş


Metin çözümleme,  yapılandırılmamış veya yarı-yapılandırılmış makina-okunabilir  belgelerden  bir bilgi çıkarma işlemidir. Metin çözümleme yazılımı, belgelerin kolleksiyonuna dayalı olarak,  varlık çıkarma ve ilişki buluşu verir, böylece son kullanıcılara (genellikle analistlere) yardım etmek, gerekli bilgiyi sabırla seçip ayırır ve karar verirler.
Metin çözümleme yazılımının nasıl iyi olduğunun  önemi yok, bununla beraber, o, sistem yöneticisidir, bilgi işçisidir, ve  metin çözümleme yazılımı ile  “kullanılır”   belgelerin çok geniş sayıların yapan  yazılım sistem mühendisidir.  Onlar, son kullanıcı ile ilgili sonuçları, ve kusursuz iş akışı  yapar.


Bilgi yönetim profesyoneli için, açıklayacağımız  bilgi keşfini gerçekleştirme  teknikleri, metin çözümleme ve bilgi çıkarma  kavramlarına aşinadır. Biz, aynı zamanda,  bilgi çıkarma iş akışını  ve çözümler teklif etmeyi gerçekleştirmeye engel olabilen problemlere ve görünmez tehlikelere  işaret edeceğiz.


Önceden işleme konuları


Bilgi çıkarma iş akışında ilk adım,  derleme ve çıkarmak istediğiniz bilgiyi içeren  bir belgeler koleksiyonu standardizasyonudur.


Belgelerin koleksiyonlarını verimli biçimde ve tutarlı olarak , analiz etmek için metin çözümleme yazılımı için,  belgeler standart bir formatta olmalıdır. Metin çözümleme topluluğunun çoğu,standart belge formatı olarak   XML’yi (Genişletilebilir İşaretleme Dili)  uyarladı. XML formatı (biçimi),  etiketlerle (tags) ASCII metin olmasından dolayı, XML etiketleri  eklenilmeden önce, belgeler ASCII formatında olması gerekir.


Belgeden mevcut olan şeyleri, ilişkileri ve gerçekleri  çıkarmak için, metin çözümleme yazılımı, yoğun bir şekilde dilin gramerine güvenen  çıkarım kurallarını (daha sonra tartışıldı) kullanılır. Bilgi çıkarma yazılımı için ideal belge, dilbilgisel olarak doğru bir ASCII metin  hikaye belgesidir.


Maalesef,  belgelerin çoğunluğu bu yolla gelmez. Belgeler,  Adope PDF, MS  Word, HTML, EXCEL, ve PowerPoint  gibi değişik biçimlerde saklanır. Birçok belge, web siteleri dahil farklı kaynaklardan  kesme ve yapıştırma  sonucu olarak  yaratılır. Çok sayıdaki belge, kötü OCR (optiksel karakter tanıma) ) süreci ile sonuçlanan  kötü bir şekilde taranır. Bu belgelerin, metin çözümleme etiketleme makinelerine gönderilmeden önce ASCII’ye ve ondan sonra XML’ye çevrilmesi gerekir.


Metin çözümleme yazılım paketlerinin birçoğu, kendi metin dönüştürücüleriyle  gelse bile, bu dönüştürücüler, her zaman en iyisi değildir. Çoğu kez, okunamaz karakterler veya anlamsız metin katarları  belgeleri  ASCII metne dönüştürmekten  sonuçlanır ve ek “temizlik yapmak” gerekli olabilir.


İlaveten, belge koleksiyonunda  istenmeyen karakterleri  veya katarları bulmak ve değiştirmek için “yığın düzeltme”  önerilebilir.  Bazı metin çözümleme yazılım paketleri, özü  etiketlemekten önce tüm koleksiyon üzerinde “bul ve değiştir” kuralları belirterek belgeleri daha önceden işlemek için araçları sağlar. Eğer bu kasasite  yoksa,  genel  bir metin editöründe “bul ve değiştir” tutarlı-boyutlu metin koleksiyonunda yardım edebilir.
 “Bul ve değiştir”  işlemi için,  kötü tarama/OCR işlemi  yüzünden  bir belgenin parçası olmayan fakat metinde görünen  olası adaylar  “<”  veya   “>”  karakter kombinasyonlarıdır.  Onlar, XML dönüşümlerinde sık sık hatalara neden olur. Ç.ünkü onlar XML etiketlerini kuşatan “<” ve “>” karakterleri olarak yorumlarlar.


Bazen, 100-200M taranmış belgeleri işlemek için gereklidir. (Karşılaştırma içinde,  Savaş ve Barış PDF formatında sadece 6M  veya ascıı metin içinde 3M dir. Bir çözüm, tüm ASCII olmayan dosyayı, ASCII metne dönüştürmektir. ASCII metin dosya, genellikle, bazı içerik ile bir PDF  dosyasının yarısıdır.


İşleme Konuları


İş akışında sonraki adım, yazılım çıkarma kullanarak  bir belgeden veya belgelerden bir koleksiyon , özleri ve gerçekleri çıkarmaktır. Bu noktada meydan okuma,  son kullanıcı veya analistin ihtiyaçlarına uygun olan bilgiyi çıkartmaktır.


Bilgi çıkarma  sürecinin kalitesi,  doğruluk ve geri çağırma ile  ölçülür.


Doğruluk, geri alınan ilgili varlıkların bir belge veya belgelerin bir koleksiyonu  içinde geri alınan tüm varlıklara  oranıdır. Geri çağırma, geri alınan ilgili varlıkların bir belge veya belgeler koleksiyonu içinde ilgili tüm varlıklara oranıdır. Bu  ölçübilim ne kadar yüksekse, son kullanıcılara o kadar faydalı olacaktır.


Çoğu analistler, doğruluğu (hassasiyeti), geri çağırmaya göre tercih eder. Çünkü onu yanlış getirmek yerine bir parça bilgi elde etmemekten daha iyi olduğunu hisseder.


Metin çözümleme yazılımı, bir belgeden bilgi çıkarmak için , bilgi çıkarma kuralları kullanır. Bilgi çıkarma kuralları, dil gramerine, metin kalıplarına, belirli kısıtlara, ve  veri sözlüklerine dayandırılan bilgi aramak ve çıkarmak için kullanılan algoritmalardır.


Bir metin çözümleme  yazılımı  paketi  içinde “kutu-dışında” içeren çıkarma kuralları yeterli olmadığı  anlar  vardır. İlgili  meselesinin konusu,  özgün olabilir  ve böylece bu konu için  bilgi çıkarma kuralları  mevcut  değildir. Bir belgenin içeriği PowerPoint sunularındaki veya Excel çalışma sayfaları içindeki metin gibi ayrı ibareler veya kelimelerden oluştuğu zaman,  gramer tabanlı bilgi çıkarma kuralları etkin değildir. Bu durumlar,  genişletilmiş veri sözlükleri,    listeleri hariç tutma , sözlük etiketleme teknikleri ve  kavramlar dizini  kullanarak kısmen çözülür.


Veri Sözlükleri


Bir veri sözlüğü, basit bir varlık tipi için bir kelime bilgisi sağlayan kelimelerin bir listesidir. Örneğin, “meyve” tipindeki varlık için sözlük, “elma,muz,portakal”   gibi bir liste olabilir. Etiketleme motoru, bir belge içinde  “elma” kelimesini görür ve onu “meyve” tipi olarak  etiketler.


Belirli konu meselesi varlıklarının özel-gelişmiş veri sözlükleri hem doğruluk hem de çıkarılmış bilgiyi geri çağırma iyileştirecektir. Bununla beraber, onlar, aynı zamanda problemlere neden olabilir.


Bazen, isim çıkarmayı iyileştirmek için bir sözlük olarak insanların son isimlerinin  bir listesi kullandığı  zaman problemler ortaya çıkabilir. Eğer, önceden tanımlanmış “insan” çıkarma kuralları  sözlükte yerini  alırsa, varlık çıkarma yazılımı, insanların son isimleri için ortak kelimeleri yanlış tanıyabilir. Örneğin, eğer bilinen isimlerin bir listesinde Tilki ve Kahverengi gibi son isimli insanlar varsa,  “tilki” veya “kahverengi” gibi isimler  olarak yorumlanılabilir.


Uygunluk  Konuları


Uygun etiketleme, sonuçların;  kullanıcının bilgi ihtiyaçlarını nasıl karşıladığından bahseder.  “konuyla ilgili” bir varlığın veya gerçeğin neyi oluşturduğunun tanımı özneldir.  Eğer bir çıkarma makinası “kısmi” bir varlığı geri getirirse  (örneğin, bir kişinin ilk ve son ismi, fakat orta ismi değil) bir hit oluşturur mu? Eğer analist, sadece, varlık ilgisinin belge içinde yerleştiği yerin  bir fikrini elde etmek istiyorsa o olabilir, fakat eğer analist veri tabanında veya diğer  havuzda   içinde tüm varlığı dahil etmek için bu oluşu düzeltmesi gerekirse, o olmayabilir.


Bilgi çıkarma motoru tarafından doğru bir şekilde belirlenmiş ve çıkarılmış olsa bile bazı varlıklar, kullanıcıyı ilgilendirmez. Daha kötüsü, bazen,   yararlı büyüklükler olarak,   onlara aynı belge içinde sahip olmak hatalı ilişkiler sağlar. Örneğin, bir belgenin Al-Qaeda’yi araştıran  Department of Homeland Security’ye  yineleme referansı vardır. Al-Qaeda hakkındaki bilgi bir analiste uygun olsa bile, onun “linki” Department of Homeland Security’ye uygun değildir.


Neyin “uygun” olduğu, bilgi çıkarma sürecini tasarlamadan önce karar verilmesi gerekir. Öyle ki belge işleme  tutarlı olsun.


Uygunluk karar konusuna yardım etmenin  bir yolu, dışında bırakma listeleri  yaratmaktır. Yani,  bir belge içinde etiketlenilmeyen varlıkların listeleri.  Bu dışında bırakma listeleri,  bilgi çıkarma sürecinde, bilgi çıkarma kurallarını müşteri isteğine göre değiştirerek kullanılabilir.


Bir tip varlık için (kişi) neyin uygun olduğu diğerine uygun olmayabilmesinden dolayı (organizasyon) , bir varlık tipi (kişi, organizasyon) için  bir hariç tutma listesi olması gerekir. Örneğin, Thompson (kişi) , son kullanıcıya uygun olabilir; Thompson (organizasyon) ilgisiz olabilir.


Diğer ikilemin çözülmeye ihtiyacı vardır: Eğer varlığın kendisi amaca uygun değilse,  onun ilişkisi diğer varlıklarla uygun olabilecek mi? Eğer yanıt evet ise,  bu varlık, bir ilgili ilişkiyi elemeyecek şekilde,  hariç tutma listesinde olmamalıdır.


Daha ileri  iyi ayarlama için, hariç tutma listeleri,  belirli kullanıcı grupları (bireysel kullanıcılar için bile) ve muhtemelen belgelerin bir koleksiyonu için  yaratılabilir.


Bilgiyi çıkarma işlemini iyi-ayarlamak için kullanılabilecek daha fazla teknik vardır. Gelecek hafta yayımlanacak bu makalenin ikinci kısmında, daha iyi doğruluk ve geri çağırma için  sözlük etiketlemeyi ve  kavram dizinleri  kullanmayı   inceleyeceğiz.  Biz, aynı zamanda, son ürünü postalama sürecini tartışacağız.


*Bilgisayar Programcısı, Sistem Analizi Yüksek Mühendisi Naim Uygun tarafından  Victoria Loewengart’ın   makalesi İngilizce’den  tercüme edilmiştir.
Web sitesi: http://www.pekiyi.150m.com
E-posta: dersogren@gmail.com

CEVAP VER

Please enter your comment!
Please enter your name here