12 Aralık 2008

Etiket Analiz Problemleri

Etiketleme kavramı web 2.0'ın en temel yeniliklerinden birisi. Bir içeriğin tanımlanmasında kategori yapısına göre daha esnek ve kolay bir kullanıma sahip. Fakat etikleme konusunda belli başlı bir kaç problem ortaya çıkmakta. Bu problemleri sıralarsak;

* Çoklu çağrışım : Bir kelimenin birden fazla kavramı çağrıştırması.
Örneğin "fasulye" kelimesi hem sebze olarak , hem de yerli bir film ismi olarak kullanılmış olabilir. Bu durumda aynı etiket tamamen alakasız içeriklerde kullanılmış olacaktır.

* Eş anlamlı kelimeler : Aynı kavramın farklı kelimelerle kullanılabilmesi.
Örneğin farklı içeriklerde etiketlenmiş "yaşlı" ve "ihtiyar" kelimeleri aslında anlam olarak birbirleriyle aynı olarak kabul edilebilir, fakat 2 ayrı etiket gibi davranacaklardır.

* Farklı formlarda kullanım : Kelimelerin farklı şekillerde kullanılması, fiil zamanları, kısaltmalar. Kelimelerin özne veya zamana göre farklı şekillerde kullanıldığı durumlardır. Aynı fiilin farklı zaman kullanımlarında farklı şekilde yazılması veya bazı kelmelerin günlük konuşma dilindeki halleriyle kullanılması yine aynı anlamda fakat farklı etiketler oluşturacaktır.

* Farklı dillerde kullanım : İngilizce dışındaki dillerde bazı terimler yaygın olarak ingilizce karşılıklarıyla dil içinde kullanılmaktadır. Özellikle Türkçe'de teknik konularda bu durumun had safhada olduğunu söyleyebiliriz. Örneğin iki içerik, "veritabanı" ve "database" olarak farklı kelimelerle etiketlenebilir. Yine aynı etiketler farklıymış gibi davranacaktır.

* Yazım hataları : Diğer nedenlerin mantıklı birer açıklaması olmasına rağmen bu durum tamamen ya o anki yazım hatasından veya yazan kişinin o kelimeyi yanlış bilmesinden kaynaklanabilir. Örneğin "yalnız" kelimesi "yanlız" olarak etiketlenebilir.

Bu problemlerin hepsinin "semantic tags", yani iki etiket arasındaki ilişkinin fiziksel değil de anlamsal olarak sağlanması yöntemiyle çözülebileceğini söyleyebiliriz. Zemanta ve DBpedia altyapısı kullanarak hazırlanan faviki "semantic tags" konusuna odaklı bir çözüm sunuyor.

1 yorum:

Adsız dedi ki...

www.medyaz.org projesi iletişim fakültesinin bir web sitesi ansiklopedisi projesi, orada da web siteleri otomatik olarak etiketleniyor, yaklaşık olarak da 1,000,000 etiket geliyor. Orada geliştirdiğimiz yazılım da eş anlamlılar bağlanabiliyor, farklı yazılan aynı olan etiketler birbirine işaretlenebiliyor. Bu anlamda işimiz bittiğinde bu konuda çok büyük bri hazır veritabanı ortaya çıkacak. Bu veritabanı bize hangi kelimelerin yanlış yazıldığını, hangilerinin eş anlamlı oldugunu, hangilerinin gereksiz yazıldığını tek seferde söyleyebilecek.