Akademik Bilişim’14 - XVI. Akademik Bilişim Konferansı Bildirileri
5 - 7 Şubat 2014 Mersin Üniversitesi
Web Tabanlı Türkçe Ulusal Derlemi (TUD)
Yeşim Aksan1, Mustafa Aksan1, Selma Ayşe Özel2, Hakan Yılmazer3,
Umut Ufuk Demirhan1, Ümit Mersinli1, Yasin Bektaş4, Serap Altunay1
Mersin Üniversitesi, İngiliz Dili ve Edebiyatı Bölümü, Mersin
Çukurova Üniversitesi, Bilgisayar Mühendisliği Bölümü, Adana
3
Mersin Üniversitesi, Bilgi İ̧lem Daire Ba̧kanlığı, Mersin
4
Mersin Üniversitesi, Erdemli Meslek Yüksekokulu, Bilgisayar Teknolojileri Bölümü, Mersin
yesim.aksan@gmail.com, mustaksan@gmail.com, saozel@gmail.com, yilmazerhakan@gmail.com,
umutufuk@gmail.com, umit@mersinli.org, ybektas79@gmail.com, serapaltunayy@gmail.com
1
2
Teşekkür: TUD TÜBİTAK 108K242 (2008-2011) tarafından desteklenmi̧tir.
Özet: Bu çalı̧ma, Türkçe’nin ilk kapsamlı ve genel amaçlı derlemi olan Türkçe Ulusal Derlemi
(TUD)’ni [1] tanıtmayı amaçlamaktadır. Tanıtım Sürümünü Ekim 2012’de yapan TUD’un derlem dilbilim ilkeleri temelindeki derlem tasarım ölçütleri, web tabanlı ve kullanıcı dostu arayüz
yazılım mimarisi özellikleri açıklandıktan sonra, kullanıcıların TUD üzerinde gerçeklȩtirdikleri
sorgulamalarda yararlanacakları derlem araçları listelenecektir. Son olarak, dili temsil etme yeterliliğine sahip TUD gibi dil kaynaklarının sosyal bilimler ve bilgisayar mühendisliği alanlarındaki
ara̧tırmalardaki yeri ve önemi üzerinde durulacaktır.
Anahtar Sözcükler: Derlem dilbilimi, Derlem Tasarımı, Web-tabanlı derlem arayüzü, Türkçe
Ulusal Derlemi (TUD)
Web-Based Turkish National Copus (TNC)
Abstract: The aim of this study is to describe the construction process of the irst large scale, general-purpose corpus of Turkish, namely Turkish National Corpus (TNC). The paper is organized
as follows; irst, the overall design features of TNC-Demo – released in October 2012 – which are
based on principles well-deined in corpus linguistics, will be presented. Secondly, the web based
interface architecture and pre-deined functions and tools of the TNC interface that will aid users
in making their queries will be shown. Finally, the role of representative language resources like
TNC in disciplines of social sciences and computer engineering is discussed.
Keywords: Corpus linguistics, Corpus building, web-based corpus interface, Turkish National
Corpus (TNC).
1. Giriş
Bir dil kaynağı olarak derlem, belli amaçlar
temelinde yapılandırılmı̧ metinler/konu̧malar bütünüdür. Genel amaçlı (İng. reference/
general) hazırlanan bir derlemi ̧öyle tanımlayabiliriz. Belli bir dili temsil edebilme ama-
cıyla, belli bir zaman aralığında, yazılı ve/veya
sözlü dil kullanım metinlerini/konu̧malarını,
yazar/konu̧an özelliklerini (cinsiyet, ya̧, eğitim vb.), ileti̧im ortamlarının alan ve türlerine (İng. domain, genre) ve yayın ortamlarına
(kitap, süreli yayın vb.) göre dengeli ve katmanlı örnekleme yoluyla derleyip, belirlediği
723
Web Tabanlı Türkçe Ulusal Derlemi (TUD) - Yeşim Aksan, Mustafa Aksan, Selma Ayşe Özel,
Hakan Yılmazer, Umut Ufuk Demirhan, Ümit Mersinli, Yasin Bektaş, Serap Altunay
ölçütleri kapsayan ayrıntılı veribilgisi (İng.
metadata) ve temel dilbilimsel çözümleme
araçlarıyla birlikte elektronik ortamlarda sunan
kaynaklara derlem denir [22; 15]. Bilgisayar
teknolojilerindeki hızlı geli̧meler sayesinde
gerçek dil kullanımını içeren büyük derlemler
olu̧turulabilmi̧tir (örn., British National Corpus [4], Corpus of Contemporary American
English). Bu derlemler üzerinden yürütülen
dilbilim ve bili̧im alanındaki çalı̧malar ile
dilin ba̧ka yöntem ve araçlarla görülemeyen
pek çok önemli özelliği ortaya çıkarılmı̧tır.
Günümüzde çok sayıda dilin özel ya da genel
amaçlı derlemleri kurulmu̧ ve kullanıcıların
hizmetine sunulmu̧tur [14].
Türkçe için yukarıda sunulan dil derlemi
tanımına en yakın derlem ODTÜ Türkçe
Derlemi’dir [21]. 1990 sonrası yazılı metin
örneklerini 291 farklı veri kaynağından alan
ve 2 milyon sözcükten olu̧an Türkçenin bu
ilk yazılı derlemi, on farklı metin türünü kapsamaktadır. Kullanıcılar derlemi çevrimdı̧ı,
platform bağımlı bir yazılım aracılığıyla çalı̧tırabilmektedir. Söz konusu yazılım basit
ve düzenli ifade sorgusu yapmaya olanak tanırken, dil derlemi arayüz özelliklerinden olan
bağımlı dizin satırları (İng. concordance lines),
listeleme (İng. sorting), dağılım (İng. distribution) ve sayısal sıralı ȩdizimlilik listeleri (İng.
collocation lists) gibi derlem araçlarına sahip
değildir. Son 15 yılda internette birçok dile ili̧kin verinin yer alması www’i hızlı, kolay ve
insan gücü gerektirmeksizin, otomatik biçimde dil derlemi kurmak için kullanılır yapmı̧tır [11]. Bu yöntemle Türkçe için geli̧tirilen
TurkishWaC [2], kaynak sözcük tarama (İng.
seed word) yoluyla Wikipedia sayfalarından
edinilen 42 milyon sözcükten olu̧maktadır.
Bu derlem dilbilim ve sosyal bilimler alanlarında sözcük proili çalı̧ması yapmaya uygun,
ücretli Sketch Engine (http://sketchengine.
co.uk) derlem sorgulama sistemiyle kullanıcıların eri̧imine açıktır. Bunun yanı sıra, Türkçe
için bilgisayar mühendisleri tarafından hazırlanan yazılı Türkçenin derlemleri, verilerini yine
www’den almı̧, sözcük sayısı açısından büyük
ancak derlem tasarımı ilkelerine uymayan derlemlerdir. Bu derlemlerin birçoğu bilgisayar
mühendislerinin Türkçe için geli̧tirdiği yazılımları sınamak ve Türkçenin sözcük, tümce,
ek vb. dilsel birimlerinin nicel dökümünü almak üzere derlenmi̧ metinler bütündür. TurCo
[8] on farklı internet sayfası kaynak alınarak
bir araya getirilmi̧ ve 44 milyon sözcük içeren
bir derlemdir ve bu derlem kullanılarak Türkçe
sözcüklerin ve sözcük takımlarının bazı istatistiksel özellikleri saptanmı̧tır. BOUN Derlemi
[20] Türkiye’de okunan ba̧lıca üç farklı gazetenin internet sayfalarını içeren dört farklı alt
derlemi kapsamakta ve 423 milyon sözcükten
olu̧maktadır. Bu derlem üzerinden Türkçe
sözcüklerdeki biçimbirimlerin istatistiksel bir
modeli geli̧tirilmi̧tir. BOUN Derlemi XML
formatında ara̧tırmacıların ula̧abileceği bir
dil kaynağıdır. Son olarak bu grup içinde, Türki diller arasında biçimbirimsel çözümleme
yazılımlarını sınamak için kurulan 3.37 milyar
büyüklüğünde [5], ara̧tırmacıların ula̧amadığı Türkçe derlem bulunmaktadır.
Bu yazıda tanıtmayı amaçladığımız Türkçe
Ulusal Derlemi (TUD) yukarıda özetlenen
derlemlerden farklı olarak, derlem dilbilimin
derlem kurma ilkelerine göre geli̧tirilen, en
iyi uygulamaları örnek alan ve derlem tasarım
sürecine uyarlayan, web tabanlı ve kendine
özgü arayüzü olan, dili temsil gücüne (İng. representativeness) sahip, dengeli (İng. balanced),
yazılı ve sözlü Türkçe metin örneklerini içeren
Türkçenin ilk referans derlemidir.
2. Türkçe Ulusal Derlemi tasarım ölçütleri
Derlem tasarımı temel olarak bȩ ilkeden olu̧ur. Derlemin temsil gücü, denge, örneklem,
zaman içindeki deği̧im ve derlem metinlerini
belirleme bir derlem olu̧tururken dikkat edilmesi gereken ilkelerdir [25]. Derlemin temsil
gücü, derlemi olu̧turan örneklemin dil deği̧kelerini ne ölçüde kapsadığını gösterir [6].
Denge, derlemi olu̧turacak türlerin kapsamını belirtmektedir. Bir derlem tasarlanırken
olabildiğince geni̧ metin türlerini içermesi
724
Akademik Bilişim’14 - XVI. Akademik Bilişim Konferansı Bildirileri
5 - 7 Şubat 2014 Mersin Üniversitesi
hedelenmelidir ancak, derlem dengesi için bilimsel bir ölçüt bulunmamaktadır. Derlemleri
olu̧turan ara̧tırmacılar genellikle daha önce
yapılmı̧ olan bir derlemi kendilerine model
olarak alırlar. Örneklem ise, her tür için metin
parça/bütün seçimini; zaman içindeki deği̧imi, derlemi durağan (İng. static) ya da dinamik
(İng. dynamic) bir dil modeli olarak ele almayı
gösterir.
TUD tasarım ilkeleri British National Corpus
(BNC) [4] örnek alınarak geli̧tirilmi̧tir. Ȩzamanlı, durağan bir derlem olarak tasarlanan
TUD, 50 milyon sözcükten olu̧an, 20 yıllık
bir dönemi kapsayan, günümüz Türkçesinin
çok sayıda farklı konu alanı ve metin türünden
yazılı ve sözlü örneklerini içeren (%98’i yazılı %2’si çeviriyazıya geçmi̧ sözlü dil verisi)
geni̧ kapsamlı bir referans derlemdir. Derlemin yazılı metin örneklerini içeren ve Ekim
2012’de kullanıcıların eri̧imine açılan TUDTanıtım Sürümü 1990-2009 yılları arasında
yayımlanan yazılı ve sözlü toplamda 4442 veri
kaynağından seçilen, 9 konu alanını ve 39 dilsel türü (bilimsel makaleler, roman, e-postalar,
bloglar vb.) içeren metin örneklerinden olu̧maktadır (bkz. Tablo1).
TUD’un derlem metinleri ya da metin parçaları dil dı̧ı ölçütlere göre belirlenmi̧tir. Bunlar,
metinlerin konu alanı, metinlerin yayınlanma
tarihi ve yayın ortamıdır. Konu alanı kurgusal
ve bilgilendirici metinlerden olu̧maktadır. Yazınsal metinler (roman, kısa öykü, ̧iir, tiyatro)
kurgusal alanı temsil etmektedir. Toplumbilimleri, sanat, ticaret-inans, dü̧ünce-inanç, dünya sorunları, uygulamalı bilimler, doğa-temel
bilimleri, sanat, hobi, yemek tarii gibi serbest
olarak adlandırılan metinler ise bilgilendirici
alan için örneklem almak üzere seçilmi̧tir. Yayın ortamı olarak kitaplar, süreli yayınlar (gazete, dergi), çȩitli (yayınlanmı̧-yayınlanmamı̧)
metinler ve konu̧mak üzere yazılmı̧ metinler
kullanılmı̧tır.
Alan
Oran
Toplam Sözcük
Sayısı
1. Dünya Sorunları
% 20,05
9.591.797
2. Kurgusal Düzyazı
% 19,22
9.194.674
3. Serbest
% 14,96
7.155.998
4. Toplum Bilimleri
% 14,55
6.961.521
5. Ticaret ve Finans
% 9,21
4.404.453
6. Sanat
% 7,50
3.586.866
7. Uygulamalı Bilimler
% 7,19
3.441.050
8. Dü̧ünce ve İnanç
% 4,31
2.061.068
9. Doğa ve Temel Bilimler
% 2,96
1.419.861
TOPLAM
% 100
47.817.288
Tablo 1. TUD-Tanıtım Sürümünde Metinlerin
Konu Alanlarına göre Dağılımı
3. TUD-Tanıtım Sürümü Yazılım Mimarisi
3.1. Genel Özellikler
TUD-Tanıtım Sürümü 4 çekirdekten olu̧an,
3.20GHz hızında, 8MB önbellekli, 1 adet Intel® Xeon® E3-1225v2 i̧lemcili; 16 GB bellek
ve 1 TB sabit disk alanına sahip; FreeBSD 9.0
[23] i̧letim sistemini kullanan bir sunucu üzerinde bulunmaktadır. Derlem metinleri ve dizin
yapısı MySQL 5.5.22 [16] veritabanı yönetim
sisteminde olu̧turulmu̧ bir veritabanında yer
almaktadır. TUD-Tanıtım Sürümü web tabanlı
olup, web arayüzü aracığıyla kullanım ve sorgulama imkânı sunmaktadır. Web arayüzü açık
kaynaklı kodlar kullanılarak hazırlanmı̧tır. Bu
amaçla web sunucusu olarak Apache/2.2.22
(FreeBSD) [3] kullanılmı̧ olup, kullanıcı ara
yüzleri PHP 5.4.21 [17], HTML [10], CSS [7],
Javascript [12], Jquery [13] ile hazırlanmı̧tır.
Ham metinleri i̧leyip, sözcükbirimlerin (İng.
token) ve teksözcüklerin (İng. type) çıkarılmasında Perl 5.12.4 [24] betik dili kullanılmı̧tır.
725
Web Tabanlı Türkçe Ulusal Derlemi (TUD) - Yeşim Aksan, Mustafa Aksan, Selma Ayşe Özel,
Hakan Yılmazer, Umut Ufuk Demirhan, Ümit Mersinli, Yasin Bektaş, Serap Altunay
Sunucu i̧letim sisteminin, UNIX tabanlı ve
açık kaynak kodlu olması ileri seviyede ağ,
performans, güvenlik ve uyumluluk özelliklerini beraberinde getirmi̧; bunun yanı sıra sunucu uygulamalarının ve modüllerinin uygulanabilirliği açısından geli̧mi̧ port yapısı ile
esnek bir çalı̧ma ortamı sağlamı̧tır.
3.2. Derlem Veritabanının Yapısı
Derlem metinleri ve sorgulamada kullanılan
evrik dizin (İng. inverted index) yapısı MySQL
veritabanı yönetim sisteminde hazırlanmı̧ bir
veritabanında tutulmaktadır. Aramayı hızlandırmak ve tam metin (İng. full text) aramalarını da destekleyebilmek için MySQL veritabanı
yönetim sistemindeki varsayılan veri depolama motoru olan MyISAM yapısı kullanılmı̧tır. Derlem veritabanı 1., 2., ve BCNF normal
formlarının kurallarına uygun olarak tasarlanmı̧tır. Veritabanına veri ekleme, silme, güncelleme i̧lemleri, hazırlanan yönetici paneli aracılığıyla yapılmakta, böylece veritabanında yer
alan verinin tutarlı olması da sağlanmaktadır.
Derlem veritabanında bulunan tablolar ve içerdikleri veri miktarı Tablo 2’de yer almaktadır.
Tablo Adı
Kayıt
Sayısı
Veri
Miktarı
Açıklama
k_kitle
4
< 1 KB
Kitle Türleri
k_yazarlar
3146
< 1 KB
Yazarlar
k_yazar_
turu
3
< 1 KB
Yazar Türleri
k_turev
6
< 1 KB
Türev Metin
Biçimi
k_alan
9
< 1 KB
Alan
k_tur
39
< 1 KB
Tür
k_medya
4
< 1 KB
Medya
k_yayimci
672
< 1 KB
Yayıncı
k_cinsiyet
3
< 1 KB
Yazar Cinsiyeti
kunyeler_
metin
4442
574 KB
Doküman
Künyeleri
391.3 MB Dokümanlar
metinler
4442
sozcukbirim
57,998,615 1.27 GB
teksozcuk
1,457,752
Dizinler
40.87 MB Tek sözcükler
Tablo 2. TUD-Tanıtım Sürümü Veritabanı Yapısı
k_kitle tablosunda derlemde bulunan metinlerin okuyucu kitlesi türleri yer almaktadır.
Derlemdeki metinlerin “çocuk”, “genç”, “yeti̧kin”, “tümü” olmak üzere 4 tür okuyucusu
bulunmaktadır. Böylelikle derlemde yapılacak
sorgulamalarda okuyucu kitlesi türüne göre bir
iltreleme yapılabilmektedir. k_yazarlar tablosunda ise derlemdeki tüm metinlerin yazarlarının bir listesi bulunmaktadır. k_yazar_turu
tablosunda derlemde bulunan metinlerin yazarlarının türleri bulunmaktadır. Yazar türleri
“çoklu”, “kurumsal”, “tekil” olabilmekte ve
buna göre sorgu sonuçları iltrelenebilmektedir. k_turev tablosunda “bilimsel düzyazı”,
“kurgu ve ̧iir”, “bilimsel olmayan düzyazı
ve özya̧am”, “gazete”, “diğer yazılı basılmı̧
metin”, “basılmamı̧ yazılı metin” olmak üzere türev metin biçimleri yer almakta ve buna
göre sorgu sonuçlarının iltrelenmesine izin verilebilmektedir. k_alan tablosunda, metinlerin
Tablo 1’de verilen konu alanları bulunmakta ve
alana göre sorgu sonuçları iltrelenebilmektedir. k_tür tablosunda derlemde bulunan metinler için tanımlanmı̧ 39 adet metin türü bulunmakta ve sorgu sonuçları bu tabloda bulunan
türlere göre sınırlandırılabilmektedir. k_medya tablosunda derlemde bulunan belgelerin
“kitap”, “süreli yayın”, “çȩitli:yayınlanmı̧”,
“çȩitli:yayınlanmamı̧” olmak üzere medya
türleri bulunmakta ve bu türlere göre sorgu sonuçları iltrelenebilmektedir. k_yayimci tablosu derlemde bulunan metinlerin yayınevi bilgisini; k_cinsiyet tablosu ise derlemde bulunan
metinlerin yazarlarının cinsiyet türlerini saklar.
Böylece yazar cinsiyetine göre sorgu sonuçlarını iltreleme imkânı verir. kunyeler_metin
tablosu derlemde bulunan 4442 adet metin belgesinin medya, konu alanı, yazar, yayınevi gibi
künye bilgilerini saklar. metinler tablosunda derlemde bulunan 4442 adet belgenin tam
metni yer alır. sozcukbirim tablosunda bölüm
3.3’de anlatılan “sözcükbirim ve teksözcük belirleme” algoritmasına göre tüm derlemden çıkarılmı̧ sözcükbirimler ve bu sözcükbirimlerin
teksözcük numarası, derlemde geçen orijinal
hali, hangi belgede, hangi pozisyonda bulunduğu bilgisi yer alır. Sorgulamalarda kullanılan
726
Akademik Bilişim’14 - XVI. Akademik Bilişim Konferansı Bildirileri
5 - 7 Şubat 2014 Mersin Üniversitesi
ana tablolardan biridir. teksozcuk tablosunda
da bölüm 3.3’de anlatılan “sözcükbirim ve
teksözcük belirleme” algoritmasına göre tüm
derlemden çıkarılmı̧ teksözcükler, teksözcüğün numarası (birincil anahtar), türü (kelime,
noktalama i̧areti, diğer) ve derlemdeki sayısı
yer almaktadır.
3.3. Sözcükbirimleştirme
(İng. tokenization) ve Evrik Dizin
(İng. Inverted Index) Yapısı
Veritabanında metinler tablosunda 4442 adet
derlem metni bulunmaktadır. Derlem üzerinde sorgulama yapabilmek için bu metinlerin
içinde yer alan sözcükbirimlerin belirlenmesi,
tüm derlemde yer alan teksözcüklerin çıkarılması ve bir çȩit evrik dizin yapısında hangi
teksözcüğün hangi metin belgesinde ve hangi
pozisyonda geçtiği bilgisinin tutulması gerekmektedir. Bu i̧lemleri gerçeklȩtirebilmek
amacıyla Şekil 1’de yer alan “sözcükbirim ve
teksözcük belirleme” algoritması tasarlanmı̧
ve kullanılmı̧tır.
Sözcükbirim ve teksözcük belirleme algoritması FreeBSD sunucu ortamında Perl betik dili
ile kodlanmı̧tır. Perl dili ile yazılmı̧ sözcükbirim ve teksözcük belirleme programı MySQL
veritabanına bağlanıp, metinler tablosundaki
her bir metni alır, bo̧luklardan bölerek sözcükbirimleri olu̧turur. Elde edilen sözcükbirimlerin kısaltma ya da sayısal birimler olup
olmadığı kontrol edilir. Bu amaçla daha önceden belirlenmi̧ ve Türkçe metinlerde sıklıkla
görülen kısaltmaların bir listesi kullanılmı̧tır.
Eğer sözcükbirim bir kısaltma ya da sayısal bir
ifade ise hiçbir ilave dönü̧üm yapılmadan olduğu gibi alınır. Örneğin 1,000, 13:48, 27Temmuz2012 gibi sayısal karakter içeren ifadeler
veya P.T.T. gibi kısaltma içeren sözcükbirimler
olduğu gibi alınır.
Eğer elde edilen sözcükbirim kısaltma ya da
sayısal bir ifade değilse, bu sözcükbirimin ba̧ında ya da sonunda noktalama i̧aretleri varsa,
bu noktalama i̧aretleri de ayrılarak, noktalama
i̧aretlerinin her biri ayrı bir sözcükbirim ola-
rak alınır. Örneğin güzellikler! ̧eklindeki bir
sözcükbirim güzellikler ve ! ̧eklinde 2 adet
sözcükbirime ayrılır. Elde edilen sözcükbirim,
kısaltma ve sayısal karakter içeren hariç, küçük harfe dönü̧türülür. Bu dönü̧ümden sonra
olu̧an sözcükbirim önce teksözcük tablosundan
aranır. Eğer teksözcük tablosunda varsa, bu sözcükbirim derlemde daha önce elde edilmi̧ demektir. Bu durumda bu teksözcüğe atanmı̧ teksözcük_no değeri alınır, bu teksözcüğün sayaç
değeri 1 attırılır, sözcükbirim tablosuna ise bulunan bu sözcükbirim metinde geçen haliyle (küçük harf dönü̧ümü yapılmadan) eklenir. Ayrıca
elde edilen sözcükbirimin teksözcük_no değeri,
hangi belgede hangi pozisyonda geçtiği bilgileri
de sözcükbirim tablosuna eklenir. Eğer olu̧turulan sözcükbirim teksözcük tablosunda yoksa,
önce teksözcük tablosuna eklenir. Bu teksözcük
için bir teksözcük_no değeri verilir, sayaç değeri
1 yapılır ve türü de belirlenerek teksözcük tablosuna bu veriler eklenir. Daha sonra bu sözcükbirim sözcükbirim tablosuna hangi belgede, hangi
pozisyonda geçtiği bilgisiyle eklenir.
Kısaltma ve sayısal ifadelerin dı̧ında kalan
sözcükbirimler küçük harfe çevrilerek teksözcük tablosuna eklenmi̧, ancak sözcükbirim
tablosuna ise metinde geçtiği orijinal haliyle
eklenmi̧tir. Böylece, sorgulama sırasında büyük/küçük harf ayrımı yapmadan ya da yaparak her iki ̧ekilde de arama yapmak mümkün
olabilmektedir. Ancak sözcükbirim içinde geçen noktalama i̧aretleri ayrılmamı̧tır. Örneğin siyah-beyaz veya Adana’nın sözcükbirimleri sadece küçük harfe dönü̧türme yaparak
olduğu gibi teksözcük olarak alınmı̧tır.
Sözcükbirim ve teksözcük belirleme algoritmasına göre 4442 doküman bulunan derlemden 57,998,615 adet sözcükbirim elde edilmi̧
olup, bu sözcükbirimlerin yakla̧ık 48 milyon
adedi noktalama i̧areti haricindeki sözcükbirimlerdir. TUD-Tanıtım Sürümü için toplam
1,457,752 adet teksözcük belirlenmi̧tir.
Sözcükbirim ve teksözcük belirleme programının hızlı çalı̧ması için sözcükbirim ve teksöz-
727
Web Tabanlı Türkçe Ulusal Derlemi (TUD) - Yeşim Aksan, Mustafa Aksan, Selma Ayşe Özel,
Hakan Yılmazer, Umut Ufuk Demirhan, Ümit Mersinli, Yasin Bektaş, Serap Altunay
cük tabloları bellekte çırpı tablosu (İng. hash
table) olarak tutulmu̧ olup, daha sonra i̧lemler
bittikten sonra CSV uzantılı olarak sabit diske
kaydedilmi̧tir. Bu i̧lemler 4442 doküman için
sunucu ortamında ortalama 1189,2 saniye sürmü̧tür. Elde edilen CSV dosyaları veritabanda
teksözcük ve sözcükbirim isimli tablolara aktarılarak i̧lemler tamamlanmı̧tır.
Algoritma: Sözcükbirim ve Teksözcük belirleme
Input: metinler tablosu, kısaltmalar listesi, noktalama
işaretleri listesi
Output: sözcükbirim ve teksözcük tabloları
metinler tablosundaki her metin için:
1. metin bo̧luklardan bölünerek sözcükbirimler elde
edilir ve bir sözcükbirim (S) listesine eklenir.
2. S listesindeki her sözcükbirim (s) için
• Eğer (s ∈ kısaltmalar listesi) || ([0-1] ⊂ s) ise,
i) s’yi teksözcük tablosunda ara, eğer varsa
teksözcük_no’yu al, yoksa <s, teksözcük_no, sayaç,
tür> kaydını teksözcuük tablosuna ekle.
ii) <s, teksözcük_no, metin_no, pozisyon_no>
kaydını sözcükbirim tablosuna ekle.
• Eğer s’nin ba̧ında ya da sonunda noktalama i̧areti
varsa, s’ yi küçük harlere çevir, tüm noktalama
i̧aretlerini ayır, elde edilen her sözcükbirim için i
ve ii adımlarındaki i̧lemleri tekrarla.
• Eğer s’nin ba̧ında ya da sonunda noktalama i̧areti
yoksa, s’ yi küçük harlere çevir, ve elde edilen
sözcük birim için i ve ii adımlarındaki i̧lemleri
tekrarla.
Şekil 1. Sözcükbirim ve Teksözcük
Belirleme Algoritması
ve sabit diskte metin belgelerinde saklanmı̧tır.
Bu sonuç dosyalarında bir sorgu terimine ait
“bağımlı dizin” dizilimi ve sonuçları yer almaktadır. Bu dosyaların diskte kapladığı alanın azaltılması ve diskten okunması i̧lemleri için “igbinary” serialize [19] yöntemi uygulanmı̧tır. Yer
kazanımı ve bellek kullanımında etkili sonuçlar
vermi̧tir. Derlemin yeni sürümünde sorgu sonuçlarının sözcükbirim tablosu üzerinden gerçek zamanlı hesaplanması planlanmaktadır.
Kullanıcı tarafından girilen bir teksözcük belleğe önceden aktarılmı̧ teksözcük tablosundan
hızlı bir ̧ekilde aranır ve o sorguya ait teksözcük_no değeri bulunup, o teksözcüğe ait daha
önce hesaplanmı̧ sonuç dosyası diskten alınarak i̧lenmek ve ekranda görüntülenmek üzere
arayüze gönderilir. Kullanıcının belirlediği iltreleme ölçütlerine göre, sonuç dizilimi belirlenir ve bu dizilim rastgele sıralanır, daha sonra
yazılım tarafından ön tanımlı olarak 2.500 sonuç ekranda görüntülenir.
Görüntüleme sırasında SpryMedia [9] tarafından geli̧tirilmi̧ DataTables kullanılmaktadır.
Bu sayede sonuçlar görsel açıdan hızlı ve etkin
biçimde görüntülenebilmektedir. Bu i̧lemlerin
yanı sıra kullanıcının daha sonra talep edebileceği sıralama ve ȩdizimlilik i̧lemleri için
de elde edilen sonuçlar önbelleğe (İng. cache)
alınmaktadır.
3.4 Sorgulama ve Ön Belleğe Yükleme
Derlemin web arayüzü sunucuda çalı̧maya
ba̧ladığı anda veritabanında yer alan teksözcük tablosu RAM-Belleğe aktarılmaktadır. Bu
aktarım APC uzantısı [18] ile PHP ara yüzünden yapılmaktadır. APC (Alternative PHP Cache), veri tabanında veya dosyalarda bulunan
ve uygulama sırasında sıkça eri̧ilen bilgileri,
RAM’da saklama yöntemi ile bir nevi hız ve
optimizasyon sağlama aracıdır.
APC uzantısı bilgileri bellekte az yer kaplaması için serialize eder. Bu serialize i̧lemleri
için yine “igbinary” [19] serializing yöntemi
kullanılmı̧tır. Bu sayede normal serialize yöntemlerine göre hız ve boyut açısından kazanım
olmu̧tur. PHP, igbinary yöntemi ile normal
saklama ve serialize i̧lemine göre yakla̧ık 1/5
oranında yer kazanımı sağlamı̧tır [12].
Derlem sorgularının kullanıcıya daha hızlı bir
̧ekilde ula̧tırılması için teksözcük tablosunda
yer alan teksözcüklerin sözcükbirim tablosunda
yer alan sorgu sonuçları önceden hesaplanmı̧
TUD-Tanıtım Sürümü temel olarak tek sözcük
ya da sözcük grubunun bağlam içinde anahtar
sözcük (İng. KWIC) arama i̧levine sahiptir.
Bununla birlikte, ara̧tırmacılar derlem anasay-
4. TUD- Tanıtım Sürümü Arayüz Özellikleri
728
Akademik Bilişim’14 - XVI. Akademik Bilişim Konferansı Bildirileri
5 - 7 Şubat 2014 Mersin Üniversitesi
fasında bulunan çȩitli dil dı̧ı ölçütlerle (yayın
yılı, alan, türev metin biçimi, vb.) ara̧tırma sorularına uygun olarak sorgularını daraltabilir ve
bu doğrultuda bağımlı dizin sonuçlarına, listeleme i̧levine ve sayısal sıralı ȩdizimlilik listelerine ula̧abilirler. 3. bölümde yazılım mimarisi anlatılan TUD- Tanıtım Sürümü arayüzünün
sahip olduğu i̧levler a̧ağıda sıralanmı̧tır.
1.
2.
3.
4.
5.
6.
7.
“Yayın yılı, medya, metin örneklemi, alan,
türev metin biçimi, yazarın cinsiyeti, yazar ya da yazarların türü, okuyucu kitlesi
ve tür” ölçütlerine bağlı olarak aramalarını
daraltabilir ve belirledikleri ölçütlere göre
bağımlı dizin sonuçları alabilirler.
Arayüzün listelediği bağımlı dizin sorgularındaki sorgu sözcüğü ya da sözcüklerinin
+ 35 sözcüklük bağlamına eri̧ebilirler.
Listelenen bağımlı dizinlerin geçtiği metinlerin veribilgisine eri̧ebilirler.
Sorgu sonuçlarını Excel ve metin dosyası
formatında dı̧a aktarabilirler.
Sorgu teriminin “Türev metin biçimi, alan,
okuyucu kitlesi, medya, cinsiyet ve yıl" ölçütlerine göre “sözcük sayısını, ȩlȩme sayısını, metinlerdeki dağılımını,” bir milyon
sözcükteki sıklığını görüntüleyebilirler.
Sorgu sözcüğünün solundaki ve sağındaki
+ 5 sözcüğe göre alfabetik listelerini alabilirler.
Sorgu sözcüğünün çoğunlukla hangi sözcüklerle ya da dilbilgisi ulamlarıyla birlikte olduğunu, çȩitli istatiksel hesaplamalar
kullanarak (LL, MI, MI3, T, Dice coeficient, Logdice coeficient değerleri) + 5 sözcüklük aralıkta düzenlenmi̧, sayısal sıralı
ȩdizimlilik listeleri ̧eklinde alabilirler.
5. Sonuç
Bu çalı̧mada güncel Türkçenin web tabanlı ilk
referans derlemi Türkçe Ulusal Derlemi’nin
tasarım ölçütleri, yazılım mimarisi, derlem veritabanı yapısı, sözcükbirimlȩtirme ve evrik
dizin yapısyla derlem verisinin i̧lenmesi ve
TUD-Tanıtım Sürümü’nün kullanıcılara sunduğu arayüz özellikleri gösterilmi̧tir.
TUD bili̧im, eğitim, medya, Türkçenin güncel kullanımı ve tanıtımı ile ilgili tüm ki̧i ve
kurumların kolayca ula̧abileceği ve yararlanabileceği bir dil kaynağıdır. Bir sözcüğün,
kalıp sözün, bilȩik yapının ya da dilbilimsel
bir birimin/ekin kullanım sıklığının ve farklı
ortamlardaki görünüm ve i̧levlerinin bulunması; bilgisayarlı çeviriden sözlük hazırlamaya, Türkçenin anadil ya da yabancı dil olarak
öğretimi için araçlar geli̧tirmeye, elektronik
̧ifreleme ve aŗiv olu̧turmaya, dilin sözvarlığındaki deği̧meyi ve çȩitliliği saptamaya kadar uzanacak geni̧ bir alanda uygulamalar için
veri sağlayacak niteliktedir.
Dilbilimcilerin ve bilgisayar mühendislerinin
disiplinler arası çalı̧masıyla TUD veritabanları kullanılarak, TÜBİTAK (Proje no:113K039)
destekli yeni bir proje sürmektedir. Proje 49
milyon sözcüklük yazılı Türkçe metin temelinde, TUD’da bulunan tüm sözcüklerin sözcük
türlerini ve ek özelliklerini gösteren, Türkçe
için bir ilk olacak, güncel bir doğal dil i̧leme (DDİ) sözlüğü olu̧turmayı ve olu̧turulan
sözlük yardımıyla otomatik i̧aretlenen TUD
metinleri kullanılarak derlem-temelli bir sözcük ve ek sıklığı sözlüğü hazırlamayı hedeflemektedir. Buna paralel olarak, olu̧turulacak
DDİ sözlüğünü yazılımında kullanan, herkesin
eri̧ebileceği, web tabanlı bir morfolojik i̧aretleyici tasarlanacak, geli̧tirilecek ve çevrimiçi,
ücretsiz biçimde son kullanıcının hizmetine
sunulacaktır.
6. Kaynaklar
[1] Aksan, Y. et al., “Construction of the
Turkish National Corpus (TNC)”, Proceeding
of the Eight International Conference on
Language Resources and Evaluation (LREC
2012), İstanbul, (2012).
[2] Ambati, B., Reddy, S., Kilgarriff, A.,
“Word sketches for Turkish”, Proceedings
of the Eighth International Conference on
Language Resources and Evaluation (LREC
2012) İstanbul, (2012).
729
Web Tabanlı Türkçe Ulusal Derlemi (TUD) - Yeşim Aksan, Mustafa Aksan, Selma Ayşe Özel,
Hakan Yılmazer, Umut Ufuk Demirhan, Ümit Mersinli, Yasin Bektaş, Serap Altunay
[3] Apache HTTP Server Project,
http://httpd.apache.org/
[16] MySQL 5.5 Release Notes,
http://dev.mysql.com/doc/relnotes/mysql/5.5/en/
[4] Aston, G., Burnard, L., “The BNC
handbook: Exploring the British National
Corpus with SARA”, Edinburgh: Edinburgh
University Press. (1998).
[17] PHP5.4.2,
http://www.php.net/releases/5_4_21.php
[5] Baisa, V. ve Suchomel., V., “Large corpora
for Turkic Languages and unsupervised
morphological analysis”, Proceedings of
the Eighth International Conference on
Language Resources and Evaluation (LREC
2012), İstanbul, (2012).
[6] Biber, D., Representativeness in corpus
design. Literary and Linguistic Computing, 8,
243-257 (1993).
[7] CSS, http://www.w3schools.com/css/
[8] Dalkılıç, G., Çebi,Y., A 300 mb turkish
corpus and word analysis, Advances in
information system, 205–212, (2002).
[9] Datatables by SpryMedia,
http://www.sprymedia.co.uk/article/DataTables
[10] HTML, http://www.w3schools.com/html/
[11] Hundt, M., Nesselhauf, N. ve Biewer,
C. (Eds.), “Corpus linguistics and the web”,
Amsterdam/New York: Rodopi (2007).
[12] Javascript,http://www.w3schools.com/js/
[13] Jquery, http://jquery.com/
[14] Lee, D., “What corpora are available?”
A. O’Keefe ve M. McCarthy, (Eds.), The
Routledge handbook of corpus linguistics,
107-121, London: Routldege, (2012).
[18] PHP APC Extension,
http://php.net/manual/en/book.apc.php
[19] PHP PECL IGBinary Extension, http://
codepoets.co.uk/2011/php-serialization-igbinary/
[20] Sak, H., Güngör, T., Saraçlar, M., “Turkish
language resources: Morphological parser,
morphological disambiguator and web corpus”,
Advances in natural language processing,
417–427, (2008).
[21] Say, B., Zeyrek, D., Olazer, K. ve Özge,
U., “Development of a corpus and a treebank
for present-day written Turkish”, Current
research in Turkish linguistics: proceedings of
the 11th International Conference of Turkish
Linguistics, 183-192, (2002).
[22] Sinclair, J. M. ,“How to build a corpus”, M.
Wynee (Ed.), Developing linguistic corpora: A
guide to good practice, ss. 96-101, (2005).
[23] The FreeBSD Project,
http://www.freebsd.org/
[24] The Perl Programming
http://www.perl.org/get.html
Language,
[25] Wynne, J. (Ed.), “Developing linguistic
corpora: A guide to good practice”,
http://www.ahds.ac.uk/guides/linguisticcorpora/appendix , (2005).
[15] McEnery, T., Hardie, A., “Corpus
linguistics”, Cambridge: Cambridge University
Press, (2012).
730