Class TurkishTokenStream


  • public class TurkishTokenStream
    extends java.lang.Object
    TurkishTokenStream Verilen bir doayadan veya herhangi bir stream'dan Türkce kelimeleri sirayla almak için kullanilir. İki constructor'u vardır, istenirse verilen bir dosyayi istenirse de herhangi bir inputstream'ı isleyebilir. Biraz optimizasyona ihtiyaci var ,ama corpus.txt deki tüm kelimeleri tek tek nextWord() ile cekmek yaklasik 0.8 saniye aldi. (Athlon 900)
    Author:
    MDA & GBA
    • Constructor Summary

      Constructors 
      Constructor Description
      TurkishTokenStream​(java.io.InputStream is, java.lang.String encoding)
      Herhangibir input Streaminden'den kelime okuyan TurkishTokenStream oluşturur.
      TurkishTokenStream​(java.lang.String fileName, java.lang.String encoding)
      Dosyadan kelime okuyan TurkishTokenStream oluşturur
    • Method Summary

      All Methods Instance Methods Concrete Methods 
      Modifier and Type Method Description
      char harfIsle​(char chIn)  
      boolean isSentenceDelimiter​(char ch)  
      java.lang.String nextSentence()
      Metindeki veya stream'deki bir sonraki cümleyi getirir
      java.lang.String nextWord()
      Metindeki veya stream'deki bir sonraki kelimeyi getirir - Büyük harfleri küçültür - Noktalama işaretlerini yutar.
      void setStatistics​(Istatistikler statistics)  
      • Methods inherited from class java.lang.Object

        clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait
    • Field Detail

      • MAX_KELIME_BOY

        public static int MAX_KELIME_BOY
      • MAX_CUMLE_BOY

        public static int MAX_CUMLE_BOY
    • Constructor Detail

      • TurkishTokenStream

        public TurkishTokenStream​(java.lang.String fileName,
                                  java.lang.String encoding)
        Dosyadan kelime okuyan TurkishTokenStream oluşturur
        Parameters:
        fileName -
        encoding - : default için null verin
      • TurkishTokenStream

        public TurkishTokenStream​(java.io.InputStream is,
                                  java.lang.String encoding)
        Herhangibir input Streaminden'den kelime okuyan TurkishTokenStream oluşturur.
        Parameters:
        is -
        encoding - : default için null verin
    • Method Detail

      • nextWord

        public java.lang.String nextWord()
        Metindeki veya stream'deki bir sonraki kelimeyi getirir - Büyük harfleri küçültür - Noktalama işaretlerini yutar.
        Returns:
        Sonraki kelime, eğer kelime kalmamışsa null
      • nextSentence

        public java.lang.String nextSentence()
        Metindeki veya stream'deki bir sonraki cümleyi getirir
        Returns:
        Sonraki cümle, eğer kalmamışsa null
      • harfIsle

        public char harfIsle​(char chIn)
      • isSentenceDelimiter

        public boolean isSentenceDelimiter​(char ch)
      • setStatistics

        public void setStatistics​(Istatistikler statistics)