• Random
  • Archive
  • RSS

ஒருங்குறியில் தமிழ் - தேவைகளும் தீர்வுகளும் – கருத்தரங்கு குறிப்புகள்

தமிழ் இணையக் கல்விக்கழகத்தில் தமிழ் ஒருங்குறி தொடர்பாக ’ஒருங்குறியில் தமிழ் - தேவைகளும் தீர்வுகளும்’ என்ற தலைப்பில் ஒரு நாள் கருத்தரங்கு, நேற்று நடைபெற்றது. நிகழ்ச்சி நிரல்

முதல் அமர்வில் ஒருங்குறியில் தமிழ் சின்னங்கள், பின்னங்கள் பற்றிய ஶ்ரீரமண ஶ்ர்மாவின் பரிந்துரைகள் பற்றியது. வழக்கொழிந்த சின்னங்களை பின்னங்களையும் குறியேற்றமே செய்யத்தேவையில்லை என்ற சலரின் கருத்து வியப்பூட்டியது. கணக்கதிகாரம் ஒருங்குறியில் இருக்க இக்குறியேற்றங்கள் அவசியம்.

அடுத்து, TACE-16 குறிமுறை பற்றிய அமர்வு. TACE-16 பற்றி என் தனிப்பட்ட கருத்து மாறுபாடுகளால், அதிகம் கவனிக்கவில்லை. பதிப்பாளர்களுக்கு ஒருங்குறி பயன்படுவதில்லை என்பது தெரிந்த செய்தி, ஆனால் தி இந்து தமிழ், இந்திய மொழிகளில் ஒருங்குறி மூலம் அச்சிடும் முதல் நாளிதழ் என்பது தமிழ் ஒருங்குறி பொறுத்தவரையில் நல்ல முன்னேற்றம். சிங்கப்பூரில் TACE-16 மூலம் நாளிதழ் அச்சிடப்படுகிறது என்பது இன்னொரு செய்தி.

தாமதங்களால், அடுத்த அமர்வு உணவு இடைவெளிக்குப்பின் நகர்த்தப்பட்டது. நல்ல உணவு.

பின்னர், ‘ஒரு இந்தியா ஒரு எழுத்துரு’ (லிபி??) என்ற கட்டுரை ஒரு முதியவரால் வாசிக்கப்ப்டது. ISCII / இன்ஸ்க்ரிப்ட்டின் நீட்சியாக எனக்கு விளங்கியது. பெயரளவில் 'ஒரு இந்தியா’ என்பது அழகாக இருந்தாலும் அடிப்படையில் நிறைய தொடர்பிருப்பினும், அதற்கிணையான பல சிறு வேறுபாடுகளைக் கொண்ட பல மொழிகளை அதீத தரப்படுத்தல் / ஒன்றிணைத்தில் நுட்ப ரீதியில் கூட சிக்கல் ஏற்படுத்தும் என்பது என் கருத்து.

அடுத்து 'ஒருங்குறி எழுத்துருக்களும், விசைப்பலகையும் - பயன்பாடு’ என்ற அமர்வு. முதலில் தொடுதிரை, எண்கைபேசி, உணர்வு உள்ளீட்டு முறைகள் பற்றி பேசப்பட்டது. தமிழ் 99 இன் ஆசிரியர்களுள் ஒருவரான நபர் அது பழக அவ்வளவு எளிதில்லை, மேலும் எளிமையான விசைப்பலகை அமைப்புகள் வரவேண்டும் எனக்கூறியது நிதர்சனத்தை மதிக்கும் கருத்து. பின்னர் தேசிய தகவல் மையம் (NIC) அமைப்பினரின் பேச்சு. கருத்தரங்கின் மையத் தலைப்பிலிருந்து சற்று விலகியிருந்தாலும் அரசு நிறுவனங்கள் உருவாக்கும் மென்பொருட்களில் தமிழ் / இந்திய மொழிகளின் பயன்பாடு / சவால்கள் பற்றி இந்த பேச்சு அமைந்தது. கேள்வி நேரத்தில் நான் ஶ்ரீ/ஸ்ரீ பற்றியும் தேவையற்ற இடங்களில் ZWNJ உள்ளீடும் உள்ளீட்டு கருவிகள் பற்றியும் பகிர்ந்தேன். இதனை தரப்படடுத்த வேண்டும் என்று முறையிட்டேன். தர்க்கமுடிவுபெறாமல் சில வாதங்கள். மணி. மூ. மணிவண்ணன் அவர்களுக்கு ஒரு மின்னஞ்சல் அனுப்பியுள்ளேன்.

அடுத்து நவீனக்கருவிகளில் தமிழ் ஆதரவு குறித்து பத்ரி சேஷாத்ரியும், தமிழில் கையெழுத்து உள்ளீடுக்கான ஆண்ட்ராய்டு செயலி பற்றியும் பேசப்பட்டது. சிங்கப்பூர் அரசின் முயற்சியால் ஆப்பிளில் தமிழ் ஆதரவு மேம்படுத்தப்பட்டதையும், அதேபோல் தமிழக அரசு மூலம் நாமும் முயற்சிக்க வேண்டும் என முன்வைக்கப்பட்டது.

தேனீர் இடைவேளைக்குப்பின் பரிந்துரைகள் தொகுக்கப்பட்டன. தமிழ் சின்னங்கள், பின்னங்கள் ஒருங்குறி நிரலாளர்களுக்கான ஆவணத்தில் எவ்வாறு ஒலிபெயர்க்க வேண்டும் என ஒரு bikeshedding விவாதம் தவிர மற்றவையெல்லாம் விவாதங்கள் அவ்வளவு இல்லாமல் அரசுக்கு அளிக்கப்பட்ட பரிந்துரைகள். அரசு அலுவலகங்களில் TACE-16 பயன்பாடு பற்றிய பரிந்துரை ஒருங்குறியே முதன்மை குறிமுறை என்ற நிலையில் மாற்றத்தை ஏற்படுத்தும் முயற்சி. ஆனால் ஒருங்குறி இங்கு நிலைத்து நிற்கும் என்பதில் எந்த ஐயப்பாடும் எனக்கு இல்லை.

நிகழ்ச்சி தொடர்பான அவணங்கள் இணையத்தில் இல்லை, அனைத்தும் தளத்தில் எற்றப்பட்டால் நன்று.

நீண்டநாட்கள் பின்பு ஶ்ரீநிவாசனையும், செங்கைப்பொதுவன் ஐயாவையும் சந்தித்தில் மகிழ்ச்சி. ஶ்ரீரமண ஶ்ர்மா, பத்ரி சேஷாத்ரி, மணி.மூ.மணிவண்ணன் போன்றவர்களுடனான 'பாதி-உரையாடல்கள்’ நன்றாக அமைந்தன.

    • #தமிழ்
    • #ஒருங்குறி
    • #tamil
    • #unicode
    • #tace-16
  • 12 years ago
  • 1
  • Comments
  • Permalink
Share

Short URL

TwitterFacebookPinterestGoogle+

#IndiaBlocks - We don’t need SOPA / PIPA for censorship

India doesn’t need SOPA / PIPA for censorship. It can block anything on web. There is supposedly a draconian IT Rules 2011 amendment, but even that is not required / followed for blocking anything the government does not like. They don’t need SOPA / PIPA / even follow their own legislated IT Rules to block stuff on web. Yes, we are cool like that.

For the first time, Wikipedia article gets blocked through a DoT order. http://en.wikipedia.org/wiki/Persecution_of_Muslims_in_Burma is not accessible if you are in India. Reading 2012_Assam_violence and Internet_Censorship_in_India will give some background.

Both the Supreme Court and the Delhi High Court have rejected petitions to unblock the content. Internet Freedom is progressing in a worrying direction

    • #assam
    • #censorship
    • #foe
    • #itrules2011
    • #wikipedia
    • #planet
  • 13 years ago
  • Comments
  • Permalink
Share

Short URL

TwitterFacebookPinterestGoogle+

Translating and Editing SVG

Picture is worth 1000 words. Illustrations are key in conveying the idea in a simple visual manner. But editing them puts in a entry barrier of knowing to use the tools to edit them even if it’s a spelling correction / minor update. Translating them into other languages was even more a pain. It won’t be the case anymore once the User:Jarry1250‘s TranslateSvg extension gets deployed after final touches. It is currently available at http://translatesvg.wmflabs.org/wiki/Main_Page for beta testing. It nicely sits on top of the Translate extension, so one gets all the nice features like translate suggestions from the translation memory among others.

imageAnother feature that will be very useful(not yet available) in improving editors ability to use these illustrations effectively will be Online Cropping / Editing of SVG. User:Planemad did an amazing map of Indian National Highways. But for individual highways one has to crop the particular segment and recreate though doing this manually takes a lot of time and effort. A lot of geo-visualisation illustrations can be easily made if there is a tool which is as simple as TranslateSvg that can make these.

    • #wikipeida
    • #planet
    • #svg
    • #translate
    • #maps
    • #translatesvg
  • 13 years ago
  • 3
  • Comments
  • Permalink
Share

Short URL

TwitterFacebookPinterestGoogle+

Mobile Input methods

@Yuvipanda and me were discussing about available Tamil input schemes for Android. Until ICS Tamil had no support in android and pre-ICS phones had very limited number of languages supported. Jelly bean added some more languages, but input methods, complete language support even for those limited languages have a long way to go. Even though android doesn’t provide these tools out of the box, developers passionate about language have also written apps like TamilVisai which is the popular opensource input method editor available for Tamil. 

image

Although these apps let people type, some of these are sub optimal for a seemless experience. This app for instance lets users input into its own preview box and then to the text area in the interface. This will defeat auto-complete for example. But this app was developed couple of years back when there was no rendering support, so the preview box made sense back then.

With Mobile page views of Wikipedia growing at a rapid rate across languages, it is essential to have good input method tools for all languages to increase them further because the current page views are mostly through clicking link and not really searching. This will also help in enabling mobile contributions.

While there can better layouts for touch and it need not always be based on QWERTY unlike desktops, but to people who come from desktop, having these layout will not hurt. Extension:Narayam supports over 30 different keyboard layouts and creating an app which can use the rules for the layouts will make mobile input a lot easier on Android and of course more layouts can be added.

    • #mobile
    • #tamil
    • #inputmethod
    • #android
    • #thamizha
    • #tamilvisai
    • #planet
    • #wikipedia
  • 13 years ago
  • 5
  • Comments
  • Permalink
Share

Short URL

TwitterFacebookPinterestGoogle+

Localisation Tools @ Wikimedia

As part of my role at Wikimedia Foundation, I shall be posting about things related to localisation / internationalisation efforts at Wikimedia Foundation Localization team and things generally related to Wikipedia / i18n.

For those who are unaware of the way it works, here is a short intro.

  • Wikimedia projects exist in 280+ langauges.
  • The software Mediawiki is localized at translatewiki.net which itself is a wiki powered by Translate extension
  • Similar to the large army of volunteers who contribute content to Wiki projects, there is also a small army (~5000+) of volunteer translators in all these 280+ languages.

The localisation team develops / maintains extensions / additional piece of software which help users of these language versions of the Wikimedia projects read / contribute to them by providing tools which assist them.

  • Extension:WebFonts delivers fonts from the server through the browser to viewers and does not mandate user’s system should have the fonts installed to view the pages.
  • Extension:Narayam provides an input method solution for languages which do not have their own physical keyboards (primarily used for non latin scripts).
  • Extension:LocalisationUpdate, Extension:CLDR, Extension:TranslationNotifications, Extension:Babel are some of the other behind the scenes infrastructure which assist localisation.
  • Fixing bugs to support complex scripts / Right to left languages in the all of wikimedia software
  • Universal_Language_Selector - a new tool which assists users in switching interface language and use language tools is currently being built.

I will keep posting more about these in detail in the days to come.

    • #wikipedia
    • #wikimedia
    • #l10n
    • #webfonts
    • #planet
  • 13 years ago
  • 3
  • Comments
  • Permalink
Share

Short URL

TwitterFacebookPinterestGoogle+

SHRI/SRI ? – ஸ்ரீ = ஶ் + ரீ != ஸ் + ரீ - Unicode

ஶ் - An introduction

For those of you who are not aware of the existance of this character, it is a grantha character SHA normally used only in sanskrit texts written in Tamil. Unlike ஸ, ஷ, க்ஷ, ஜ and ஹ. ஶ made a late entry into Unicode. ஶ however was very much alive in print form particularly in Hindu religious texts in Tamil for a long time now.

Code point, Glyph :

Let us first understand how Tamil characters are treated in unicode. All Uyirmei characters are considered as “complex glyph" and are stored with consequent individual elements code point. For instance க் gets stored as க, followed by ்(pulli/Virama). When consecutive individual elements come in the text, the font chooses to display a single complex glyph. This is also the reason why using the standard character length of Indic text will be longer than what it is! Read Gerard’s blogpost twitter-in-chinese-or-in-tamil

ஸ்ரீ = ஸ் + ரீ to ஶ் + ரீ:

Until Unicode 4.1, ஶ did not have a codepoint in Unicode. So ஸ்ரீ was considered as a complex glyph of the form ஸ் and ரீ. Later ஸ்ரீ was considered to be ஶ் + ரீ. Linguistically if one is "strict”, it shall be right to call ஸ்ரீ as ஶ் + ரீ as that was the intended pronunciation. One can even see how the glyph's ஶ் and ஸ்ரீ are slightly related in shape. But if one accepts that language evolves (read previous post on Sri’s cultural aspect) and the fact that ஶ never made into mainstream except for religious texts, ஸ்ரீ = ஸ் + ரீ can be accepted. Kaa.Sethu wrote other usecases non-conjunct form of ஸ்ரீ. Seeing that the definition change could well be a good thing. 

Dual encoding / re-coding ஸ்ரீ:

I am not sure why Unicode did not think of potential recoding text when they changed the definition of ஸ்ரீ = ஸ் + ரீ to ஶ் + ரீ. May be they thought Tamil Unicode was in its infancy and not much text would be there. The fact that am writing this blogpost after 7 years of Unicode 4.1 is saddening. Most of the popular Unicode fonts are pre 4.1 and do not have glyph for ஶ். So they still use the old definition of ஸ்ரீ = ஸ் + ரீ. The input method developers also ignored the Unicode standard may be they did not have the “vision” and were shortsighted by the font’s display.

But there are people who follow the rules of the game and upgrade themselves to latest standard even if they stand out from the crowd. Among the major technology players, Apple has implemented Unicode strictly and has updated. This is the reason why reading texts in and out of Mac/iOS a pain. ஸ்ரீ typed on most non-Mac input tools uses ஸ் + ரீ and hence Apple font does not display the complex glyph and choses to display them individually as ஸ்‌ரீ. Other hand ஶ்ரீ typed on Mac will be shown as seperate glyphs outside Apple world which uses fonts with older standards. Where is the interoperability of Unicode? LOST! Think of searching these texts? We are back to pre-unicode days! Some fonts like Lohit-Tamil show the same glyph for both the forms, but that is a deviation from Unicode standard, but a step forward in usability.

Solutions?

1. Ask everyone to upgrade to latest Unicode standard. Easier said than done.

2. Make a proposal to Unicode to announce ஸ்ரீ and ஶ்ரீ canonically equivalent. This however will be a cultural issue with people following grammar strictly / treating language as a static entity opposing and modernists supporting it based on mass usage.

PS: For TanitTamizh folks, this will be a non issue, but fortunately / unfortunately Tamil masses still have to live this problem until a solution is found.

    • #apple
    • #sri
    • #shri
    • #ஸ்ரீ
    • #ஶ்ரீ
    • #தமிழ்
    • #Tamil
    • #unicode
    • #font
    • #sha
    • #sa
    • #iphone
    • #ipad
  • 13 years ago
  • 3
  • Comments
  • Permalink
Share

Short URL

TwitterFacebookPinterestGoogle+

#OpenDataHYD Story

Moments from #OpenDataHYD on 23 June 2011

  • 13 years ago
  • Comments
  • Permalink
Share

Short URL

TwitterFacebookPinterestGoogle+

SHRI/SRI ? – ஸ்ரீ = ஶ் + ரீ != ஸ் + ரீ

Recently, reading Unicode standard for Tamil gave me some insights, both cultural and technological. I will first put my understanding / views on the cultural aspect and then come to technical part of it in a seperate post.

ஸ்ரீ is a ligature used to represent ஶ் + ரீ, one of the commonly used forms of ஶ், which is a consonent of modern Tamil primarily used to write sanskrit words. The equivalent devanagiri alphabet is श्री pronounced as shri. If one has traveled across Tamil Nadu, they can say many people will have problems pronouncing ஸ்ரீ. I have heard people calling me “See"kanth, "Stri"kanth. The most common pronunciation I have heard however has been "Sri"kanth which is how I write my name in English. This however changed when I came out of Tamil land and having Hindi speaking friends who used to call me "Shri"kanth. I felt they have stronger MTI just like those who called me "Stri"kanth.

Over a period of time, Tamil people have started pronouncing ஸ்ரீ as Sri instead of Shri. This is a deviation from "old-school vedic folks”(for the lack of better word to stereotype) who treat essence of word lies in its pronunciation. However, extrapolating Tamil’s pronunciation rules (which is only defined for Tamil characters btw), one can adopt a stand to pronounce it the way one wants, i.e either Sri or Shri.

For personal reasons, I have chosen to henceforth write my name in Tamil as ஸ்‌ரீகாந்த் as against ஸ்ரீகாந்த் as I believe written form is meant to serve as  pronunciation guide and ஸ்‌ரீகாந்த் is close to how my name is pronounced.

PS 1: If you are unable to view ஶ் (SHA) on your screen, you can see the character U+0BB6 in the unicode table. It just means the font you use still doesn’t have a glyph for U+0BB6.

PS 2: In most cases you will not be able to type ஸ்‌ரீ on your computer (unless you use a Mac) and in the next post I shall write about why it is so, why apple products display ஸ்ரீ as ஸ்‌ரீ in some cases and how we should try to fix it part of the technical aspect of SHRI SRI

    • #apple
    • #font
    • #grantham
    • #shri
    • #sri
    • #tamil
    • #unicode
    • #ஸ்ரீ
    • #sha
    • #sa
    • #ஸ
    • #ஶ
  • 13 years ago
  • 4
  • Comments
  • Permalink
Share

Short URL

TwitterFacebookPinterestGoogle+

Reading Tamil texts in old script.

Tamil Script had undergone a reform on select characters to bring uniformity and simplify the writing style in 1960’s. The table below shows the old way of writing on the left and the current way on the right. I have mild memories of seeing bus boards having னை in சென்னை(Chennai) in its old form with elephant’s trunk during early 90’s.

Classical and Modern script

Now its possible to read texts in their old form digitally, thanks to the newly released Lohit-Tamil-Classical font. Announcemnt Download link

Having classical fonts will not only help giving the user the feel of reading historical texts the way they were written, but will also be probably making digitisation of old texts simpler with OCR solutions.

Copyright notes: “Simplified tamil script” by User:Avedeus, under CC-BY-SA 3.0 Unported, from Wikimedia Commons

    • #font
    • #lohit
    • #script
    • #tamil
    • #writing scheme
    • #தமிழ்
  • 13 years ago
  • 2
  • Comments
  • Permalink
Share

Short URL

TwitterFacebookPinterestGoogle+

Writing short texts

I used to blog sometime back in college. I wouldn’t say twitter killed it. Its mostly my impatience to sit and write long texts. So I now attempt to restart sharing content in “my own” place (as against a facebook wall post :)) writing extended short texts about myself, Wikipedia, Tamil, Technology, Public Transit, Chennai, India and other random things.

    • #blogging
    • #hello world
  • 13 years ago
  • 1
  • Comments
  • Permalink
Share

Short URL

TwitterFacebookPinterestGoogle+

About

Extended texts from @logic

Find me on the web

  • @logic on Twitter
  • Facebook Profile
  • Google
  • Linkedin Profile
  • srikanthlogic on github

Twitter

loading tweets…

  • RSS
  • Random
  • Archive
  • Mobile

Unless specified content in this space is under CC-BY-SA.

Effector Theme — Tumblr themes by Pixel Union