Forskjell mellom versjoner av «Kategori:Polyglotta:Documentation»

Fra hf/dmlf
Hopp til: navigasjon, søk
(Rutine for å bygge ord for ord-leksika for BP.)
 
Linje 1: Linje 1:
=== Rutine for å bygge ord for ord-leksika for BP.  ===
 
  
1. Finn det utalget av tekster i eksportformat som skal være grunnlaget for leksikonet, L.<br>2. Rens teksten for alt annet en ordene.<br>3. Alfabetiser Sanskrit (=Originalspråk=O) etter sanskrit rekkefølge<br>4. Grupper alle ordene under røtter (=rot-gruppe, RG). (Ord er alle enheter som er bøyd med endelse, på sanskrit skilt ved blank eller skilletegn.)<br>5. Bygg multipler (MT) av de eksporterte materialet (det man skal lage L av, e.g. alle tekstene i TLB, san,tib,chi,eng= Tr1,Tr2,Tr3,Tr4).<br>6. Velg en RG av gangen og søk alle ordene i den i det samlede valgte multippelmaterialet , saml så opp alle de multiplene der disse ordene finnes.<br>7. Finn så de Tr-ordene som forekommer flest, nest flest, tredje, fjerde og femte etc. flest ganger hver for seg av tib, chi eng, i de relevante MT, og sett dem opp alfabetisk (etter den orden språket alfabetiseres etter) og etter frekvens. Husk at tib og kin, selv engels og andre språk, har vanligvis flere stavelser, selv ord, med mellomrom (ikke kin) for et ord. Her må det settes en grense, f. eks ti eller tyve stavelser. Disse tib,chi,eng-ordene vil med høy grad av sannsynlighet tilsvare san-ordene i den aktuelle RG.<br>8. Velg manuelt hver for seg de Tr som henhører til en RG.<br>9. Finn alle MT der det finnes et av O ord i RG, men i Tr ingen av de ordene som så langt er registrert, og få på denne måten tak på alle de ennå ikke registrerte ekvivalenter.<br>10. Kjør alle enkeltordene i den valgte RG, med de etablerte Tr for hele en RG, mot hele dette utvalgte MT-materialet, slik at hvert enkelt ord i en RG ekvivaleres med akkurat de Tr som tilsvarere akkurat dette bøyde O-ordet.<br>11. Bygg det hele inn i L etter et alfabetisk og grammatisk analytisk format, RG for RG.<br>Dette er begynnelsen på å etablere et L, men når det lastes inn flere tekster og mer ordmateriale, må dette kumulativt integereres i L.<br>12. Lag en ordnet liste over alle O-ordene i den nye teksten.<br>13. Finn alle O-ord fra den nye teksten i det bestående L.<br>14. Undersøk om ekvivalentene til disse ordene i den nye tekstens MT finnes allerede i L, og om dette ikke er tilfelle, skriv ut alle de hertil tilhørende MT i nye tekstens, slik at de nye ekvivalentene i disse kan integeres i L.<br>15. Finnn alle O-ordene (resten!) i den nye teksten som ikke finnes i det gamle L.<br>16. Relater dem til de relevante MT og finn deres Tr-ekvivalenter etter samme metode som ovenfor med det nye MT som materiale.<br>17. Integrer resultatet i L, enten som nye RG eller i allerede eksisterende RG.
 
 
<br>
 
 
<br>
 
 
[[Category:Polyglotta|Documentation]]
 

Nåværende revisjon fra 21. mai 2012 kl. 09:25

Underkategorier

Denne kategorien har følgende 2 underkategorier, av totalt 2.