-
Notifications
You must be signed in to change notification settings - Fork 7
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
繁体和字频问题 #4
Comments
确实有这两个问题。 因为原有词库里是简繁混合的,一些繁体字和简体字的辅码不一样,不管怎么转都是有损的。我个人用的时候又用 opencc 剔了一遍,只留了简体。 词频的话,不是所有的单字都预设了词频,而且辅码也会影响排序,需要自己手动调整。虽然引入了 luna_pinyin 的词频,但仍然不是很理想。我自己用久了,一些词频也逐渐调整过来了。其实最好要有一个好一点的多字词库,用起来会更顺手。不过最好都要重新弄一下编码,不然总会有奇奇怪怪的组合出来。 我传了一下我目前的用的一些词库,你可以试一下,有一些个人趣味。我主要是用的久了,很多输入法自己记住了。 |
是的,因为有辅码的加入使得编码不同了,字频也不能完全解决问题。如果不要辅码的话,还不如直接用一般的双拼方案合适。 要么把 |
加了辅码时,sort改成original也是一样的,字频依然不对。就是不知道该如何解决加了辅码影响了字频的问题。不过实在不行这也不是什么大问题,毕竟可以用辅助码了,也不是特别在意这个单字字频了。 |
我再研究一下里面的问题。 词库你也可以试一下我个人的词库. 这个反查脚本也挺有用。 from pathlib import PosixPath
import sys
map = {}
need_parser = sys.argv[-1]
with open(PosixPath('~/.local/share/fcitx5/rime/zrm_pinyin.dict.yaml').expanduser(), 'r') as f:
is_start = False
for line in f.readlines():
if not is_start:
if line == '...\n':
is_start = True
continue
elif line == '\n':
continue
ls = line.replace('\n', '').split('\t')
if len(ls) < 2:
continue
if ls[0] in map:
map[ls[0]].append(ls[1])
else:
map[ls[0]] = [ls[1]]
for i in range(len(need_parser)):
if need_parser[i] in map:
print(need_parser[i], ' '.join(map[need_parser[i]])) 这东西用多了就挺顺手了,字频日常用用差不多都能调回来。 |
尝试了一下改顺序,似乎顺序也没有生效。字频目前应该是没有其他办法了。 |
我神奇地发现,使用最新的librime 1.8.5字频就好了。 经过了测试,发现就是1.8.0修复了,commit是 rime/librime@dd6af3d ,在1.7.3 cherry-pick这个commit一样可以解决。 Windows上就是用 https://github.com/fxliang/weasel/releases 这个地方维护的小狼毫,就用的更新的librime,没有字频问题了。 不管怎样终于算是解决了。 参考: |
字频是属于librime的bug,Q&A里可以修改了。也感谢提供了自用的词库,好用。 |
好的,已经修正过来了。词库能给你带来便利是最好 :) 。 |
有两个问题:
The text was updated successfully, but these errors were encountered: