11月05日,星期天 03:30
火讯财经讯,据IT之家消息,影子图书馆“安娜的档案”官方博客当地时间10月4日宣布,该网站现已经收购一批“独特的”750余万份、共计359TB的电子图书,并表示愿意为一系列大语言模型公司提供独家早期访问权限,以获得高质量的图书OCR(光学字符识别)和文本提取。“安娜的档案”在博客中介绍,读秀是由超星数字图书馆创建的大量扫描图书的数据库,大多数是学术图书,通过扫描可以使它们以数字化的形式提供给大学和图书馆。“安娜的档案”表示曾希望批量获取它,并为此分配了多个月的全职工作。